RkBlog

Hardware, programming and astronomy tutorials and reviews.

Wykorzystanie WebKit/PyQt4 do zbierania danych, część 2

Wyciąganie odnośników reklam z kodu stron, zapisywanie danych w bazie za pomocą QtSql

Kolejny etap to napisanie parserów wydobywających linki reklam. W przypadku wielu flashowych reklam link, na który kieruje reklama przekazuje się w parametrze animacji, który zazwyczaj nazywany jest clickTag (lub podobna nazwa). W przypadku innych systemów - trzeba rozpoznać wzór i napisać wyrażenie regularne. Pomocne w tym celu będzie przejrzenie kodu HTML zwracanego przez webkita. Przykładowo widżet AdTaily wstawia linki postaci:
<a style="position: relative; font-weight: normal; text-align: left; background-image: none; background-repeat: initial; background-attachment: initial; -webkit-background-clip: initial; -webkit-background-origin: initial; background-color: initial; padding-left: 0px; padding-right: 0px; padding-top: 0px; padding-bottom: 0px; margin-left: 0px; margin-right: 0px; margin-top: 0px; margin-bottom: 10px; display: block; width: 125px; height: 125px; background-position: initial initial; " href="http://www.megiteam.pl/" title="Hosting nowych technologii" rel="nofollow" target="_blank">
Dość charakterystyczne style można wykorzystać do napisania wyrażenia regularnego wyciągającego adresy URL.

Parser AdTaily

Reklamy Flashowe - clickTag

Zapis danych do bazy

Za obsługę baz danych w Qt odpowiada komponent QtSql. Jest on dostępny także w PyQt4, lecz jego API nie jest zgodne z DB API dla modułów Pythona (bo nie było projektowane z myślą o Pythonie).

Kod źródłowy

RkBlog

3 November 2009;

Comment article