RkBlog

Hardware, programming and astronomy tutorials and reviews.

Dodatkowe opcje Google

Opis zachowań pająka oraz wyszukiwarki Google wraz z radami dla webmasterów.

Najpopularniejsza obecnie wyszukiwarka została stworzona przez studentów uniwersytetu Stanford - Larego Page'a i Sergeya Brina. Początkowo projekt nosił nazwę BackRub a serwer wyszukiwarki mieścił się w pokoju Page'a w akademiku :) Po dwóch latach projekt zmienił nazwę na Google oraz powołano do życia firmę o tej samej nazwie. Nazwa wzięła się od angielskiego słowa googol określającego liczbę 10100. Liczba ta jest tak ogromna że nie odpowiada żadnej istniejącej wielkości. Bazując na wyrazie googol autorzy wyszukiwarki chcieli podkreślić cel - uporządkować ogromną ilość stron www.

Indeksowane dokumenty:

Google konwertuje wyżej wymienione dokumenty do formatu HTML. Nie trzeba mieć specjalnych programów do ich otwarcia.

Jak Google indeksuje strony?

Google wysyła swojego pająka - googlebota by szukał witryn internetowych i indeksował je - zbierał zawartość. Indeksując strony HTML googlebot zwraca uwagę głównie na elementy najbardziej widoczne dla użytkownika. Tagi meta oraz np. komentarze HTML mają małe znaczenie gdyż nie są widoczne dla użytkownika. Robot zwraca szczególną uwagę na frazy występujące między znacznikami H1, H2 itp. pogrubione lub napisane kursywą. Ważna jest też częstość wystąpienia danej frazy na stronie. Najważniejszym czynnikiem określającym pozycję strony w wynikach jest...

PageRank

Nazwa pochodzi od L. Page'a i określa sławny algorytm Google, dzięki któremu wyszukiwarka ta stała się tak popularna. PageRank to wartość jaką posiada każda strona. Upraszczając jego wartość zależy od popularności danej strony w internecie, od liczby odnośników prowadzących do danej strony z innych serwisów. Im więcej tym lepiej. Każda strona odsyłająca do badanej strony przekazuje część swojego PR stronie badanej. Im popularniejsza strona linkuje do nas tym większy będzie nasz PR. W przypadku gdy obie strony wymieniają się linkami ich PR może wcale się nie zmienić jeżeli ich popularność jest zbliżona :) Google dość często ignoruje takie towarzystwa "wzajemnej adoracji" oraz strony z dużą ilością linków - tzw. farmy linków, strony które mają generować sztuczną popularność. Umieszczanie linku na takiej farmie może skończyć się nawet obniżeniem pozycji strony. Googlebot nie czyta linków ukrytych w np. animacjach FLASH. Skrypty JS zaczyna właśnie czytać!

Taniec Google (Google Dance)

Co około 4 tygodnie następuje przeliczenie wartości PR stron, dodanie nowych - aktualizacja bazy. Baza Google jest ogromna i aktualizacja nie jest natychmiastowa. Trwa kilka dni i w tym czasie wyniki wyszukiwania danej frazy wykonane w krótkich odstępach czasu mogą różnić się. To jest tzw. taniec google, "szybka" zmiana rezultatów wyszukiwania. W czasie google dance można zobaczyć mniej więcej jak zmienią się wyniki wyszukiwania. Wystarczy w danej chwili dokonać wyszukiwania na stronach: www2 i www3 to adresy do "testowych" wyszukiwarek korzystających z różnych baz danych. Zawsze jeden z nich korzysta z najświeższej (zaktualizowanej) bazy. Można sobie ułatwić i w google wpisać "googledance" :) wyskoczy trochę stron. Na większości z nich znajdziemy pomocny skrypcik wykonujący wyszukiwanie na tych 3 stronach i pokazujący je w jedym oknie co jest dość pomocne...

Tworzenie zapytań


Google i webmasterzy

Google udostępnia wyniki swych wyszukiwań za darmo. Za pomocą skryptu napisanego w PHP czy CGI możemy mieć wyszukiwarkę Google na własnej stronie - wyniki prezentowane są u nas. Skrypty te działają w oparciu o bibliotekę SOAP lub nuSOAP. By skrypt działał musimy podać mu Klucz Licencyjny Google, który uzyskamy za darmo po rejestracji na stronie google (googleAPI). Limit: 1000 zapytań dziennie. Problemy: Siada obsługa polskich liter, nie działa tak szybko jak samo Google. Odpowiedni skrypt można znaleźć np. na www.hotscripts.com w dziale skryptów PHP.
RkBlog

11 July 2008;

Comment article