RkBlog

Hardware, programming and astronomy tutorials and reviews.

Dodatkowe opcje Google

Najpopularniejsza obecnie wyszukiwarka została stworzona przez studentów uniwersytetu Stanford - Larego Page'a i Sergeya Brina. Początkowo projekt nosił nazwę BackRub a serwer wyszukiwarki mieścił się w pokoju Page'a w akademiku :) Po dwóch latach projekt zmienił nazwę na Google oraz powołano do życia firmę o tej samej nazwie. Nazwa wzięła się od angielskiego słowa googol określającego liczbę 10100. Liczba ta jest tak ogromna że nie odpowiada żadnej istniejącej wielkości. Bazując na wyrazie googol autorzy wyszukiwarki chcieli podkreślić cel - uporządkować ogromną ilość stron www.

Indeksowane dokumenty:

  • pdf
  • xls
  • ppt
  • doc
  • rtf
  • txt
  • ps, wk1...wk5, wki, wks, wku, lwp, mw, wks, wps, wdb, wri
Google konwertuje wyżej wymienione dokumenty do formatu HTML. Nie trzeba mieć specjalnych programów do ich otwarcia.

Jak Google indeksuje strony?

Google wysyła swojego pająka - googlebota by szukał witryn internetowych i indeksował je - zbierał zawartość. Indeksując strony HTML googlebot zwraca uwagę głównie na elementy najbardziej widoczne dla użytkownika. Tagi meta oraz np. komentarze HTML mają małe znaczenie gdyż nie są widoczne dla użytkownika. Robot zwraca szczególną uwagę na frazy występujące między znacznikami H1, H2 itp. pogrubione lub napisane kursywą. Ważna jest też częstość wystąpienia danej frazy na stronie. Najważniejszym czynnikiem określającym pozycję strony w wynikach jest...

PageRank

Nazwa pochodzi od L. Page'a i określa sławny algorytm Google, dzięki któremu wyszukiwarka ta stała się tak popularna. PageRank to wartość jaką posiada każda strona. Upraszczając jego wartość zależy od popularności danej strony w internecie, od liczby odnośników prowadzących do danej strony z innych serwisów. Im więcej tym lepiej. Każda strona odsyłająca do badanej strony przekazuje część swojego PR stronie badanej. Im popularniejsza strona linkuje do nas tym większy będzie nasz PR. W przypadku gdy obie strony wymieniają się linkami ich PR może wcale się nie zmienić jeżeli ich popularność jest zbliżona :) Google dość często ignoruje takie towarzystwa "wzajemnej adoracji" oraz strony z dużą ilością linków - tzw. farmy linków, strony które mają generować sztuczną popularność. Umieszczanie linku na takiej farmie może skończyć się nawet obniżeniem pozycji strony. Googlebot nie czyta linków ukrytych w np. animacjach FLASH. Skrypty JS zaczyna właśnie czytać!
  • Wymieniaj się linkami z innymi stronami na zasadzie - oni link tekstowy do ciebie a ty do nich button flashowy :)
  • Tworząc różnego rodzaju darmowe skrypty czy szablony zawierające stopkę do twojej strony pamiętaj by umieścić ją trochę wcześniej niż na samym końcu kodu.
  • Zarejestruj się na forach o podobnej tematyce do twojej strony, daj w podpisie link do twojej strony.
  • PageRank przyznawany jest dla danego serwisu i jego wartość rozprowadzana jest na wszystkie jego strony. Stosuj strukturę hierarchiczną tak by główna strona miała jak największy PR (strona główna odsyła do spisu artykułów, spisy do głównej i do artykułów, artykuły odsyłają do spisów i strony głównej)
  • PageRank w skali od 0 do 10 możesz zobaczyć za pomocą GoogleToolbar, nakładki na przeglądarkę IE. Do ściągnięcia ze strony Google.
  • Wartość PageRank traci obecnie na znaczeniu – wartość PR nie jest równoznaczna z pozycją w wynikach wyszukiwania
  • Google lubi strony, których linki są w katalogi Yahoo i DMOZ. Przekłada się to na większy PR

Taniec Google (Google Dance)

Co około 4 tygodnie następuje przeliczenie wartości PR stron, dodanie nowych - aktualizacja bazy. Baza Google jest ogromna i aktualizacja nie jest natychmiastowa. Trwa kilka dni i w tym czasie wyniki wyszukiwania danej frazy wykonane w krótkich odstępach czasu mogą różnić się. To jest tzw. taniec google, "szybka" zmiana rezultatów wyszukiwania. W czasie google dance można zobaczyć mniej więcej jak zmienią się wyniki wyszukiwania. Wystarczy w danej chwili dokonać wyszukiwania na stronach:
  • www.google.com
  • www2.google.com
  • www3.google.com
www2 i www3 to adresy do "testowych" wyszukiwarek korzystających z różnych baz danych. Zawsze jeden z nich korzysta z najświeższej (zaktualizowanej) bazy. Można sobie ułatwić i w google wpisać "googledance" :) wyskoczy trochę stron. Na większości z nich znajdziemy pomocny skrypcik wykonujący wyszukiwanie na tych 3 stronach i pokazujący je w jedym oknie co jest dość pomocne...

Tworzenie zapytań

  • google nie zwraca uwagi na wielkość liter użytych w zapytaniu
  • znak "+" np: "jan+sobieski" oznacza że w wynikach mają pojawić się strony zawierające oba słowa kluczowe
  • znak "-" działa odwrotnie, "sobieski-jan" znajdzie sobieskich, ale nie janów :)
  • objęcie frazy w cudzysłów, np. "jan 3 sobieski" oznacza że mają się pojawić strony zawierające dokładnie taką frazę, wyraz po wyrazie.
  • komenda "intitle" umożliwia wyszukanie frazy w tytułach stron, np: intitle:kapusta. Jeżeli szukamy frazy złożonej z kilku wyrazów możemy skorzystać z komendy allintitle.
  • komenda inanchor: szuka frazy w linkach między a i /a. Komenda inurl: szuka wyników w nazwach linków zindeksowanych stron
  • komenda site: spowoduje wyświetlenie stron zindeksowanych z danego serwisu (domeny) np. site:riklaunim.ekonto.net

Google i webmasterzy

Google udostępnia wyniki swych wyszukiwań za darmo. Za pomocą skryptu napisanego w PHP czy CGI możemy mieć wyszukiwarkę Google na własnej stronie - wyniki prezentowane są u nas. Skrypty te działają w oparciu o bibliotekę SOAP lub nuSOAP. By skrypt działał musimy podać mu Klucz Licencyjny Google, który uzyskamy za darmo po rejestracji na stronie google (googleAPI). Limit: 1000 zapytań dziennie. Problemy: Siada obsługa polskich liter, nie działa tak szybko jak samo Google. Odpowiedni skrypt można znaleźć np. na www.hotscripts.com w dziale skryptów PHP.
RkBlog

Podstawy tworzenia stron www, 11 July 2008, Piotr Maliński

Comment article