Napisać „stary, ale jary” to jak nic nie napisać. Google PageRank to legenda, a niedoścignioną pozostawała zawsze „dziesiątka” w tymże rankingu. Od paru lat nie możemy już jednak publicznie sprawdzić wyniku naszej domeny. Słowo publicznie ma tu kolosalne znaczenie, gdyż to właśnie od 2016 roku PR nie jest dla przeciętnego Kowalskiego widoczny, a wcześniej przez kilka lat nie był aktualizowany. Uściślijmy – nie jest widoczny dla nas. Jak się okazuje – dla Google jest.

Wszystko wskazuje na to, że PageRank jest dalej stosowany przez giganta z Mountain View. Można znaleźć na to mnóstwo dowodów, ale chyba niepodważalną jest informacja wprost od pracownika Google’a. Gary Illyes jakiś czas temu zamieścił taki tweet:

Jak się okazuje, wpis na Twitterze nie był jednorazową informacją od niego. Jakiś czas później przemawiając na jednej z konferencji w Singapurze, na spotkaniu z publicznością także omówił algorytm, który ciągle wykorzystuje Google. Ranking ten nie jest jednak publiczny, jak to było niegdyś.

PageRank to nic innego jak „prosta” formuła matematyczna, oceniająca wartość konkretnej strony. Mówiąc najkrócej, w jej ocenie bierze się pod uwagę ilość i jakość innych stron, kierujących do danej witryny. System ten został opracowany ponad dwie dekady temu. W 1997 roku przygotowując projekt badawczy na Stanfordzie, Larry Page i Sergey Brin (współzałożyciele Google’a) stworzyli PageRank. Ich motywacja była prosta i przejrzysta, mieściła się w jednym zdaniu:

„Głównym celem projektu jest poprawa jakości wyszukiwarek w Internecie”.

W tamtych czasach nie było aż takiego monopolu – o prym w branży „szukajek” rywalizowały takie marki jak Altavista, MSN czy Yahoo. Wydajność ich była tak mizerna, że wyniki zazwyczaj nie zaspokajały użytkownika.

Wspomniani Sergey i Larry tłumaczyli taki stan rzeczy w ten oto sposób:

„Każdy, kto korzystał jakiś czas temu z wyszukiwarek, z pełnością przyzna, że indeks nie jest decydującym czynnikiem, jaki wpływa na wyniki. „Śmieciowe wyniki” często spychają niżej te pozycje, które interesują użytkownika…”

Rozwiązaniem tego problemu miał być właśnie PageRank. Pomysł był zainspirowany rozwiązaniami z branży naukowej. Otóż w praktycznie identyczny sposób ocenia się wartość artykułów naukowych. Ilość odniesień w innych publikacjach określa wartość konkretnego tekstu. Wystarczyło zastosować tę samą koncepcję w sieci – śledząc linki prowadzące do witryn. Wszystko poszło tak sprawnie i miało tak niesamowitą skuteczność, że zbudowało siłę wyszukiwarki Google.

Nie można z całą pewnością powiedzieć, że sam algorytm jest prosty, ale sposób jego działania twórcy opisali w pracy z 1997 roku.

„Zakładamy, że strona A zawiera strony T1…Tn, które do niej kierują (cytują). Parametr d natomiast jest współczynnikiem tłumienia i możemy ustawić jego wartość od 0 do 1. Zwykle stosujemy 0,85. […] Podobnie C (A) jest definiowana jako liczba linków, które wychodzą ze strony A. PageRank strony A jest obliczany w ten sposób:

PR(A) = (1‐d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))”

Tak, ja też z tego niewiele rozumiałem na początku. Jednak starając się to uprościć – Google bierze do obliczania PR strony takie wskaźniki:

  1. liczbę i jakość stron kierujących do witryny;
  2. wyniki PR tychże stron;
  3. liczbę linków wychodzących na danej stronie kierującej.

To są tylko trzy i aż trzy podstawowe parametry. Każdy ma kolosalne znaczenie w ocenie ogólnej. Zakładając zatem, że strona C posiada jakieś dwa backlinki – jeden pochodzi ze strony A, natomiast drugi ze strony B. Strona B jest stroną słabszą od strony A, a także ma więcej linków wychodzących. Przekazując te informacje do algorytmu PR, otrzymujemy PageRank strony C.

Współczynnik tłumienia natomiast jest to nic innego jak bufor, który symuluje możliwość, iż losowy użytkownik będzie klikać kolejne linki na stronach. Współczynnik ten zmniejsza się przy każdym kliknięciu linku. Prosty przykład: szansa, iż klikniesz link na pierwszej odwiedzonej stronie, jest bardzo wysoka. Natomiast szansa, że wykonasz taki ruch na następnej, jest już niższa, a na kolejnej jeszcze niższa, itd. Biorąc i ten parametr pod uwagę, ogólna ocena strony jest mnożona przez wspomniany współczynnik tłumienia, który – jak już wspominałem – wynosi zazwyczaj 0,85.

Chcąc to zobrazować w sposób bardziej przyjazny – załóżmy, że DailyWeb linkuje do jakiejś strony za pośrednictwem czterech linków: DW=>strona A=>strona B=>strona C=>strona D. Przy takim rozwiązaniu wartość takiego linku będzie o wiele słabsza (strona D praktycznie nie odczuje „korzyści”), niżeli do strony D mielibyśmy tylko 2 linki: DW=>strona A=>strona D. W tej sytuacji strona D zyska sporo. Google zatem „ocenia” strony za pomocą innych stron, które posiadają określony PR. Pytanie jest jedno: od jakiej strony się zaczęło? Która strona jako pierwsza miała PR. Tak samo można zadać pytanie: „co było pierwsze: kura czy jajko?”.

Dlaczego nie możemy sprawdzić PageRank?

Teoretycznie sprawa wydaje się dość prosta. Rzecznik Google w 2016 roku tłumaczył to w ten sposób:

„Internet i nasze pojmowanie sieci stały się bardziej skomplikowane, a wynik PR mniej użyteczny dla zwykłych użytkowników. Wycofanie go pomaga unikać mylenia użytkowników i webmasterów biorąc pod uwagę znaczenie rankingu”

Branża SEO ma od zawsze obsesję, jeśli chodzi o PageRank konkretnej strony. Traktuje go niemalże jako wyrocznię. W łatwy — zobrazowany kolorowym paskiem — sposób mieliśmy ocenę naszej strony. Wokół tego pojawił się niesamowity sposób na biznes – linki o wysokim współczynniku PR sprzedawały się jak świeże bułeczki. Sprzedają zresztą nadal. Łatwym sposobem na podnoszenie oceny było pozostawianie na stronach o wysokim PR linków, zazwyczaj w formie komentarzy. Sprawiało to wrażenie naturalności, ot komentarz z zamieszczony linkowaniem. Niestety powielanie tej metodyki doprowadziło do zaśmiecenia Internetu linkami, nierzadko kiepskiej jakości.

Algorytm zaczął się gubić i dawać niezbyt miarodajne wyniki. Było to na początku lat 2000. W Google rozpoczęła się burza mózgów, zastanawiano się jak rozwiązać ten problem. W 2005 udało się im nawiązać współpracę z innymi wyszukiwarkami, które jeszcze liczyły się na rynku. Powstał w ten sposób atrybut „nofollow”. Problem spamerskich komentarzy na blogach zaczął znikać, a „punkty” w rankingu PR nie uciekały za pomocą kiepskich linków. Google tak zapowiadało „erę nofollow”:

„Jeśli jesteś blogerem bądź czytelnikiem bloga, na pewno kojarzysz osoby, które próbują podnosić PR swoich stron, publikując linki w komentarzach na blogach w stylu „odwiedź moją stronę farmaceutyczną”. Nam też się to nie podoba i testujemy nowy tag, który je blokuje. Od tej pory, kiedy Google zobaczy atrybut „rel=”nofollow” w linkach, to te linki nie będą miały żadnego znaczenia w naszych algorytmach oceny stron”.

Trzynaście lat później praktycznie każdy liczący się CMS automatycznie dodaje „nofllow” do linków w komentarzach, a programiści dodają taką funkcję do autorskich systemów. Jednak jak to w życiu bywa, rozwiązując jeden problem, możemy przypadkowo stworzyć inny. Tak też było z Google.

Fałszowanie PageRank

Pierwotna zasada PageRank działała w taki sposób, że mając na stronie np. 10 linków wychodzących to PR sprawiedliwie „rozdawał” punkty na każdy z tych linków. W ten o to sposób, jeśli PR wynosił „X”, a ilość linków odpowiadała „10”, to algorytm stosował równanie X/10. Jednak co jeśli mamy na stronie 9 linków „nofollow”, a tylko jeden „czysty”? Ten jeden będzie najmocniejszy i „weźmie” ze sobą cały PR. Dzięki takiemu obejściu webmasterzy zaczęli korzystać z tej furtki i dawali „nofollow” do stron, które uznawali za mało ważne. W ten sposób fałszowali wynik PR, który był mocniejszy dla ich strony.

Google i na to znalazło rozwiązanie – w 2009 roku poinformowali, że zmienili zasadę i dla przykładu wspomnianego powyżej na jeden link mógł przechodzić tylko jeden punkt PR. Zatem mając stronę z PR 10 i mając na stronie 5 linków „nofollow” i 5 zwykłych to przez te zwykłe przejdzie tylko po jednym punkcie na link, a wcześniej mogło to być po dwa punkty.

Nie wiemy, jak jest aktualnie obliczane, minęło przecież prawie 10 lat od ostatnich, oficjalnych zmian i informacji (o jakich mi wiadomo). Jaka będzie przyszłość? Jak Google zamierza oceniać strony? Tego wszystkiego dowiemy się w niedalekiej przyszłości.

źródło


Przemysław Bicki