Internauci często określają Internet mianem śmietnika, ale jeden z analityków Google postanowił pójść o krok dalej. Zdradził, jaka część dostępnych w sieci materiałów to duplikaty.
Przeglądając Internet, wielokrotnie napotkamy niewiele znaczące treści. Sam nie nazwałbym ich duplikatami, ale moje stanowisko w sprawie omówię nieco później. W istocie, strony o podobnej, nieprzyzwoicie wręcz zbliżonej treści mogą być odbierane jako nieszczególnie wartościowe dla wyszukiwarki. Algorytmy cenią indywidualne podejście oraz oryginalność danej witryny i materiałów tam zamieszczanych. Nie powinno więc zaskakiwać nikogo to, że Google uważa większość dostępnych w sieci materiałów za duplikaty.
Większość treści w Internecie to duplikaty. Google podaje dane
Czym jest więc duplikat? Zacznijmy od początku. Podczas wystąpienia na konferencji Google Search Central Live w Singapurze, Gary Illyes z Google udostępnił slajd, z którego wynika, że aż 60% treści w Internecie to duplikaty. W istocie, po pojawieniu się w sieci informacji, ta szybko rozprzestrzenia się na wielu stronach. Można wręcz stwierdzić, że jest ona powielana z mniejszą bądź większą modyfikacją. Jeśli przyjąć taką definicję, wartość wynosząca 60% wydaje się niewielka. Na szczęście Gary Illyes wyjaśnił, co dokładnie ma na myśli, mówiąc o duplikatach.
He referred to the data while explaining deduplication.
1. remove protocol duplicates – favor HTTPS
2. remove www/non-www
3. remove URLs with useless parameters (sessionID?)
4. remove slash/no-slash variant
5. remove other checksum dups pic.twitter.com/kg3C4lFRgm— Kenichi Suzuki💫鈴木謙一 (@suzukik) November 27, 2022
Tak czy inaczej, sytuacja nie jest zbyt wesoła. Zgodnie z obietnicą wracam do swojego stanowiska. Otóż w mojej opinii faktycznie lwia część Internetu w pewnym stopniu duplikat. Wyobraźcie sobie sytuację, w której informacja publikowana jest tylko przez jedno źródło. Albo inaczej – pomyślcie, jak zmieniłby się krajobraz sieci, gdyby dany temat, np. zakup Twittera przez Elona Muska, był poruszany tylko przez jeden blog lub medium.
Nie moglibyśmy mówić o wolności w dostępie do informacji, a co gorsze, mielibyśmy okazję zapoznać tylko z jednym punktem widzenia. Dlatego też poszczególne zagadnienia omawiane są przez dziesiątki, a czasem setki serwisów w zbliżonym czasie. Tak działa dzisiejszy internet i prawdę mówiąc, jest to coś dobrego dla czytelnika. Serwisy, blogi czy dzienniki muszą bowiem przyłożyć się do formy przekazania informacji, tak aby w przyszłości, była ona uważana za atrakcyjniejszą od tej oferowanej przez konkurencję.