Shallow content, usuwać, blokować, a może wykorzystać? Opinia Piotra Michalaka z Grupy TENSE




Shallow content, usuwać, blokować, a może wykorzystać? Opinia Piotra Michalaka z Grupy TENSE

Opublikowano 4 tygodnie temu - Wpis sponsorowany


Shallow content - usuwać, blokować, a może wykorzystać?

Czym jest shallow/thin content? Dlaczego warto zweryfikować występowanie tego typu stron w serwisie i w jaki sposób przeciwdziałać powstawaniu lub całkowicie je wyeliminować? Postaram się odpowiedzieć na te wszystkie pytania i podpowiedzieć rozwiązania, które na co dzień stosuje w pracy z klientami Grupy TENSE.

Czym jest shallow content?

Shallow content to strony niskiej jakość - bez lub z małą wartością dla użytkownika. Za strony tego typu przyjmuje się między innymi:

  • różne widoki tych samych treści - zmienia się sposób prezentacji np. kolejność produktów,
  • strony tagów - w szczególności, kiedy są powielane bądź nie posiadają wpisów,
  • wyniki wewnętrznej wyszukiwarki,
  • filtry dla oferty - zwłaszcza te szczegółowe, które ograniczają liczbę wyświetlanych produktów,
  • strony funkcyjne, czyli takie, które nie zawierają unikalnego contentu lub bez logowania, nie prezentują zawartości np. strony koszyków,
  • duplikaty stron z powodu błędnej adresacji.

Niestety nie zawsze jesteśmy świadomi, że tego typu strony w serwisie mogą występować, a co gorsza, mogą być indeksowane przez roboty wyszukiwarek i tym samym wpływać, zazwyczaj negatywnie, na widoczność serwisu w wynikach organicznych.

Weryfikacja

W pierwszym kroku należy zweryfikować czy problem stron shallow/thin content dotyczy naszego serwisu. Nie zawsze jest to łatwe, ponieważ problem może nie być na pierwszy rzut oka widoczny, a jego lokalizacja może się wiązać z użyciem dodatkowych narzędzi.

Na co zwracać uwagę?

Niezależnie od sposobu weryfikacji, w szczególności zwracaj uwagę na adresy:

  • zawierające parametry GET, np. ?sort, ?orderby, ?search, ?session,
  • różniące się zakończeniem, np. slash/non slash, html/non html,
  • których URL zawiera słowo: tag, archiwum, author, media, index, basket,
  • różniące się protokołem - http/https,
  • posiadające duże i małe litery bądź polskie znaki diakrytyczne,
  • zawierające subdomeny lub www/non www.

Tego typu adresy są potencjalnie problematyczne, oczywiście mogą być zablokowane przed indeksacją (więcej się dowiesz się o tym w akapicie Blokowanie).

Operator "site:"

Jednym z najprostszych sposobów na weryfikację tego typu stron jest przejrzenie zaindeksowanych stron przez wyszukiwarkę. W przypadku wyszukiwarki Google wystarczy użyć operatora site:{nazwa domen} i przeklikać się przez zaindeksowane strony, najlepiej te, które na pierwszy rzut mogą stanowić problem (problematyczne adresy zostały opisane w części Na co zwracać uwagę?).

Może się jednak okazać, że stron w indeksie jest kilkaset lub zdecydowanie więcej - wtedy taki sposób może nie być optymalny. Niemniej jednak, bardzo często na jednych z pierwszych stron znajdziemy adresy, których robot wyszukiwarki nie powinien indeksować z powodu małej wartości dla użytkownika.

Wersje adresu

Niejednokrotnie można się zdziwić, że pomimo określenia adresu w panelu administracyjnym lub pliku konfiguracyjnym, serwis jest dostępny pod różnymi adresami - www/non www, http/https. Niezależnie od wersji adresu URL, Twój serwis powinien występować tylko pod jednym, a inne wersje muszą zostać przekierowane na docelową wersję (najlepiej z użyciem przekierowania 301).

Zweryfikuj poniżej wersje adresów:

  1. http://{nazwa domeny}/
  2. http://www.{nazwa domeny}/
  3. https://{nazwa domeny}/
  4. https://www.{nazwa domeny}/

Możesz wykorzystać narzędzie online - https://httpstatus.io/, dzięki któremu w łatwy sposób sprawdzisz, czy zostały zaimplementowane odpowiednie przekierowania.

Najlepiej unikać łańcuchów przekierowań (występowania więcej niż jednego przekierowania).

W podobny sposób możesz zweryfikować wariacje adresu do podstron w serwisie, poniżej przykłady warte przetestowania:

  • https://{nazwa domeny}.pl/kontakt/
  • https://{nazwa domeny}.pl/kontakt
  • https://{nazwa domeny}.pl/kontakt.php
  • https://{nazwa domeny}.pl/kontakt.html
  • https://{nazwa domeny}.pl/kontakt-losowy-ciag-znakow
  • https://{nazwa domeny}.pl/kontakt/?parametr-get=wartosc
  • https://{nazwa domeny}.pl/index.php/kontakt/

Najbardziej pożądane kody HTTP to:

  • 301, oznaczające przekierowanie - warto zweryfikować, czy użytkownik trafi na poprawną wersję adresu, czy może na stronę błędu 404 bądź główną,
  • 404, czyli brak żądanego zasobu, taka strona nie będzie indeksowana, warto jednak zapewnić obsługę przekierowań, aby w przypadku błędnych odnośników wewnętrznych i zewnętrznych, użytkownik jak i robot trafił na odpowiednią stronę,
  • ewentualnie 500, serwer nie będzie w stanie obsłużyć zapytania, ale taka strona nie zostanie zaindeksowana, ale podobnie jak w przypadku kodu 404, warto zapewnić obsługę błędnych adresów.

Backlinks

Weryfikacja profilu linkowego pod kątem wpływu na pozycjonowanie to codzienność, niemniej jednak, raport linkowanych podstron w naszym serwisie może okazać się pomocny w weryfikacji shallow content.

Odnośniki kierujące do naszej strony mogą posiadać błędny adres URL lub linkować do zasobów, które nie powinny być indeksowane.

Bywa, że użytkownicy w sieci umieszczają adres bez protokołu, przedrostka www, z literówką, usuniętym ostatnim znakiem bądź parametrami GET. Roboty indeksujące odwiedzają wskazany adres, który później może trafić do indeksu (oczywiście jeżeli nie był prędzej zablokowany - sposoby blokady zostały opisane w akapicie Blokowanie).

Warto tym samym zweryfikować raport stron docelowych w poszukiwaniu problematycznych adresów. Adresy wskazujące strony 404 warto przekierować, są to tak zwane broken links. Pozostałe adresy warto zweryfikować, ponieważ może się okazać, że na stronach będzie wyświetlany content, pomimo tego, że adres jest niepełny. Bywa, że takie strony nie zawierają treści, a tylko komunikat tekstowy, że żądany zasób nie jest dostępny.

Google Search Console

Weryfikując stan witryny, możemy również w prosty sposób zweryfikować jakie strony zostały wykluczone z indeksowania - otrzymamy informacje o powodzie oraz listę adresów. Warto się nimi zająć, aby nie zaśmiecać indeksu wyszukiwarki, a użytkownicy nie trafiali na strony błędów, niepowiązane z wynikiem bądź ubogie w content.

Warto zwrócić uwagę przede wszystkim na adresy oznaczone jako:

  • Duplikat, użytkownik nie oznaczył strony kanonicznej
    Zwykle dotyczy stron z parametrami GET bądź różnych wariacji adresów dla tej samej treści.

Rozwiązania: przekierowanie 301 na ujednolicony adres; dodanie znacznika link rel="canonical" wskazującego na źródłowy adres URL; dodanie znacznik meta name="robots" o wartości noindex lub none; przesłanie w nagłówku x-robots o wartości noindex lub none.

  • Pozorny błąd 404
    Adresy, które nie zawierają treści (puste strony), bądź zawierające komunikat o usunięciu strony / oferty.
    Rozwiązanie: ustawienie kodu HTTP na 404; dodanie znacznik meta name="robots" o wartości noindex lub none; przesłanie w nagłówku x-robots o wartości noindex lub none.
  • Nie znaleziono (404)

Usunięte strony zwracające kod HTTP 404.
Rozwiązanie: przekierowanie na odpowiedniki produktów lub pasującą kategorie; zgłoszenie prośby o usunięcie stron z indeksu.

Crawlery

W lokalizacji stron shallow content mogą pomóc cralwery - zewnętrzne narzędzia, które skanują stronę, adres po adresie. Przykładem takiego softu może być Screaming Frog SEO Spider, który może zlokalizować problematyczne adresy w naszej witrynie, a w szczególności te, które są odblokowane dla robotów wyszukiwarek (nie zostały w żaden sposób zablokowane przed indeksacją).

Przydatne filtry zakładki URL:

  1. Duplicate (hash strony), jeżeli zawartość strony będzie identyczna, to strona zostanie uznana za duplikat.
  2. Parameters - adresy z parametrami, które mogą być przekazywane w adresie URL.
  3. Uppercase - adresy zapisane wielkimi literami, może to sugerować problem w adresacji serwisu.

Przydatna może też się okazać zakładka Page Title bądź h1, gdzie warto zweryfikować duplikaty zawartości znacznika title i h1.

Usuwać, blokować, a może wykorzystać?

Nie zawsze odpowiedź jest jednoznaczna. Korzystając z gotowych silników np. CMS i e-commerce, otrzymujemy taką samą pulę funkcjonalności, które nie zawsze są i będą przydatne użytkownikom naszego serwisu. Dla przykładu, jeżeli sprzedajemy produkty bardzo zbliżone do siebie różniące się tylko np. gramaturą, to porównywarka jednej cechy dla naszych klientów nie będzie zbyt pomocna. W tym przypadku strony porównywarek będą zbędne i można je całkowicie wyeliminować z serwisu.

Usuwanie

Jak to zrobić? Jeżeli w panelu administratorskim istnieje możliwość dezaktywowania tego typy stron/funkcjonalności, to będzie to najłatwiejszy sposób, aby je wyłączyć.

W przypadku, kiedy takiej możliwości nie ma, to zapewne będziesz zmuszony do edycji kodu strony - w warstwie back-end lub/i front-end, aby wyeliminować między innymi nawigację do tych stron w jej szablonie, pamiętając, że samo usunięcie odnośników do stron shallow content może być niewystarczające.

Blokowanie

Przede wszystkim możemy blokować roboty przed dotarciem do strony i jej indeksacją. Pierwszy sposób przyda się również, gdy chcemy zoptymalizować crawl budget (budżet crawlowania) przez roboty indeksujące nasz serwis. W uproszczeniu, chodzi o to, żeby roboty wyszukiwarek indeksowały i re-indeskowały strony, na których nam najbardziej zależy. Kiedy na naszej stronie występują odnośniki do stron, które są zablokowane, to nie warto, aby robot indeksujący odwiedzał taki adres.

Dla odnośników kierujących do stron shallow contnet lub/i zablokowanych przed indeksacją, warto umieścić dodatkowy atrybut rel o wartości nofollow - <a href="/login/" rel="nofollow">Log in</a>. Tym sposobem roboty indeksujące nie będą odwiedzać adresu opatrzonego tymże atrybutem.

Drugim podejściem jest blokowanie dostępu do zasobów lub blokowaniem przed indeksacją zasobów. Można to wykonać na kilka sposobów:

  • plik txt, w którym mogą być blokowane m.in. parametry i ścieżki wybranych stron poprzez dyrektywę Disallow:, jeżeli nie jesteś pewien czy blokujesz odpowiedne strony, wykorzystaj tester pliku robots.txt dostępny w Google Search Console,
  • znacznik meta name="robots" dodawany w sekcji head, wartość noindex i none (odpowiednik noindex i nofollow) informuje, że dany adres nie będzie indeksowany - tym samym takie strony nie będą widoczne w wynikach wyszukiwarki,
  • znacznik link rel="canonical", wskazuje adres pierwotny, a tym samym jest sygnałem dla robota, aby nie indeksował stron z odnośnikiem do wersji kanonicznej,
  • x-robots w nagłówku HTTP, w którym można przesłać dyrektywy identyczne jak w przypadku znacznika HTML meta name="robots" i osiągnąć ten sam efekt,
  • kod odpowiedzi HTTP, w szczególności strony zwracają kod 404 i 410 nie zostaną zaindeksowane i można je stosować w przypadku usunięcia strony.

 Wykorzystanie

Strony shallow content mogą obniżać jakość naszego serwisu, ale mogą być wykorzystane w kontekście SEO, jeżeli znajdziemy sposób na ich zagospodarowanie.

Przykładem takich stron mogą być np. zaawansowane filtry dla produktów, które wyodrębniają ofertę w sklepie. Jak zdobyć dodatkowy ruch?

Załóżmy, że sprzedajemy felgi, w tym aluminiowe (temat mi bliski, bo związany z branżą automotive). Felgi można klasyfikować według średnicy, szerokości, osadzenia (ET), rozstawu i otworu centrującego. Jak widzimy cech produktów i filtrów może być całkiem dużo. Można świadomie zezwolić na indeksację takich stron, pamiętając o kilku kwestiach optymalizacyjnych:

  • najlepiej, aby adresy filtrów były przyjazne i zawierały słowa kluczowe np. /felgi-aluminiowe/18-cali/5x108/et-49/,
  • tytuł i meta opis był unikalny, może bazować na parametrach filtrowania,
  • strona zawierała nagłówek pierwszego poziomu - h1, opisujący ofertę,
  • w przypadku zbyt małej liczby produktów, strona powinna być blokowana przed indeksowaniem (minimum, to kilka produktów).

Dzięki takim zmianom istnieje prawdopodobieństwo, że w wynikach wyszukiwania będziemy widoczni na zapytania typu long tail np. felgi aluminiowe 18” 5x108 et 49.

Podsumowanie

W zależności od tego czy i jakiego typu strony shallow content występują, możemy je zablokować przed dostępem robotów sieciowych, usunąć całkowicie w serwisie bądź wykorzystać pod kątem budowania jego zasięgu w wynikach organicznych. Pamiętaj o tym, aby w przypadku blokowania i usuwania upewnić się, że eliminujemy jedynie te adresy najniższej jakości, a nie przypadkiem wartościowe strony - polecam przeskanować serwis wyżej wymienionym narzędziem Screaming Frog SEO Spider i obserwację Google Search Console, w którym mogą się pojawić ewentualne ostrzeżenia odnośnie zmian w liczbie zaindeksowanych stron.

Autor: Piotr Michalak, Lider sekcji w Grupie TENSE