Blog

- blog o efektywnej sprzedaży w internecie

Problem duplikacji treści. Jak Google wykrywa duplikaty stron (duplicate content)?

Zarządzasz sklepem internetowym? Masz wrażenie, że coś jest nie tak z ilością ruchu, jaką pozyskujesz z Google? Przyczyną może być problem z niepoprawnym indeksowaniem duplikowanej treści na Twoje stronie. W tym artykule znajdziesz odpowiedź, dlaczego Google penalizuje wykryte duplikaty, w jaki sposób wykrywa je oraz jak sobie z tym poradzić. Zawarte w tekście informacje opracowane zostały na podstawie wypowiedzi Gary’ego Illyes’a – pracownika Google zajmującego się obszarem działania wyszukiwarki.

Dlaczego Google skupia tak dużą uwagę na wyszukiwaniu, analizowaniu i redukowaniu zduplikowanej treści?

Wyszukiwarka w pierwszej kolejności stawia na ogólne dobro użytkownika zakładając jednocześnie, że ten nie lubi otrzymywać na liście wyników linków do stron z powieloną zawartością. Drugim aspektem jest optymalizacja pamięci i zasobów indeksu Google poprzez brak przechowywania tam informacji o duplikatach.

Duplikacja a kanonikalizacja – czy te funkcje są tożsame?

Duplikacja a kanonikalizacja - czy te funkcje są tożsame?
Duplikacja a kanonikalizacja

Nie, duplikacja a kanonikalizacja nie są tożsamymi terminami i funkcjami. W pierwszej kolejności tworzone są klastry agregujące duplikaty stron wykrytych w witrynie (faza wykrywania duplikatów). Następnie na podstawie różnych sygnałów wybierana jest spośród nich jedna najlepsza podstrona (faza wskazywania kanonicznego elementu).

Jak Google wykrywa duplikaty treści (duplikaty podstron)?

Każda wykryta przez wyszukiwarkę podstrona zredukowana jest przez funkcję hashowania do postaci sumy kontrolnej.

Hashowanie to funkcja przyporządkowująca dowolnie dużej liczbie (w tym przypadku będzie to tekst i treść) krótką formę, zawsze posiadającą stały rozmiar, niespecyficzną, quasi-losową wartość. Przykładowo dla strony głównej performancelabs.pl hashowanie w algorytmie SHA256 ma wartość sumy kontrolnej: 6E0087F2A92FB13F068FB07ECBC329E164A14199080AB8EE78C7CE0806D28570. Jeśli choć jeden element (np. jedna litera na stronie) ulegnie zmianie wartość sumy kontrolnej również ulegnie zmianie.

Jak Google wykrywa duplikaty treści (duplikaty podstron)?
Proces hashowania

Google nie porównuje kolejnych wykrywanych podstron przez ich pobieranie, renderowanie, analizę i ocenę. Zamiast tego pobiera stronę, hashuje ją i tworzy sumę kontrolną, której wartość jest dopiero porównywalna już z istniejącymi w bazie wyszukiwarki. Dla Google ten sposób jest łatwiejszy i szybszy w działaniu oraz ogranicza zużycie zasobów poświęconych na proces renderowania podstrony.

Czy Google tworzy tylko jeden rodzaj sumy kontrolnej?

Nie, wyszukiwarka analizując tekst i treść znajdującą się na stronie używa kilku rodzajów funkcji hashowania tworząc przy tym wiele sum kontrolnych. To pomaga Google’owi wykryć strony o bardzo zbliżonej treści, jak również pozwala uwzględniać lub pomijać stałe elementy na stronie takie jak górne menu (nawigację), panel boczny (sidebar) czy stopkę.

Tworzenie klastrów zawierające podobne podstrony

Na podstawie wartości uzyskanych sum kontrolnych, Google tworzy wirtualne klastry stron zawierające duplikaty lub podstrony o bardzo zbliżonej zawartości. Spośród nich zostanie wyłoniona jedna, która będzie uwzględniona w wynikach wyszukiwania, natomiast pozostałe będą pomijane w indeksie.

Tworzenie klastrów zawierające podobne podstrony
Proces deduplikacji i kanonikalizacji

Na jakiej podstawie Google wybiera najlepszą podstronę (lidera) wśród duplikatów?

Twórcy wyszukiwarki opracowali ponad 20 czynników wpływających na to, który z duplikatów będzie wyświetlany w wynikach wyszukiwania. Do ich grona zaliczane są:

Potwierdzone czynniki:

  1. Treść witryny
  2. PageRank
  3. Protokół HTTPS
  4. Link w mapie witryny
  5. Aktywne przekierowanie (każde, nie tylko 301)
  6. Link kanoniczny (bardzo mocny sygnał)
  7. Link w hreflang

Domniemane czynniki:

  1. Liczba linków zewnętrznych
  2. Liczba linków wewnętrznych
  3. Uzupełniony Title tag
  4. Uzupełniona wartość meta description
  5. Indeks szybkości wczytywania strony
  6. Dostosowanie strony do urządzeń mobilnych
  7. Uzupełnione dane strukturalne
  8. Link w nawigacji
  9. Link w stopce
  10. nieznany
  11. nieznany
  12. nieznany
  13. nieznany

Każdy z czynników ma przypisaną dedykowaną wartość, która określa jego wagę w całym zestawieniu. Nad poprawnością konfiguracji czuwa specjalny zespół Google zajmujący się wyłącznie zagadnieniem duplikacji w indeksie. Proces obliczania wag jest wspierany uczeniem maszynowym. W obecnej konfiguracji wiadome jest, że przekierowanie 3XX ma większą wartość niż protokół HTTPS, reszta pozostaje tajemnicą.

Czy proces deduplikacji i kanonikalizacji wpływa na ranking w wynikach wyszukiwania?

Strona z wynikami wyszukiwania
Strona z wynikami wyszukiwania

Nie, sam proces wyboru jednej podstrony prezentowanej w wynikach wyszukiwania spośród duplikatów nie wpływa na pozycję w rankingu. Niemniej wybrana w tym działaniu podstrona będzie już podlegać regułom klasyfikacji jej w indeksie Google.

Rozwiązanie i podsumowanie

Aby poradzić sobie z problemem indeksowania duplikatów na stronie, należy przyjrzeć się w pierwszej kolejności potwierdzonym czynnikiem (wymienionym nieco wyżej). Należy upewnić się, że podstrona, którą chcemy wskazać w ramach klastra duplikatów:

  1. Była zabezpieczoną SSL i posiadała adres rozpoczynający się od HTTPS.
  2. Jej poprawny adres był umieszczony w mapie strony (sitemap.xml).
  3. Jej pozostałe duplikaty powinny posiadać zdefiniowany link kanoniczny wskazujący na pożądaną przez nas stronę.
  4. Zawierała więcej treści (o ile to technicznie możliwe) od innych duplikatów.
  5. Posiadała jak najwięcej linków wewnętrznych i zewnętrznych.
  6. Nie posiadała przekierowania.
  7. Była wskazana w linkach hreflang.

Jeśli powyższy proces brzmi dla Ciebie trochę przerażająco lub nie masz czasu ani ochoty się tym zająć – daj nam znać. W Performance Labs przyjrzymy się ustawieniom czynników, które wpływają na ten stan i dokonamy niezbędnych korekt w Twojej witrynie.


Źródła

facebooklinkedintwitter

Najnowsze wpisy

wave