Crawl budget Google - czym właściwie jest?

Crawl Budget
Przeglądając wyniki wyszukiwania, wiele osób nie wie, w jaki sposób Google analizuje i indeksuje zawartość stron. Podczas konsultowania audytów SEO, klienci często pytają o aspekty wpływające na Crawl Budget. Wielu właścicieli stron nie widzi potrzeby pracowania nad elementami, które mogą go ograniczać. Aby zrozumieć, dlaczego jest to błędne podejście, najpierw omówimy, czym tak naprawdę jest ten mityczny dla wielu Crawl Budget Google.
Ponad 35800 portali, 11500 influencerów, 660 dziennikarzy. Jedna platforma.
Załóż konto

Czym jest Crawl Budget Google?

Na wstępie warto wrócić do zasady działania wyszukiwarki Google i jej fizycznych ograniczeń. Tworzenie tak dużej wirtualnej biblioteki - jaką niewątpliwie jest wyszukiwarka Google - wymaga ogromnych zasobów sprzętowych. Wspominałem o tym w artykule SEO a renderowanie JavaScript - jak sprawdzić oraz rozwiązać problemy w kontekście oczekiwania na wyrenderowanie plików JS. Aby zapewnić ciągłość działania wyszukiwarki, Google musi w sposób kontrolowany zarządzać czasem oraz ilością kroków Google Bota na stronach www. Właśnie ilość kroków, jakie może wykonać Google Bot na danej stronie możemy nazwać Crawl Budget.

Co wpływa na Crawl Budget?

Gdy wiemy już czym jest budżet crawlowania, warto zastanowić się skąd się on bierze i na podstawie jakich czynników jest on przypisywany. Oficjalnie Google podaje dwa parametry, które mają wpływ na określenie crawl budget’u:

  • crawl rate limit.
  • crawl demand.

Dopiero ocena tych dwóch parametrów umożliwia Google określenie, jak duży crawl budget warto przypisać do danego serwisu internetowego. Zacznijmy od omówienia pierwszego parametru, czyli crawl rate limit.

Co to jest crawl rate limit?

Jest to ustalany przez Google limit wydajności indeksowania. Określa on liczbę jednoczesnych połączeń równoległych, których może użyć Google Bot podczas indeksowania oraz akceptowalny czas oczekiwania między pobraniami danych.

Na to jak duży będzie crawl rate limit ma wpływ w znacznym stopniu techniczna kondycja serwisu. Wśród czynników, które najbardziej mają wpływ na w/w kondycję - warto wymienić prędkość wczytywania strony (jej poprawna optymalizacja) oraz czas odpowiedzi serwera. 

Zgodnie z informacjami prosto od Google wraz z szybszą reakcją witryny, rośnie jej crawl rate limit. 

Gdy strona zaczyna pracować wolnej lub zaczynają się pojawiać błędy serwera - crawl rate limit jest ograniczany. Poprzez odpowiednią optymalizację, wybór dobrych i szybkich  hostingów oraz monitorowanie błędów - mamy wpływ na w/w limit. Możemy go również ograniczyć, przypisując wartość w Google Search Console.

Ustawienia Google Search Console pod adresem: https://www.google.com/webmasters/tools/settings 

Warto jednak pamiętać, że używamy tej funkcji, gdy serwer nie radzi sobie z ilością wizyt Google, a zwiększenie szybkości ręczne na “wysoka”, nie zwiększa obecnej automatycznie przypisanej szybkości. W sytuacji, gdy serwer nie może podołać wizytom Google Bota - lepiej wybrać lepszy serwer, niż ograniczać szybkość indeksowania.

Jak sprawdzić crawl rate limit swojej strony?

Możemy takie informacje weryfikować w Google Search Console. W ostatnim czasie Google wprowadziło w nowej wersji GSC narzędzie “statystyki indeksowania”, które ukryte jest w zakładce “Ustawienia”. 


Narzędzie pod adresem: https://search.google.com/u/2/search-console/settings/crawl-stats  

Nieprzypadkowo użyłem określenia ukryte, ponieważ wcześniej było widoczne bezpośrednio z głównego menu i kierowało do starej wersji narzędzia dla webmasterów. Podobnie jak w poprzedniej wersji narzędzia - mamy możliwość analizowania:

  • łącznej liczby żądań robota,
  • łącznego rozmiaru plików pobranych podczas indeksowania,
  • średniego czasu reakcji strony.

Warto - przy okazji omawianie crawl budget’u - wspomnieć o dodatkowych danych, których nie było w poprzedniej odsłonie statystyk indeksowania. Mowa tu o stanie hosta oraz podziale żądań indeksowania ze względu na typ.

Narzędzie pod adresem: https://search.google.com/u/2/search-console/settings/crawl-stats  

Podczas analizowania stanu hosta, możemy zweryfikować archiwalną dostępność pliku robots.txt,  prawidłowe działanie serwerów DNS oraz procentową ilość problemów z łącznością z serwerem.


Stan hosta w narzędziu https://search.google.com/u/2/search-console/settings/crawl-stats/host-status 
 

Crawl demand, czyli popyt na indeksację 

Drugim parametrem na podstawie którego Google przypisuje Crawl Budget jest tzw. “popyt na indeksację”. Czym on jest? W dużym skrócie możemy uznać, że Google na jego podstawie ocenia, czy strona “jest warta” częstego odwiedzania. Nawet gdy strona posiada jeszcze crawl rate limit, Google nie musi go wykorzystywać, gdy uzna, że nie ma większej wartości dla użytkownika. W jaki sposób Google ocenia w/w wartość? Głównie na podstawie popularności oraz tzw. “świeżości”.

Popularność to w znacznej mierze częstotliwość pojawiania się linków do strony. Im więcej innych serwisów nawiązuje poprzez link do naszych treści, tym zyskują one na wartości w oczach Google. Bardzo często zauważam problem z indeksowaniem podstron przy dużych serwisach, które dopiero startują w internecie. Mają one często miliony podstron, które nie trafiają do indeksu. Dzieje się to właśnie z powodu zerowej popularności.

Świeżość serwisu to nic innego, jak częstotliwość zmian na stronie www. Im częściej pojawiają się nowe podstrony czy też aktualizują obecne, tym chętniej Google Bot odwiedza serwis internetowy. Jest to dość proste i logiczne, że chętnie odwiedzane są serwisy, które się zmieniają oraz często generują nowe treści.

Dlaczego Crawl Budget jest ważny dla SEO strony?

Częstym argumentem właścicieli stron za tym, by nie wdrażać wytycznych związanych z Crawl Budget’em, jest brak bezpośredniego wpływu na pozycję konkretnej frazy. Często pada pytanie - po co wydawać na wdrożenie, skoro to nie przełoży się na poprawę mojej pozycji na konkretne frazy? Aby zrozumieć wartość dodaną dbania o crawl budget, należy spojrzeć na widoczność serwisu globalnie. SEO to nie jest tylko praca nad kilkoma frazami - szczególnie w przypadku większych serwisów.

Wyobraźmy sobie, że otwieramy wielki e-commerce i nie myślimy o jego budowie w kontekście odpowiedniego dbania o Crawl Budget Google. Posiadamy tysiące produktów, które nie są indeksowane przez Google. Jaki jest tego efekt? Nie docierają do nich użytkownicy z wyników wyszukiwania, a my nie zarabiamy. Na nic zdadzą się godziny poświęcone na dokładne opisywanie kart produktów, ich optymalizacja itd. Google tego nie uwzględni, ponieważ nie ma szans na zaindeksowanie. 

Jakie czynniki wpływają na budżet indeksowania Google?

No dobra, ciągle mówimy o tym, dlaczego warto dbać o crawl budget, a nadal nie wiadomo na czym to polega. Warto w tym momencie wymienić elementy strony, które są niczym kłoda rzucana pod nogi Google Bota, który wciąż stara się indeksować jak najwięcej podstron. To o czym będę teraz wspominał, powinno być elementem każdego audytu SEO - szczególnie, jeśli analizujemy średnie oraz duże serwisy www. 

Parametry w adresach URL

Google w swojej dokumentacji potwierdza, że radzi sobie z parametryzacją adresów URL ale zwraca również uwagę, że adresy z parametrami często są źródłem powielenia treści. Właśnie w tym kontekście należy zwracać uwagę na blokowanie takich adresów oraz możliwość ustawienia interpretacji parametrów w Google Search Console - więcej na ten temat pod adresem: https://support.google.com/webmasters/answer/6080548.

Narzędzie ustawień paramteryzacji w Google Search Console: https://www.google.com/webmasters/tools/crawl-url-parameters 

Duplikacja treści wewnątrz serwisu

Kolejnym ważnym problemem, który ogranicza nasz crawl budget jest występowanie duplikacji treści. Często wynika ona z budowy serwisu. W e-commerce nieraz występuje z uwagi na filtrowanie produktów, które są źródłem nowych adresów URL. Mamy często ten sam opis kategorii oraz taki sam listing produktów dla wielu adresów z różnymi filtrami wyboru. Wystarczy, że produkty mają dość uniwersalne zastosowanie i po wyborze dowolnego filtru otrzymamy zbliżone wyniki. Google uzna wtedy, że nasze podstrony sklepu nie mają dużej wartości dla użytkownika i - z powodu duplikacji - zmniejszony zostanie nasz crawl budget. 

Błędy 404 w linkowaniu wewnętrznym

Rotacja podstron czy produktów (w kontekście e-commerce) i występowanie adresów URL z kodem odpowiedzi 404 jest naturalnym następstwem działania serwisu. Ważne, by do takich usuniętych adresów (lub adresów z błędnymi znakami) nie kierować Google Bota. Dlatego też należy dbać o aktualizację linków wewnętrznych oraz sitemapy. Zarówno w jednym, jak i drugim miejscu nie powinny pojawiać się odnośniki do nieistniejących już adresów. Dlaczego? Google wraz ze wzrostem miejsc o statusie 404, dochodzi do wniosku, że wartość dla użytkownika maleje. Skoro internauci co chwila będą docierali do błędnych lub nieaktualnych adresów, nie znajdą nic wartościowego. Właśnie z tego powodu Google będzie oszczędzać swoje zasoby, rzadziej i krócej odwiedzając nasz serwis.

Pozorne błędy 404 zamiast standardowego kodu 404

Tak jak wspomniałem wcześniej, obecność adresów 404 jest naturalna i tak właśnie powinny być oznaczane usunięte lub niepoprawne adresy URL. Część serwisów po wpisaniu błędnego adresu, wyświetla kod odpowiedzi 200 z informacją o braku adresu w bazie danych. Jest to ogromny problem, ponieważ Google dostrzega odpowiedź z kodem 200 i poświęca swoje zasoby, by taki adres zaindeksować. Warto zweryfikować w Google Search Console informacje o stanie zaindeksowania i sprawdzić, czy nasz serwis nie generuje takich pozornych błęów 404. Można to zrobić pod adresem:  https://search.google.com/u/2/search-console/index.

Indeksowanie tego, co ma wartość w SEO

Google na każdym kroku zwraca uwagę, że nie musimy indeksować wszystkich adresów URL serwisu. Co więcej, często rekomenduje, by ograniczać indeksowanie podstron, które powielają treści, linkowanie wewnętrzne lub nie mają dużej wartości w kontekście wyników wyszukiwania. Warto pamiętać, że nie wystarczy ustawienie tagu robots noindex, ponieważ Google i tak poświęci czas na próbę zaindeksowania takiego adresu. Dużo lepszym sposobem jest generowanie wielu czynności (takie jak np.filtrowanie) wewnątrz niezmiennego adresu URL lub blokowanie adresów będących wynikiem firtrowania w Robots.txt.

Łańcuchy przekierowań

Podczas crawlowania serwisu internetowego Google Bot ma określoną ilość kroków. Tak, wspominaliśmy już o tym… Dlaczego do tego wracamy? Musimy tutaj wspomnieć, że podczas wędrówki po stronach www Google często natrafia na adresy przekierowane. Każde takie wykonanie 301 czy 302, to zmarnowany krok. Szczególnie ważne jest to w sytuacji, gdy mamy do czynienia z przekierowywanymi adresami w linkach tzw. site-wide.

Analiza przekierowań w narzędziu Screaming Frog 

Często spotykam się ze stronami, które w nawigacji (zarówno w górnym menu, jak i w stopce) posiadają linki do adresów bez “/” na końcu a potem jest to przekierowane z użyciem 301 na adres zakończony “/” (lub odwrotnie). Takie przekierowanie jest prawidłowe, ale w linkowaniu wewnętrznym powinniśmy używać adresów docelowych, które zwracają kod 200.

Aktualizacja i odpowiednia budowa Sitemap.xml

Dobrą praktyką jest umieszczanie w sitemap.xml adresów, które chcemy indeksować w wynikach wyszukiwania… Teraz zejdźmy na ziemię i omówmy, jak wygląda większość sitemap stron www? Znajduje się tam często wszystko, co jest elementem serwisu. Czasami nawet tysiące podstron będących wypełnieniem wersji demo motywu graficznego, które DEV powinien po uruchomieniu strony usunąć z bazy. Podczas optymalizacji stron często blokujemy indeksowanie takich elementów, jak np.:

  • tagi
  • filtrowanie
  • sortowanie

Decyzja ta bardzo często jest słuszna, ale warto pamiętać o tym, że to nie koniec. Należy wszelkie takie adresy usunąć z generowanej sitemapy. Unikniemy wtedy takich komunikatów w Google Search Console:

Analiza błędów indeksowania w Google Search Console
 

Szybkość strony

Zanim zaczniemy analizować wpływ szybkości na stronę, warto wspomnieć, że nie chodzi o ilości punktów oceny w wielu narzędziach, a realny czas oczekiwania na odpowiedź serwera, wczytanie się głównej treści strony itd. 

Aby zoptymalizować ważne elementy, które wpływają na w/w prędkości, warto użyć takich narzędzi jak:

Podsumowanie

Mam nadzieję, że po przeczytaniu tego artykułu w głowie zostanie pewna myśl - bez indeksacji nie ma ruchu z wyników wyszukiwania, a bez ruchu stronie nie zarabia. 

Jeśli Twoja strona posiada problemy z indeksacją, to jest to ostatni dzwonek, by zająć się elementami o których wspominałem i maksymalnie ułatwić robotom Google indeksacje serwisu. Optymalizacja Crawl Budgetu nie jest wymysłem specjalistów SEO, a ważnym elementem, który potrafi skutecznie zwiększyć widoczność stron w wynikach wyszukiwania - szczególnie przy dużych serwisach oraz sklepach internetowych. Warto podejść do tego, jako szansy na większy ruch, a nie problematycznego wdrożenia rzeczy, które nie są czynnikiem rankingowym dla konkretnych fraz.


 

  • Autor: Marek Stokowski

    SEO specjalista w agencji DevaGroup

    www.stokowski.eu

    Na co dzień walczy z budowaniem widoczności zarówno dużych serwisów e-commerce, jak i serwisów usługowych. Uwielbia audyty SEO i analizowanie kodu źródłowego. Po godzinach prowadzi bloga Stokowski.eu oraz wypoczywa, biorąc udział w wyprawach motocyklowych.

Wasze komentarze (4)
Redakcja WhitePress zastrzega sobie prawo usuwania komentarzy obraźliwych dla innych osób, zawierających słowa wulgarne lub nie odnoszących się merytorycznie do tematu obiektu.
Administratorem danych osobowych jest WhitePress sp. z o.o. z siedzibą w Bielsku-Białej, ul. Legionów 26/28, Państwa dane osobowe przetwarzane są w celu marketingowym WhitePress sp. z o.o. oraz podmiotów zainteresowanych marketingiem własnych towarów lub usług. Cel marketingowy partnerów handlowych WhitePress sp. z o.o. obejmuje m.in. informacje handlową o konferencjach i szkoleniach związanych z treściami publikowanymi w zakładce Baza Wiedzy.

Podstawą prawną przetwarzania Państwa danych osobowych jest prawnie uzasadniony cel realizowany przez Administratora oraz jego partnerów (art. 6 ust. 1 lit. f RODO).

Użytkownikom przysługują następujące prawa: prawo żądania dostępu do swoich danych, prawo do ich sprostowania, prawo do usunięcia danych, prawo do ograniczenia przetwarzania oraz prawo do przenoszenia danych. Więcej informacji na temat przetwarzania Państwa danych osobowych, w tym przysługujących Państwu uprawnień, znajdziecie Państwo w naszej Polityce prywatności.
Czytaj całość
  • Sebastian

    W końcu ktoś jasno opisał co i jak z tym Google. Dziękuję

    sklep.motorfun.pl

    2021-02-14, 10:48
  • Dawid

    Dla klienta wiedza jak znalazł. Taki poradnik powinien znaleźć sie na każdym blogu marketingowym. Edukacja klientow to krok do lepszej komunikacji i efektywniejszych działań.

    b4internet.pl

    2021-02-10, 15:41
  • Adam Gierak

    WhitePress jak zwykle poważnie podszedł do tematu, muszę częściej wpadać na bloga i śledzić najnowsze wpisy!

    efficientsolutions.pl

    2021-02-09, 00:09
  • Agnieszka

    Dziękuję za dużo informacji. Właśnie jestem na etapie uczenia się o SEO i w tym temacie szukam rzetelnych wiadomości.

    sielskieianielskie.blogspot.com

    2021-02-07, 16:10
Polecane artykuły
marketing szeptany
Marketing szeptany - praktyka SEO i narzędzia

Zastanawiasz się czym jest marketing szeptany? Jaka jest różnica pomiędzy buzz marketingiem, a „szeptanką”? Wszystkie wątpliwości pozycjonerów rozwieje nasz artykuł, w którym wyrażnie tłumaczymy jakie zadanie ma spełniac taka forma promocji strony na podstawie ciekawego narzędzia brandle.pl.

Jak poprawić błędy w sklepie internetowym
10 błędów w Twoim sklepie internetowym - zobacz, jak poprawić techniczne SEO!

W dobie ogromnej konkurencji i stale rozwijającej się wyszukiwarki warto zadbać o techniczne SEO strony. Link building i tworzenie atrakcyjnych treści przyjaznych dla wyszukiwarek to tylko część pracy przy optymalizacji e-sklepu. Często znacznie więcej działań trzeba wykonać w strukturze strony. Dowiedz się, jak uniknąć dziesięciu częstych błędów i poprawić techniczne SEO swojego sklepu internetowego.