Kernkraft

Crawl Budget: Muss ich das beachten und wie?

Geschrieben von Nico Zorn veröffentlich am in der Kategorie Digital Marketing
Selbst Googles Ressourcen sind beschränkt. Websites werden daher nicht in Echtzeit gecrawlt und für Suchergebnisse verfügbar gemacht. Auf einzelne Websites entfallen nur begrenzte Ressourcen. Daher sollte man darauf achten, dass die wichtigen Seiten angemessen erfasst werden.

Muss ich mir ums Crawl Budget Gedanken machen?

Ganz ehrlich: Die meisten Websites können das Crawl-Budget getrost ignorieren. Zumindest dann, wenn sie sich an die meisten anderen Best Practices halten wie interne Verlinkung von Unterseiten und vernünftige Geschwindigkeit. Denn Crawling an sich ist kein Ranking-Faktor, sondern lediglich ein zuvor notwendiger Prozess.

Hat deine Seite Unterseiten im sechs- bis siebenstelligen Bereich? Wenn du hier mit „Nein“ antwortest, ist das Crawl Budget für dich vermutlich irrelevant. Vielleicht willst du ja aber einfach mehr wissen, dann lies gerne weiter.

Was ist das Crawl-Budget?

Crawl Budget ist die Anzahl an URLs einer Website, die der Googlebot aufrufen kann und will. Google selbst unterscheidet zwischen Crawl Rate und Crawl Demand.

Ein Limit bei der Crawl Rate stellt sicher, dass ein Server nicht übermäßig belastet wird. Sie wird beeinflusst durch die Geschwindigkeit, mit der die Seite ohne Fehler antwortet. Außerdem kann man in der Google Search Console manuell ein Maximum setzen.

Das Crawl Demand ist hingegen ein Maß für die Häufigkeit, mit der Google eine Seite Crawlen will. Dies hängt ab von der Beliebtheit des Inhalts, wie häufig Änderungen an diesem Inhalt vorgenommen werden und wann Google das letzte Mal vorbeigeschaut hat. Besondere Ereignisse wie ein Domainwechsel können ebenfalls zu erhöhtem Crawling führen.

Das Crawl Budget ergibt sich schließlich aus der Kombination dieser Werte.

 

Was beeinflusst das Crawl-Budget?

Google selbst nennt einige Faktoren, die einen negativen Effekt haben. Dies sind Strukturen und Verhaltensweisen, die entweder die Seiten langsamer machen oder unnötig Duplikate erzeugen. Sie lassen sich zusammenfassen als Low Value URLs:

  • Facetten-Navigation und Session Identifier
  • Duplicate Content (gleicher Inhalt unter mehreren URLs)
  • Seiten mit „Soft 404“ (kein 404-Code aber auch kein Inhalt)
  • Gehackte Seiten
  • Unendliche Links, z. B. bei Paginierung oder Kalendern, die ewig weitergehen, meist aber nur leer sind
  • Seiten mit niedriger Qualität oder Spam

 

Maßnahmen zur Crawlsteuerung

Man kann Google nicht anweisen, eine bestimmte Seite besonders oft oder gar zu festgelegten Zeiten zu crawlen. Vermerke in der Sitemap wie <changefreq /> ignoriert die Suchmaschine. Auch das Meta-Tag „revisit-after“ wird nicht genutzt – zumindest nicht von Google.

Sinnvoller ist ohnehin das <last modified> in der XML-Sitemap. Statt pauschaler Zeiträume erfahren Suchmaschinen hier direkt, wann ein Dokument zuletzt geändert wurde und können entsprechend handeln. Dabei gibt es aber zu beachten, dass Sitemaps und weitere Maßnahmen keine Regel sind, sondern lediglich Hinweise, die Suchmaschinen bei entsprechender Qualität durchaus befolgen.

Folgendes kann man tun, um das Crawl Budget sinnvoll zu verteilen oder zu steuern:

  • Sitemap – Last Modified: Um Suchmaschinen mitzuteilen, welche Inhalte sich wirklich haben. Suchmaschinen können so bevorzugt die tatsächlichen Änderungen erfassen. Dazu sollte die Sitemap aber aktuell und korrekt sein.
  • Fehler beheben: Weniger Seiten mit einem anderen Code als 200 erfordern weniger Seitenaufrufe.
  • Weiterleitungsketten korrigieren: Auch eine automatische Weiterleitung erfordert mindestens zwei Seitenaufrufe statt einer. Wie der vorige Punkt verbessert auch dieser das Erlebnis für menschliche Benutzer.
  • Gute Verlinkung: Sind alle Unterseiten verlinkt, findet der Googlebot sie auch. Zu guter Verlinkung gehört auch, immer die gleiche URL für den gleichen Inhalt zu finden und nicht ein Dutzend varianten.
  • Populäre Inhalte haben: Inhalte, die häufiger von extern verlinkt werden, werden auch öfter von Google besucht. Was viele Menschen besuchen, ist wichtiger und wird daher aktueller gehalten.
  • Verzicht auf nutzerspezifische URL-Bestandteile: Session-IDs und URL-Parameter schaffen immer eine neue URL, die gecrawlt werden muss. Meist gibt es andere, bessere Lösungen.
  • Manuelle Übermittlung: Wenn es schnell gehen soll, kann man eine URL gezielt zum Crawl an Google übermitteln. Bei guter Verlinkung aber unnötig.
  • Robots.txt Sperre: Entsprechende Anweisungen in der robots.txt verhindern, dass benannte Seiten gecrawlt werden. Allerdings gibt es hier oft Nebeneffekte. Hier sollte nur mit Fachkenntnis agiert werden. Eine genauere Untersuchung zeigt häufig generelle Probleme. Google selbst empfiehlt den Ausschluss von Seiten, die der Googlebot ohnehin nicht bedienen kann, z. B. Warenkörbe oder reine Login-Seiten.

 

Ein Dokument auf noindex zu setzen, hilft übrigens nicht. Denn bevor Google diese Anweisung sieht, muss der Googlebot die Seite ja erst einmal aufrufen. 

Quellen und Verweise

What Crawl Budget Means for Googlebot: Googles Artikel zum Crawl Budget, englischsprachig