Die Logfile-Analyse: Was crawlt Google eigentlich die ganze Zeit?

Eine Logfile-Analyse gibt Aufschluss über den Searchbot!

Welche Seiten Ihrer Webseite untersucht bzw. Crawlt Google? Um hinter diese Frage zu kommen, genügen herkömmliche Tools der Suchmaschinenoptimierung nicht aus. Auch mit der Google Search Console kommen Sie hier zu keinem schlüssigen Ergebnis. Wenn Sie wirklich detailliert wissen wollen, was Google wann crawlt, müssen Sie eine Logfile-Analyse starten.

Was ist ein Crawler?

Ein Webcrawler (auch Searchbot, Spider oder Robot) bezeichnet ein Computerprogramm, dass das Internet automatisiert nach bestimmten Informationen und Daten durchsucht. Diese gecrawlten Daten nutzen Suchmaschinen für die Indexierung von Webseiten nach vorgegebenen Kriterien. Auch der Crawler von Google findet und besucht Webseiten, deren verschiedensten Informationen er dann anschließend im Index speichert. Dieser Suchvorgang wiederholt sich, denn auch schon gefundene Webseiten besucht der Crawler immer wieder und schaut hier auch permanent nach Veränderungen, die dann für eine Aktualisierung des Index verantwortlich sind.

Dieser Vorgang ist aufwendig und kostet Google einiges an Ressourcen. Wenn die Signale, die Google erhält und auswertet, als unwichtig, minderwertig oder gar fehlerhaft indexiert werden, ist das schlecht für eine Webseite. Das von Google individuell festgesetzt Crawlbudget für diese Webseite sinkt und die Seite wird in Zukunft weniger gecrawlt. Das kann in der Folge ein schlechteres Ranking und eine langsamere Indexierung bedeuten.

Warum sollen Sie jetzt auf die Logfiles gehen?

Die Search Console zeigt zwar auf, wie viele Ihrer URLs Google gecrawlt hat. Welche das aber genau waren, ist nicht genau ersichtlich. Nur ein kleiner Teil kann man über den neuen Abdeckungs-Report einsehen. Die Informationen, welche URLs tatsächlich gecrawlt wurden und somit wie gut also die Ranking-Voraussetzungen sind, ist mit einer Auswertung der Logfiles einsehbar.

Was genau ist eigentlich ein Logfile?

Unter Logfiles versteht man Dateien, die der Server einer Webseite automatisch speichert. Diese Dateien im Access Logs zeigen Ihnen jeden Hit, d. h. jede Anfrage an den Server, auch die des Googlebots. Viele Seitenaufrufe bedeuten auch eine große Datei. Aufgrund dessen löscht der Server automatisch nach ein paar Wochen diese gespeicherten Logfiles. Also müssen Sie schnell sein und in regelmäßigen Abständen Ihre Daten sichern, wenn Sie hier Auswertungen vornehmen möchten. Jede vorhandene Log-Datei entspricht einem Aufruf. Wichtig für Sie ist, dass die Datei Sie über die IP des Aufrufenden sowie über den Zeitpunkt des Aufrufs informiert. Weiterhin können Sie unter anderem auch genau den URI (Uniform Resource Identifier), also den Pfad der aufgerufenen Seite mit dem Protokoll einsehen.

Achtung DSGVO!

Auch die IP wird in den Logfiles gespeichert. Deshalb greift hier auch die DSGVO. Sie sind auf der sicheren Seite, wenn Sie in den Logfiles die IP-Adresse anonymisieren.

Wie analysiere ich nur die Aufrufe des Googlebots?

Der User Agent identifiziert den typischen Googlebot meistens mit „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“ oder sogar im Zeitalter des Mobile First mit „Googlebot Smartphone“. Doch Vorsicht! Nicht jeder User Agent „Googlebot“ ist der Crawler von Google, verlassen Sie sich nicht allein auf den User Agent!

Den Googlebot verifizieren Sie durch IPs, die mit 66.249 anfangen und ganz sicher gehen Sie, wenn Sie Vergleiche in Ihrer Google Search Console ziehen. Nun bietet es sich für die Fülle der Datenmenge an, ein Tool zur Auswertung zu benutzen, in das Sie Ihre Daten einfach per Drag & Drop einfügen und hier dann die Bots der Suchmaschinen selbstständig herausgefiltert werden.

Was genau zeigt mir die Logfile-Analyse an?

  • Sie können hier sehen, wenn Google unliebsame Parameter crawlt. Entfernen Sie diese.
  • Fehlerhafte Canonicals werden aufgedeckt und können gesperrt werden.
  • Unwichtige Seitenregionen können Sie in der robots.txt sperren und Links entfernen.
  • Wichtige Links auf „nofollow“ setzten.
  • Gecrawlte 404-Seiten sollten Sie eventuell weiterleiten.
  • Sie können 301-Weiterleitungen korrigieren.
  • Wenn statische URLs gecrawlt werden, dann können Sie den http-Header konfigurieren.
  • Sie sehen, wenn nicht alle Ihre Produkte gecrawlt werden und können das durch Linkbuilding verbessern.
  • Wichtig bei einem Relaunch: Wie sieht es hier mit unerwünschten URLs aus?

Ein Blick in die Logfiles ist auf jeden Fall sinnvoll. Wenn Sie noch am Aufbau Ihrer Seite sind, warten Sie damit ab bis Sie sinnvolle Schlüsse aus einer Auswertung ziehen können. Wenn Sie allerdings eine große Webseite oder sogar einen Online-Shop betreiben, dann lohnt sich eine Auswertung der Logfiles in jedem Fall. Sie geben ein objektives, aufschlussreiches und ehrliches Bild über die Gesundheit und den Indexierungsstatus Ihrer Webseite. Vor allem im Bereich der Suchmaschinenoptimierung liefert die Logfile-Analyse Ihnen sehr wichtige Informationen.

2 Kommentare
  1. Search Engine Tech Blog
    Search Engine Tech Blog sagte:

    Der Artikel erklärt sehr gut was Google macht und warum ein Blick in die Logfiles aufschlussreich sein kann, aber es ist nicht nur der Google Bot unterwegs. Hier mal eine Liste der Top 10 Web-Crawler User-Agents die zum Teil auch in den Logfiles auftauchen könnten:

    1. Google = Googlebot
    2. Bing = Bingbot
    3. Yahoo = Slurp
    4. DuckDuckGo = DuckDuckBot
    5. Baidu = Baiduspider
    6. Yandex = YandexBot
    7. Sogou = Sogou
    8. Exalead = Exabot
    9. Facebook = facebot
    10. Alexa = ia_archiver

    Antworten

Beitrag kommentieren

Wir freuen uns auf Ihr Feedback!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diesen Beitrag bewerten