Ihre Website hat nicht nur menschliche Besucher: Webcrawler, gelegentlich auch Webspider genannt, hangeln sich im digitalen Netz von Link zu Link und untersuchen die jeweiligen Inhalte genau. Warum das keine Plage, sondern ein SEO-Segen ist, erfahren Sie hier. 

Hier finden Sie alle wichtigen SEO-Kennzahlen und einen  Schritt-für-Schritt-Guide zum SEO-Reporting.

Ein Begriff, viele Funktionen

Bei Webcrawlern, auch Searchbots oder Spiders genannt, handelt es sich um Computerprogramme, die Informationen im Internet automatisch durchforsten und dabei verschiedene Arten von Daten sammeln. Diese Daten können im Anschluss gespeichert, sortiert und ausgewertet werden.

Besonders bekannt sind die Webcrawler von Google. Sie sind verantwortlich dafür, Webseiten in den Index der Suchmaschine zu überführen. Aber auch für andere Zwecke werden Crawler genutzt, zum Beispiel, um Daten über Produkte und ihre Preise zu sammeln und dann auf Portalen für Preisvergleiche darzustellen.

Einige Webcrawler suchen speziell nach statistischen Daten, andere etwa nach Nachrichten. Auch öffentlich einsehbare Post- und E-Mail-Adressen sowie Telefonnummern können von den Bots eingesammelt werden. Dieser Prozess wird als „Data Mining“ bezeichnet und ist insbesondere für Marketingzwecke nützlich – aber nicht zwangsläufig auch erlaubt. Häufig bewegt sich die Nutzung dieser Crawler in einer rechtlichen Grauzone.

Daten, die nicht öffentlich zugänglich sind – beispielsweise Informationen in Datenbanken oder passwortgeschützten Bereichen – können von Webcrawlern in der Regel nicht erfasst werden.

Die Google Webcrawler als Grundlage der Indexierung in Suchmaschinen

Ein Webcrawler ist so programmiert, dass er automatisiert arbeiten kann. Jeder Arbeitsschritt wird im Vorfeld festgelegt. Über Links wechselt der Bot von Webseite zu Webseite und sucht auf seinem Weg stetig nach bestimmten Informationen. Welche genau das sind, hängt von der jeweiligen Aufgabenstellung ab. Wenn es sich um einen Google Webcrawler handelt, werden die Daten dann in Kategorien eingeordnet und nach exakt definierten Regeln in den Index der Suchmaschine übertragen.

Um den Index aktuell zu halten und Nutzern stets relevante Suchergebnisse anzeigen zu können, lässt Google seine Crawler Seiten nicht nur einmal auswerten. Nach einiger Zeit kehren die Bots zurück und prüfen, ob sich die Inhalte verändert haben.

Erst durch Webcrawler werden Webseiten in Suchmaschinen auffindbar. Deshalb sollten Sie versuchen, den Programmen das Sammeln der benötigten Daten auf Ihrer Webseite so einfach wie möglich zu machen – die Grundlage der sogenannten „On-Page-SEO“.

Achten Sie also darauf, dass Ihre Website eine klare Struktur und Navigation aufweist, einzelne Seiten intern gut miteinander verlinkt sind und die Metadaten mit relevanten Daten angereichert sind. Dabei kann es auch hilfreich sein, in der Google Search Console eine XML-Sitemap bereitzustellen.

Focus Crawler belohnen aktuelle Inhalte

Das Internet wächst rasant und damit ist es nahezu unmöglich, jede Seite zuverlässig zu indexieren. Normale Crawler haben deshalb pro Webseite nur eine bestimmte Zeit zur Verfügung. Seiten, die viele Besucher haben und auf die oft verlinkt wird, werten Webcrawler in der Regel häufiger und länger aus.

Ergänzend dazu kommen sogenannte Focus Crawler zum Einsatz. Sie konzentrieren sich auf besonders aktuelle und somit relevante Inhalte und indexieren diese detaillierter als es bei herkömmlichen Webcrawlern üblich ist.

Google und Co. gehen davon aus, dass Inhalte im Regelfall veralten, wenn sie nicht regelmäßig aktualisiert werden. Deshalb besuchen ihre Bots Seiten, die nur gelegentlich oder gar nicht aktualisiert werden, seltener.

Für die Suchmaschinenoptimierung bedeutet das, dass es sich lohnt, den eigenen Content von Zeit zu Zeit auf den neusten Stand zu bringen und periodisch frische Inhalte zur Verfügung zu stellen. Diese sollten natürlich hochwertig und einzigartig sein.

Crawler aussperren: Wie Sie Ihre Seiten vor unerwünschten Besuchen schützen

Normalerweise sind Crawler auf Webseiten gern gesehene Gäste – schließlich sorgen sie dafür, dass Internetnutzer die Inhalte über Suchmaschinen finden können. Manchmal soll eine Seite aber gar nicht gefunden werden können und somit auch nicht in den Index aufgenommen werden.

In diesem Fall können Webmaster Bots mittels der Datei „robots.txt“ und bestimmten Angaben im HTML-Header signalisieren, dass sie die fraglichen Inhalte nicht untersuchen sollen. Nicht immer verhindert das aber eine Indexierung! Vielversprechender ist an dieser Stelle der Einsatz von Meta-Tags wie dem noindex-Tag oder dem canonical-Tag.

Einige rechtlich fragwürdige Crawler halten sich nicht an solcherlei Anweisungen, zum Beispiel wenn es um Data Mining geht. Viele Webseitenbetreiber versuchen daher zum Beispiel, das unerwünschte Sammeln von E-Mail-Adressen zu verhindern, indem sie deren Schreibweise verändern. Lautet der Text etwa „kontakt(at)beispieldomain(dot)de“, erkennen zahlreiche Bots nicht mehr, dass es sich dabei um eine E-Mail-Adresse handelt.

Webcrawler vs. Scraper: Wo liegt der Unterschied?

Ein Scraper ist ähnlich konfiguriert wie ein Webcrawler und durchsucht das Internet automatisiert und wiederkehrend nach Informationen. Der Zweck ist allerdings ein anderer.

Scraper kopieren komplette Seiten und veröffentlichen sie in identischer oder leicht abgewandelter Form an anderer Stelle im Web. So sollen Internetseiten schnell und einfach mit hochwertigen, im Suchmaschinenranking weit vorne stehenden Inhalten gefüllt werden. Dadurch lässt sich gut Geld verdienen – beispielsweise über Werbeanzeigen.

Insbesondere den Webcrawlern von Google kommt im Web eine bedeutende Rolle zu. Ohne sie müssten Webseiten manuell indexiert werden, was bei der Menge der Inhalte ein Ding der Unmöglichkeit ist. Nutzer müssten URLs direkt eintippen (was voraussetzt, dass sie bekannt sind) oder sich anhand von Links von Seite zu Seite bewegen, statt bequem nach bestimmten Inhalten suchen zu können. Es lässt sich also ohne Zweifel festhalten: Ohne Crawler wäre das Internet nicht so, wie wir es kennen!

SEO-Reporting Checkliste

Headerbild: PashaIgnatov / iStock / Getty Images Plus

Ursprünglich veröffentlicht am 6. Januar 2020, aktualisiert am Januar 06 2020

Themen:

SEO