Das Crawlen von Webseiten ist entscheidend, damit diese bei Suchmaschinen wie Google indexiert und gefunden werden können. Wirklich effizient wird dieser Vorgang aber erst durch gezielte Anweisungen in der robots.txt-Datei. Erfahren Sie, wie Sie mithilfe von robots.txt die Aktivitäten der Webcrawler auf Ihrer Website kontrollieren und damit Ihre SEO nachhaltig verbessern.
Was ist robots.txt?
robots.txt ist eine Textdatei im Stammverzeichnis einer Website-Domain. Sie legt fest, welche Bereiche der Website von Suchmaschinen-Bots gecrawlt werden dürfen und welche nicht. Durch die Platzierung dieser Datei auf der Root-Ebene können Websitebetreibende den Zugriff von Webcrawlern steuern und so die Sichtbarkeit ihrer Website beeinflussen.
Wofür wird robots.txt verwendet?
Die Verwendung von robots.txt ist äußerst nützlich, obwohl es anfangs verwirrend erscheinen mag, dass Websitebetreiberinnen und -betreiber das Leseverhalten von Webcrawlern steuern möchten. Durch die Datei können sie aber zum Beispiel festlegen, welche Teile ihrer Website für Suchmaschinen zugänglich sein sollen und welche besser gesperrt bleiben.
Zwingend erforderlich ist die robots.txt-Datei nicht. Allerdings gilt das Vorhandensein der Datei als Qualitätskriterium in der SEO. Sie erleichtert den Suchmaschinen das Auffinden von bestimmten Informationen und ermöglicht ein effizientes Crawlen.
Normalerweise verfolgen Bots beim Crawling jeden Hyperlink auf der Webseite und laden Unterseiten herunter. Dies kann zu einer hohen Serverauslastung führen, insbesondere wenn mehrere Crawler gleichzeitig aktiv sind oder der Server nicht genügend Leistung bietet.
robots.txt hingegen schont die Serverressourcen, indem sie die Crawler von irrelevanten Inhalten fernhält und ihnen eine Referenz auf die Sitemap gibt, um das Indexieren von Dateien zu beschleunigen.
Wo finde ich die robots.txt-Datei?
Eine bestehende robots.txt-Datei befindet sich immer im Root-Verzeichnis Ihrer Website. Zum Aufrufen und Editieren benötigen Sie einen FTP-Client, mit dem Sie dann auf das Verzeichnis „public_html“ zugreifen. Dort ist die Textdatei abgespeichert.
Wenn Sie die Datei nur anschauen und nicht bearbeiten möchten, dann reicht es, wenn Sie die URL Ihrer Domain mit der Ergänzung /robots.txt aufrufen, also beispielsweise: www.meine-domain.de/robots.txt.
Wie sollte eine robots.txt-Datei aussehen?
Grundsätzlich lässt sich die Struktur von robots.txt in verschiedene Abschnitte beziehungsweise Anweisungen unterteilen, die das Crawlen für bestimmte Bots erlauben oder verbieten. Dazu gehören User Agents, Disallow und die Sitemap.
Hier die Anweisungen im Detail:
- User Agents: Zu Beginn der Textdatei werden die User Agents festgelegt. Diese Angabe bestimmt, für welche Crawler die darauffolgenden Regeln gelten. Die Crawler haben standardisierte Namen (beispielsweise Googlebot, Googlebot-Image, bingbot), die in den Dokumentationen der entsprechenden Suchmaschinen nachgeschlagen werden können. Ein Stern * spricht alle Webcrawler an.
- Disallow: Nach der Festlegung der User Agents folgt in der Regel der Disallow-Bereich. Hier wird festgelegt, welche Verzeichnisse und Seiten von den User Agents nicht durchsucht werden sollen. Optional kann auch ein Allow-Eintrag verwendet werden, um zugelassene Verzeichnisse von den nicht erlaubten zu trennen oder Ausnahmen in verbotenen Verzeichnissen zu definieren.
- Sitemap: Zusätzlich wird Webseitenbetreibern empfohlen, in der robots.txt auf die XML-Sitemap zu verweisen, um eine optimale Grundlage für das Crawlen und Indexieren der Website zu bieten. Dabei sollte der Verweis stets absolut erfolgen, also mit der vollständigen Webseiten-URL.
Ein einfaches Beispiel für eine robots.txt-Datei zur Veranschaulichung:
# robots.txt
User-agent: *
Disallow: /form.css
Disallow: /service/
Disallow: /wp-admin/
Sitemap: https://www.meine-domain.de/sitemap.xml
Entgegen vieler Annahmen ist die robots.txt-Datei aber kein zuverlässiges Mittel, um Webseiten von der Indexierung auszuschließen. Stattdessen empfiehlt Google, das Robots-Meta-Schlüsselwort „noindex“ zu verwenden, um spezifische Anweisungen zur Indexierung zu geben.
Mithilfe von Robots-Meta-Tags können Sie genaue Angaben zur Indexierung machen. Zum Beispiel kann eine Seite für die Indexierung gesperrt werden, während der Crawler dennoch den Links auf der Seite folgen darf („noindex, follow“). Standardmäßig werden beide Prozesse erlaubt („index, follow“). Die Robots-Meta-Angaben werden zu den HTML-Head-Tags einer Seite hinzugefügt und nicht wie robots.txt in einer separaten Datei gespeichert.
Wie erstellt man eine robots.txt-Datei?
Sollten Sie noch keine robots.txt-Datei haben, können Sie entweder einen robots.txt-Generator verwenden oder die Datei ganz einfach selbst erstellen. Dazu benötigen Sie nichts weiter als einen Texteditor und einen FTP-Client. Erstellen Sie zuerst eine neue Textdatei mit dem Namen robots.txt. Schreiben Sie dann die gewünschten Anweisungen hinein. Laden Sie die Datei zuletzt per FTP in Ihr Stammverzeichnis hoch.
Hinweis: Falls Sie Ihre Website über WordPress hosten, haben Sie automatisch eine virtuelle robots.txt-Datei. Diese können Sie über den Link www.meinewordpressseite.com/robots.txt aufrufen und entweder über das FTP-Programm oder über SEO-Plugins wie Yoast-SEO oder All-in-One-SEO bearbeiten.
Nach dem Hochladen in Ihr Root-Verzeichnis sollten Sie noch prüfen, ob robots.txt ein gültiges Format hat. Im Internet tummeln sich dazu unterschiedlichste kostenlose Tools und robots.txt-Tester. Noch besser ist der integrierte robots.txt-Tester von Google selbst. Wählen Sie in den Google-Webmaster-Tools die zu testende Webseite aus und lassen Sie sie einmal durch den Test gehen.
robots.txt erstellen: Vermeiden Sie diese 5 Fehler
Die robots.txt-Datei ist ein wichtiges Instrument, um Suchmaschinen das Crawling von Webseiten zu steuern. Allerdings können Fehler bei der Erstellung und Implementierung der robots.txt zu unerwünschten Konsequenzen führen. Hier sind fünf häufige Probleme und ihre Auswirkungen:
1. Fehlerhafte Syntax
Es ist entscheidend, eine korrekte Syntax in der robots.txt zu verwenden. Jeder Eintrag besteht aus zwei Teilen: Dem User Agent, für den die Anweisung gilt, und der eigentlichen Anweisung selbst. Wenn die Syntax falsch ist, werden die Anweisungen möglicherweise nicht erkannt und die gewünschten Seiten werden trotzdem gecrawlt.
2. Slash vergessen
Beim Sperren von Verzeichnissen sollten Sie darauf achten, den Slash am Ende des Verzeichnisnamens anzugeben. Fehlt der Slash, können nicht nur das Verzeichnis selbst, sondern auch einzelne Dateien innerhalb des Verzeichnisses von Suchmaschinen indexiert werden.
Beispiel: Disallow: /verzeichnis sperrt nicht nur /verzeichnis/, sondern auch /verzeichnis-seite.html.
3. Falscher Speicherort
Die robots.txt-Datei muss immer im Root-Verzeichnis der Webseite abgelegt werden. Wenn sie in einem Unterverzeichnis liegt, wird sie von den meisten Crawlern nicht erkannt und die Anweisungen haben keine Wirkung. Dadurch können ungewollte Seiten indexiert werden.
4. Verzeichnisse unabsichtlich blockiert
Es ist wichtig sicherzustellen, dass Verzeichnisse, die indexiert werden sollen, nicht irrtümlich mit dem Befehl „Disallow“ gesperrt werden. Prüfen Sie Ihre Disallow-Einträge deshalb besonders sorgsam.
5. „Disallow“ für Seiten mit Weiterleitungen
Wenn Seiten in der robots.txt-Datei gesperrt werden, die jedoch auf andere Seiten weitergeleitet werden, können Crawler die Weiterleitungen möglicherweise nicht erkennen. Dies kann dazu führen, dass Suchmaschinen die Seiten mit falschen URLs indexieren, was zu einer fehlerhaften Darstellung in den Suchergebnissen und zu verfälschten Google Analytics-Daten führt.
Fazit: Bessere SEO dank optimierter robots.txt-Datei
Die robots.txt-Datei spielt eine entscheidende Rolle bei der Steuerung von Webcrawlern und der Verbesserung der SEO. Sie ermöglicht Websitebetreibern die Kontrolle über die Aktivitäten von Suchmaschinen-Bots, um die Sichtbarkeit der Website gezielt zu beeinflussen.
Achten Sie beim Erstellen einer robots.txt auf die richtige Syntax und speichern Sie die Datei immer im Root-Verzeichnis, damit sie von den Crawlern auch gefunden werden kann. Neben dem Steuern der Webcrawler über robots.txt empfiehlt Google zusätzlich die Verwendung von Robots-Meta-Tags, um spezifische Anweisungen zur Indexierung zu geben.
Titelbild: lechatnoir / iStock / Getty Images Plus