Eine robots.txt erstellen

Die Zugriffskontrolle für Suchmaschinen. Steuern Sie jetzt die Crawler der Suchmaschinen selbst und bestimmen Sie so, welche Inhalte Ihrer Webseite im Suchindex aufgenommen werden sollen!

  • für jeden Fall die richtige Anleitung

Was ist eine robots.txt und welche Aufgaben kann diese wahrnehmen?

Mit der robots.txt haben Sie die Möglichkeit, den Crawlern der Suchmaschinen (Searchbots, die Webseiteninhalte auslesen und indiziert) gezielt Anweisungen für das Durchsuchen und Indexieren von Verzeichnissen und Dateien der eigenen Webseite zu geben. Nach Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein solcher auch als Robot bezeichneter Webcrawler immer zuerst die im Rootverzeichnis (Stammverzeichnis) abgelegte robots.txt und folgt deren festgelegten Vorgaben.

In der als einfache Textdatei angelegten robots.txt werden den Bots durch Restriktionen gesperrte Verzeichnisse und Dateien, die nur für private Zwecke oder der Administration dienlich sind, mitgeteilt. Bei der Erstellung dieser robots.txt-Datei gibt es jedoch grundlegende Dinge, die es unbedingt zu beachten gilt. Außerdem gibt es ein paar wichtige Steuermöglichkeiten, die besonders hinsichtlich der Suchmaschinenoptimierung Anwendung finden sollten.

Die robots.txt erstellen

Damit ein Crawler die robots.txt lesen kann, muss diese zwingen syntaktisch korrekt erstellt werden. Dies beginnt bereits bei der Benennung. Die Datei wird mit einem Texteditor - die beste Wahl ist die Verwendung von Notepad++, was sich im weiteren Verlauf dieses Beitrages genauer begründet - als .txt-Datei mit dem Namen „robots“ (Kleinschreibung beachten) abgespeichert. Inhaltlich besteht die robots.txt aus verschiedenen Datensätzen, die mittels User-agent einen bestimmten Crawler ansprechen und diesem dann in der folgenden Zeile eine Anweisung geben. Jede Zeile besteht immer aus zwei, mit einem Doppelpunkt getrennten Feldern.

  • korrekte Benennung der robots.txt
  • inhaltlich, syntaktisch fehlerfrei
  • speichern im UTF-8-Format ohne Byte Order Mark (BOM)
  • ablegen der robots.txt im Stammverzeichnis des Servers

Nachfolgend werden wir die einzelnen Besonderheiten beim Erstellen einer robots.txt genauer erläutern. Auch zeigen wir genauer auf, welche Fehler Sie unbedingt vermeiden sollten.

Namen der verschiedenen Webcrawler

Es gibt zwei verschiedene Möglichkeiten, die Crawler anzusprechen. Entweder man spricht einfach alle Bots über das sogenannte Wildchar (User-agent: *) oder jeweils gezielt einen Bot (z.B. User-agent: Googlebot) pro Zeile an. Eine Auflistung aller verschieden Webcrawler wird auf der Webseite von http://www.robotstxt.org/ bereitgestellt.

Die verschiedenen Möglichkeiten, die Indexierung der Suchmaschinen-Bots zu steuern.

Keine Beschränkungen für alle Bots

Möchten Sie allen Webcrawlern uneingeschränkten Zugang zu Ihrer Seite geben, um so alle Verzeichnisse in den Index aufnehmen zu lassen, ist ein leerer Disallow-Eintrag vorzunehmen:

Quellcode der robots.txt

User-agent: *
Disallow:

Gesamte Webseite für alle Bots beschränken

Möchten Sie allen Webcrawlern den Zugang zu Ihrer Seite verwehren, so ist das Rootverzeichnis mittels des Slash im Disallow-Eintrag anzugeben:

Quellcode der robots.txt

User-agent: *
Disallow: /

Bestimmte Verzeichnisse der Webseite für alle Bots beschränken

Möchten Sie allen Webcrawlern den Zugang zu Teilen Ihrer Seite verwehren, so sind diese, mit einem Slash beginnend im Disallow-Eintrag anzugeben:

Quellcode der robots.txt

User-agent: *
Disallow: /unterverzeichnis/
Disallow: /weiteres-unterverzeichnis/

Bestimmte Verzeichnisse der Webseite für bestimmte Bots beschränken

Möchten Sie nur bestimmten Webcrawlern den Zugang zu Teilen Ihrer Seite verwehren, so sind diese jeweils im User-agent einzeln anzugeben:

Quellcode der robots.txt

User-agent: Googlebot
User-agent: Slurp
Disallow: /unterverzeichnis/

Bestimmte Dateien der Webseite für Bots beschränken

Möchten Sie bestimmte Dateien (z.B. PDF oder JPG) für Crawler beschränken, so können Sie dies durch Angabe einer bestimmten Dateiendung, die mit dem Zeilenende-Anker, dem $-Zeichen im Disallow-Eintrag abgeschlossen wird (gilt nur für Googlebot, Slurp, msnbot):

Quellcode der robots.txt

User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot
Disallow: /*.pdf$

Suchmaschinenoptimierung mit Hilfe der robots.txt durchführen.

Mit der robots.txt Duplicate Content durch Parameterangaben verhindern

Bei dynamischen Webauftritten werden häufig Parameter als Variablen in der URL im Browser aufgerufen. Diese werden, sofern diese auf der Webseite über Verlinkungen aufgerufen werden, natürlich auch von den Webcrawlern ausfindig gemacht. Wird beispielsweise der Link http://domain.tlp/seite.html?variable=1 aufgerufen, so landen zwei Seiten mit demselben Inhalt im Index der Suchmaschinen:

  • http://domain.tlp/seite.html und
  • http://domain.tlp/seite.html?variable=1

Dies führt wiederum dazu, dass Suchmaschinendienste wie Google Ihre Internetseite aufgrund des Duplicate Content - sowie natürlich auch doppelter META-Beschreibung, doppeltem Seitentitel, etc. - abstrafen und schlechter bewerten. Die nachfolgende Lösung, bei der alle Pfade, die ein Fragezeichen enthalten, ausgeschlossen werden, lässt sich jedoch nur auf Google selbst anwenden; andere Bots können die Anweisung nicht interpretieren:

Quellcode der robots.txt

User-agent: Googlebot
Disallow: /*?

Mit der robots.txt auf die Sitemap verweisen

Sie können über die robots.txt den Webcrawler zusätzlich mitteilen, wo diese Ihre Sitemap-Datei finden. Diese Datei erleichtert diesen zusätzlich die Indizierung Ihrer Webseite.

Quellcode der robots.txt

Sitemap: http://www.domain.tlp/sitemap.xml

Diese 6 typischen Fehler sollten Sie bei der Erstellung der robots.txt unbedingt vermeiden.

  • robots.txt falsch benennen
  • robots.txt im falschen Verzeichnis ablegen
  • falsche Syntax innerhalb der robots.txt
  • leere robots.txt
  • missachten der Groß- und Kleinschreibung bei den Verzeichnissen und Dateien
  • das Byte Order Mark (BOM)

Betrachten wir nun die einzelnen Fehlerquellen etwas genauer. Besonders der letzte Fehlerpunkt hat schon zu manch Verzweiflung geführt.

robots.txt falsch benannt:

Es ist zwingend darauf zu achten, dass der Name „robots“ klein geschrieben wird. Falsch: Robots.txt.

robots.txt im falschen Verzeichnis:

Die robots-Datei muss in der obersten Ebene, den Rootverzeichnis der Webseite abgelegt werden. Gem. des Übereinkommens des Robots-Exclusion-Standard-Protokolls wird von den Bots nur im Rootverzeichnis nach der robots.txt gesucht. Wird diese dort nicht gefunden, so findet diese in einem anderen Verzeichnis auch keine Beachtung.

Falsche Syntax:

Halten Sie sich strikt an die Verwendung der vorgeschriebenen Syntax. Rufen Sie die Crawler über die User-agent-Angaben einzeln auf und geben Sie auch einzelne Vorgaben in den Disallow-Einträgen. Versuchen Sie nicht, mehrere Angaben in einer Zeile zu verwenden. Auch beim Aufrufen bestimmter Bots sollten Sie unbedingt auf die korrekte Schreibweise der Botnamen Acht geben. Ein weiterer, häufiger Syntax-Fehler ist das Vergessen der Doppelpunkte.

robots.txt ist leer:

Auch das Anlegen einer leeren robots-Datei kann natürlich nicht funktionieren. Nur wenn auch Anweisungen für die Bots vorhanden sind, wird die Datei auch beachtet.

Groß- und Kleinschreibung bei den Verzeichnissen und Dateien beachten:

Sind Verzeichnisse oder Dateien auf dem Server mit einem Großbuchstaben am Anfang angelegt, so müssen diese über die robots-Datei auch genauso angegeben werden.

Byte Order Mark (BOM):

Ein Fehler, der wohl so einige Webseitenbetreiber an den Rand der Verzweiflung bringt. Es wurden alle Angaben korrekt durchgeführt und sobald man die robots-Datei einem Check-Durchlauf unterzieht, kommt es gleich in der ersten Zeile zu einem Fehler:

  • User-agent:...

Wird die Datei im UTF-8-Format gespeichert, was auf jeden Fall zu empfehlen ist, da dies der Standard im WWW ist, so werden Bytereihenfolge-Markierungen am Anfang einer jeden Datei gesetzt. Jetzt kommt das bereits angesprochene Programm Notepad++ zum Einsatz. Dort kann die Datei unter Kodierung als UTF-8 ohne BOM abgespeichert werden.

Die robots.txt-Datei auf Fehler prüfen:

Um festzustellen, ob eine robots.txt korrekt erstellt wurde, kann mit dem Robots.txt Syntax Checker die Datei auf ihre Validität überprüfen.

Hat Ihnen dieser Artikel geholfen? Haben Sie spezielle Fragen zu weiteren Anwendungsfällen, bzw. Ausnahmen? Schreiben Sie doch einfach einen kurzen Kommentar, wir helfen gerne weiter.

1 Kommentare Artikel vom von Marco Dittmer

Einen Kommentar schreiben

Kommentar von Heinrich Bork

Guten Tag, ich hätte gerne gewusst wie ich für o.g. Seite eine robots.txt-Date anlegen muss Vielen Dank im voraus LG Heinrich Bork