Eine robots.txt für Contao erstellen

Anleitung für Contao

Die robots.txt ist eine zentrale Steuerdatei, die im Stammverzeichnis einer Website abgelegt wird und von Suchmaschinen-Crawlern (Bots) beim ersten Besuch ausgelesen wird. Sie basiert auf dem Robots Exclusion Standard und dient dazu, den Zugriff auf bestimmte Bereiche einer Website zu erlauben oder einzuschränken.

Auch bei Contao-Websites sollte eine korrekt erstellte robots.txt zum Standard gehören, um die Indexierung gezielt zu steuern und typische SEO-Probleme wie Duplicate Content zu vermeiden.

Die Agentur Zentral GmbH sorgt dafür, dass Ihre Contao-Webseite mit einer optimal eingerichteten robots.txt technisch und SEO-seitig perfekt aufgestellt ist – gerne unterstützen wir auch Ihr Projekt und freuen uns auf Ihre Anfrage.

Aufgaben der robots.txt

Die robots.txt erfüllt mehrere wichtige Funktionen:

  • Steuerung, welche Inhalte Suchmaschinen-Crawler durchsuchen dürfen
  • Ausschluss sensibler Verzeichnisse (z. B. /contao/, /vendor/ oder /system/ bei Contao)
  • Vermeidung von Duplicate Content durch URL-Parameter
  • Hinweis auf die Sitemap der Website
  • Optimierung der Serverlast, indem unnötige Crawls gesperrt werden

Gerade für Contao-Webseiten ist es wichtig, dass interne Verwaltungs- und Systemordner nicht im Index landen.

Technische Grundlagen

Eine robots.txt ist eine einfache Textdatei mit festen Regeln:

  • Dateiname: robots.txt (alles klein geschrieben)
  • Kodierung: UTF-8 ohne BOM
  • Ablage: direkt im Root-Verzeichnis (z. B. https://www.domain.tld/robots.txt)
  • Syntax: Jeder Eintrag besteht aus User-agent (Bot) und Disallow/Allow

Beispiel für eine sehr einfache Variante:

User-agent: *
Disallow:

Das bedeutet: Alle Bots dürfen alles crawlen.

Alle Bots blockieren

User-agent: *
Disallow: /

Bestimmte Verzeichnisse sperren (z. B. Contao-Systemverzeichnisse)

User-agent: *
Disallow: /contao/
Disallow: /system/
Disallow: /vendor/

Bestimmte Dateitypen sperren (z. B. PDFs)

User-agent: *
Disallow: /*.pdf$

Duplicate Content durch Parameter vermeiden (nur für Google relevant)

User-agent: Googlebot
Disallow: /*?

Sitemap einbinden

Sitemap: https://www.domain.tld/sitemap.xml

Gerade der letzte Punkt ist wichtig: Contao erstellt automatisch eine Sitemap.xml, die in der robots.txt referenziert werden sollte, damit Suchmaschinen die gesamte Seitenstruktur effizient erfassen.

Häufige Fehler bei der robots.txt

Viele Probleme entstehen durch kleine Unachtsamkeiten. Diese Fehler gilt es zu vermeiden:

  • Falsche Benennung – nur „robots.txt“ (klein, exakt so).
  • Falscher Speicherort – ausschließlich im Root-Verzeichnis.
  • Syntaxfehler – vergessene Doppelpunkte oder fehlerhafte Bot-Namen.
  • Leere Datei – nur eine leere Datei bringt nichts.
  • Groß-/Kleinschreibung – Verzeichnisse müssen exakt angegeben werden.
  • UTF-8 mit BOM – immer UTF-8 ohne BOM speichern (z. B. mit Notepad++).

Byte Order Mark (BOM):

Ein typisches Problem, das viele Betreiber von Contao-Webseiten schon erlebt haben: Trotz scheinbar korrekter Angaben zeigt ein robots.txt-Check sofort in der ersten Zeile einen Fehler an:

  • User-agent:...

Ursache ist meist die Speicherung im UTF-8-Format mit sogenanntem Byte Order Mark (BOM). Damit die Datei einwandfrei funktioniert, sollte sie im Standard-Format UTF-8 ohne BOM abgespeichert werden. Das lässt sich unkompliziert mit Notepad++ erledigen, indem dort die Option ‚Kodierung in UTF-8 ohne BOM‘ gewählt wird.

Kontrolle der robots.txt

Google bietet im Search Console-Tool die Möglichkeit, die robots.txt zu testen. Zusätzlich können Online-Validatoren wie der Robots.txt Checker von technicalseo.com genutzt werden.

Eine regelmäßige Überprüfung ist wichtig, da schon ein kleiner Syntaxfehler dazu führen kann, dass komplette Bereiche versehentlich gesperrt werden.

Fazit

Für Contao-Websites ist eine korrekt erstellte robots.txt ein unverzichtbares Werkzeug. Sie sorgt dafür, dass irrelevante oder sensible Verzeichnisse nicht indexiert werden, gleichzeitig aber die wichtigen Inhalte optimal für Suchmaschinen zugänglich sind. In Kombination mit einer sauberen Sitemap bildet die robots.txt die Basis einer technisch sauberen SEO-Strategie.

Zurück zur Blog-Übersicht