Leitfaden zur robots.txt-Datei

BeoHosting Team·3. novembar 2025.·8 Min. Lesezeit Lesezeit

Was ist die robots.txt-Datei

robots.txt ist eine einfache Textdatei, die sich im Stammverzeichnis (Root) Ihrer Website befindet und Web-Crawlern (den Bots der Suchmaschinen) Anweisungen gibt, welche Teile der Website sie indizieren dürfen und welche sie ignorieren sollen. Jede ernstzunehmende Suchmaschine - Google, Bing, Yahoo - prüft diese Datei, bevor sie mit der Indizierung Ihrer Website beginnt.

robots.txt ist kein Sicherheitsmechanismus - sie ist eine Empfehlung, kein Verbot. Wohlmeinende Bots werden sie respektieren, bösartige nicht. Um den Zugriff auf sensible Seiten zu unterbinden, verwenden Sie Passwörter oder eine serverseitige Authentifizierung. robots.txt ist ein SEO-Werkzeug, das Suchmaschinen hilft, Ihre Website effizienter zu indizieren.

Wo sich die robots.txt befindet

Die robots.txt-Datei muss im Domain-Root liegen und unter folgender URL erreichbar sein:

https://ihredomain.com/robots.txt

Eine Datei unter einem anderen Pfad wird von den Crawlern nicht erkannt. Jede Subdomain benötigt ihre eigene robots.txt - die Datei auf ihredomain.com gilt nicht für blog.ihredomain.com.

Grundsyntax

robots.txt verwendet eine einfache Syntax mit nur wenigen Direktiven. Jeder Block beginnt mit einer User-agent-Zeile, die festlegt, für welchen Bot die Regeln gelten.

User-agent

User-agent: * - die Regeln gelten für alle Bots.
User-agent: Googlebot - die Regeln gelten nur für den Bot von Google.
User-agent: Bingbot - die Regeln gelten nur für den Bot von Bing.

Disallow

Disallow: /admin/ - verbietet den Zugriff auf das Verzeichnis /admin/ und alles darin.
Disallow: /privat.html - verbietet den Zugriff auf eine bestimmte Seite.
Disallow: / - verbietet den Zugriff auf die gesamte Website (Vorsicht!).
Disallow: (leer) - erlaubt den Zugriff auf alles (Standardverhalten).

Allow

Allow: /admin/public/ - erlaubt explizit den Zugriff auf ein Unterverzeichnis, das andernfalls durch eine Disallow-Regel blockiert wäre.
Allow wird verwendet, um Ausnahmen von Disallow-Regeln zu erstellen.

Häufige Direktiven und Beispiele

Basis-robots.txt für eine WordPress-Website

Hier ist eine empfohlene robots.txt für WordPress-Websites, die unnötige Bereiche blockiert und gleichzeitig die Indizierung wichtiger Inhalte erlaubt:

User-agent: * - gilt für alle Bots
Disallow: /wp-admin/ - das Admin-Panel sollte nicht indiziert werden
Allow: /wp-admin/admin-ajax.php - aber der AJAX-Endpoint wird benötigt, damit einige Themes und Plugins funktionieren
Disallow: /wp-includes/ - Systemdateien von WordPress
Disallow: /wp-content/plugins/ - Plugin-Dateien
Disallow: /wp-json/ - REST API (optional, je nach Bedarf)
Disallow: /?s= - Suchseiten (Thin Content)
Disallow: /author/ - Autoren-Archive (verhindert doppelte Inhalte)

Bestimmte Dateitypen blockieren

Disallow: /*.pdf$ - blockiert die Indizierung von PDF-Dateien.
Disallow: /*.xml$ - blockiert XML-Dateien (aber nicht die Sitemap!).

Bestimmte Bots blockieren

Manche Websites möchten KI-Crawler blockieren, die Daten für das Training von Modellen sammeln:
User-agent: GPTBot - der Bot von OpenAI
Disallow: /
User-agent: anthropic-ai - der Bot von Anthropic
Disallow: /

Wildcard-Zeichen

robots.txt unterstützt einen begrenzten Satz von Wildcard-Zeichen:

* (Sternchen): Ersetzt eine beliebige Zeichenfolge. Beispiel: Disallow: /*.php blockiert alle URLs, die .php enthalten.
$ (Dollar): Markiert das Ende der URL. Beispiel: Disallow: /*.php$ blockiert nur URLs, die auf .php enden (nicht .php?parameter=wert).

Diese Wildcard-Zeichen sind spezifisch für robots.txt und sind keine Standard-Regex. Verwenden Sie sie vorsichtig, da sie unerwartete Auswirkungen haben können.

robots.txt testen

Bevor Sie robots.txt auf eine Produktiv-Website stellen, testen Sie sie unbedingt, um nicht versehentlich wichtige Inhalte zu blockieren.

Tools zum Testen

Google Search Console: Im Bereich "Settings" → "Crawling" → "robots.txt" können Sie sehen, wie Google Ihre Datei interpretiert, und bestimmte URLs testen.
Bing Webmaster Tools: Ähnliche Funktionalität für die Suchmaschine Bing.
Online-Validatoren: Tools wie robots-txt.com oder technicalseo.com/tools/robots-txt/ prüfen die Syntax und warnen vor Fehlern.
Screaming Frog: Ein Desktop-SEO-Tool, das das Crawling simulieren und anzeigen kann, welche Seiten durch die robots.txt-Datei blockiert sind.

Häufige Fehler

Blockieren von CSS-/JS-Dateien: Google muss auf CSS und JavaScript zugreifen können, um Seiten korrekt zu rendern. Blockieren Sie diese Ressourcen nicht.
Disallow: / für alle Bots - dies blockiert die gesamte Website von der Indizierung. Ein häufiger Fehler bei der Migration einer Website.
Leerzeichen in Pfaden: Pfade müssen exakt sein, ohne überflüssige Leerzeichen.
Dateigröße: Google ignoriert eine robots.txt, die größer als 500 KB ist. Halten Sie die Datei kurz und übersichtlich.

robots.txt und Sitemap

robots.txt und Sitemap ergänzen sich - die robots.txt sagt den Bots, was sie nicht indizieren sollen, und die Sitemap sagt ihnen, was sie indizieren sollen.

Fügen Sie den Standort der Sitemap am Ende der robots.txt-Datei hinzu: Sitemap: https://ihredomain.com/sitemap.xml
Das hilft Suchmaschinen, Ihre Sitemap zu finden, noch bevor Sie sie in der Search Console hinzufügen.
Sie können mehrere Sitemaps angeben, falls Sie sie haben (z. B. für Beiträge, Seiten und Produkte).
Die Sitemap-URL muss ein absoluter Pfad mit Protokoll sein (https://).

Wichtiger Hinweis: Eine Seite, die in der Sitemap steht, aber in der robots.txt blockiert ist, wird nicht indiziert. Die robots.txt hat Vorrang. Wenn Sie möchten, dass eine Seite im Index erscheint, darf sie in der robots.txt nicht blockiert sein.

robots.txt vs. Meta-Robots-Tag

Neben der robots.txt gibt es auch den Meta-Robots-Tag, der in den HTML-Code einzelner Seiten eingefügt wird. Diese beiden Mechanismen ergänzen einander:

robots.txt: Blockiert das Crawling (den Zugriff) auf die Seite. Der Bot besucht die Seite nicht und liest ihren Inhalt nicht.
meta noindex: Erlaubt dem Bot, die Seite zu besuchen, weist ihn aber an, sie nicht in den Suchindex aufzunehmen.
Wenn Sie möchten, dass eine Seite nicht in den Google-Ergebnissen erscheint, verwenden Sie meta noindex. Wenn Sie möchten, dass der Bot überhaupt nicht auf die Seite zugreift (z. B. um Crawl-Budget zu sparen), verwenden Sie robots.txt.
Achtung: Wenn die robots.txt eine Seite blockiert, kann Google den meta-noindex-Tag auf ihr nicht sehen. In seltenen Fällen kann Google eine blockierte Seite auf Basis externer Links dennoch indizieren.

Fazit

robots.txt ist eine kleine, aber mächtige Datei, die das SEO Ihrer Website erheblich beeinflussen kann. Eine korrekt konfigurierte robots.txt hilft Suchmaschinen, Ihre Website effizienter zu indizieren, spart Crawl-Budget und verhindert die Indizierung unnötiger Inhalte. Für die meisten WordPress-Websites reicht die empfohlene robots.txt mit der Blockierung von wp-admin, wp-includes und Suchseiten völlig aus. Testen Sie die Datei immer vor dem Deploy auf die Produktion und prüfen Sie sie regelmäßig in der Google Search Console.