Leitfaden zur robots.txt-Datei

Was ist die robots.txt-Datei
robots.txt ist eine einfache Textdatei, die sich im Stammverzeichnis (Root) Ihrer Website befindet und Web-Crawlern (den Bots der Suchmaschinen) Anweisungen gibt, welche Teile der Website sie indizieren dürfen und welche sie ignorieren sollen. Jede ernstzunehmende Suchmaschine - Google, Bing, Yahoo - prüft diese Datei, bevor sie mit der Indizierung Ihrer Website beginnt.
robots.txt ist kein Sicherheitsmechanismus - sie ist eine Empfehlung, kein Verbot. Wohlmeinende Bots werden sie respektieren, bösartige nicht. Um den Zugriff auf sensible Seiten zu unterbinden, verwenden Sie Passwörter oder eine serverseitige Authentifizierung. robots.txt ist ein SEO-Werkzeug, das Suchmaschinen hilft, Ihre Website effizienter zu indizieren.
Wo sich die robots.txt befindet
Die robots.txt-Datei muss im Domain-Root liegen und unter folgender URL erreichbar sein:
- https://ihredomain.com/robots.txt
Eine Datei unter einem anderen Pfad wird von den Crawlern nicht erkannt. Jede Subdomain benötigt ihre eigene robots.txt - die Datei auf ihredomain.com gilt nicht für blog.ihredomain.com.
Grundsyntax
robots.txt verwendet eine einfache Syntax mit nur wenigen Direktiven. Jeder Block beginnt mit einer User-agent-Zeile, die festlegt, für welchen Bot die Regeln gelten.
User-agent
- User-agent: * - die Regeln gelten für alle Bots.
- User-agent: Googlebot - die Regeln gelten nur für den Bot von Google.
- User-agent: Bingbot - die Regeln gelten nur für den Bot von Bing.
Disallow
- Disallow: /admin/ - verbietet den Zugriff auf das Verzeichnis /admin/ und alles darin.
- Disallow: /privat.html - verbietet den Zugriff auf eine bestimmte Seite.
- Disallow: / - verbietet den Zugriff auf die gesamte Website (Vorsicht!).
- Disallow: (leer) - erlaubt den Zugriff auf alles (Standardverhalten).
Allow
- Allow: /admin/public/ - erlaubt explizit den Zugriff auf ein Unterverzeichnis, das andernfalls durch eine Disallow-Regel blockiert wäre.
- Allow wird verwendet, um Ausnahmen von Disallow-Regeln zu erstellen.
Häufige Direktiven und Beispiele
Basis-robots.txt für eine WordPress-Website
Hier ist eine empfohlene robots.txt für WordPress-Websites, die unnötige Bereiche blockiert und gleichzeitig die Indizierung wichtiger Inhalte erlaubt:
- User-agent: * - gilt für alle Bots
- Disallow: /wp-admin/ - das Admin-Panel sollte nicht indiziert werden
- Allow: /wp-admin/admin-ajax.php - aber der AJAX-Endpoint wird benötigt, damit einige Themes und Plugins funktionieren
- Disallow: /wp-includes/ - Systemdateien von WordPress
- Disallow: /wp-content/plugins/ - Plugin-Dateien
- Disallow: /wp-json/ - REST API (optional, je nach Bedarf)
- Disallow: /?s= - Suchseiten (Thin Content)
- Disallow: /author/ - Autoren-Archive (verhindert doppelte Inhalte)
Bestimmte Dateitypen blockieren
- Disallow: /*.pdf$ - blockiert die Indizierung von PDF-Dateien.
- Disallow: /*.xml$ - blockiert XML-Dateien (aber nicht die Sitemap!).
Bestimmte Bots blockieren
- Manche Websites möchten KI-Crawler blockieren, die Daten für das Training von Modellen sammeln:
- User-agent: GPTBot - der Bot von OpenAI
- Disallow: /
- User-agent: anthropic-ai - der Bot von Anthropic
- Disallow: /
Wildcard-Zeichen
robots.txt unterstützt einen begrenzten Satz von Wildcard-Zeichen:
- * (Sternchen): Ersetzt eine beliebige Zeichenfolge. Beispiel: Disallow: /*.php blockiert alle URLs, die .php enthalten.
- $ (Dollar): Markiert das Ende der URL. Beispiel: Disallow: /*.php$ blockiert nur URLs, die auf .php enden (nicht .php?parameter=wert).
Diese Wildcard-Zeichen sind spezifisch für robots.txt und sind keine Standard-Regex. Verwenden Sie sie vorsichtig, da sie unerwartete Auswirkungen haben können.
robots.txt testen
Bevor Sie robots.txt auf eine Produktiv-Website stellen, testen Sie sie unbedingt, um nicht versehentlich wichtige Inhalte zu blockieren.
Tools zum Testen
- Google Search Console: Im Bereich "Settings" → "Crawling" → "robots.txt" können Sie sehen, wie Google Ihre Datei interpretiert, und bestimmte URLs testen.
- Bing Webmaster Tools: Ähnliche Funktionalität für die Suchmaschine Bing.
- Online-Validatoren: Tools wie robots-txt.com oder technicalseo.com/tools/robots-txt/ prüfen die Syntax und warnen vor Fehlern.
- Screaming Frog: Ein Desktop-SEO-Tool, das das Crawling simulieren und anzeigen kann, welche Seiten durch die robots.txt-Datei blockiert sind.
Häufige Fehler
- Blockieren von CSS-/JS-Dateien: Google muss auf CSS und JavaScript zugreifen können, um Seiten korrekt zu rendern. Blockieren Sie diese Ressourcen nicht.
- Disallow: / für alle Bots - dies blockiert die gesamte Website von der Indizierung. Ein häufiger Fehler bei der Migration einer Website.
- Leerzeichen in Pfaden: Pfade müssen exakt sein, ohne überflüssige Leerzeichen.
- Dateigröße: Google ignoriert eine robots.txt, die größer als 500 KB ist. Halten Sie die Datei kurz und übersichtlich.
robots.txt und Sitemap
robots.txt und Sitemap ergänzen sich - die robots.txt sagt den Bots, was sie nicht indizieren sollen, und die Sitemap sagt ihnen, was sie indizieren sollen.
- Fügen Sie den Standort der Sitemap am Ende der robots.txt-Datei hinzu: Sitemap: https://ihredomain.com/sitemap.xml
- Das hilft Suchmaschinen, Ihre Sitemap zu finden, noch bevor Sie sie in der Search Console hinzufügen.
- Sie können mehrere Sitemaps angeben, falls Sie sie haben (z. B. für Beiträge, Seiten und Produkte).
- Die Sitemap-URL muss ein absoluter Pfad mit Protokoll sein (https://).
Wichtiger Hinweis: Eine Seite, die in der Sitemap steht, aber in der robots.txt blockiert ist, wird nicht indiziert. Die robots.txt hat Vorrang. Wenn Sie möchten, dass eine Seite im Index erscheint, darf sie in der robots.txt nicht blockiert sein.
robots.txt vs. Meta-Robots-Tag
Neben der robots.txt gibt es auch den Meta-Robots-Tag, der in den HTML-Code einzelner Seiten eingefügt wird. Diese beiden Mechanismen ergänzen einander:
- robots.txt: Blockiert das Crawling (den Zugriff) auf die Seite. Der Bot besucht die Seite nicht und liest ihren Inhalt nicht.
- meta noindex: Erlaubt dem Bot, die Seite zu besuchen, weist ihn aber an, sie nicht in den Suchindex aufzunehmen.
- Wenn Sie möchten, dass eine Seite nicht in den Google-Ergebnissen erscheint, verwenden Sie meta noindex. Wenn Sie möchten, dass der Bot überhaupt nicht auf die Seite zugreift (z. B. um Crawl-Budget zu sparen), verwenden Sie robots.txt.
- Achtung: Wenn die robots.txt eine Seite blockiert, kann Google den meta-noindex-Tag auf ihr nicht sehen. In seltenen Fällen kann Google eine blockierte Seite auf Basis externer Links dennoch indizieren.
Fazit
robots.txt ist eine kleine, aber mächtige Datei, die das SEO Ihrer Website erheblich beeinflussen kann. Eine korrekt konfigurierte robots.txt hilft Suchmaschinen, Ihre Website effizienter zu indizieren, spart Crawl-Budget und verhindert die Indizierung unnötiger Inhalte. Für die meisten WordPress-Websites reicht die empfohlene robots.txt mit der Blockierung von wp-admin, wp-includes und Suchseiten völlig aus. Testen Sie die Datei immer vor dem Deploy auf die Produktion und prüfen Sie sie regelmäßig in der Google Search Console.
BeoHosting Team
10+ Jahre Erfahrung — Spezialisten für Webhosting und Infrastruktur
- Web Hosting
- WordPress Hosting
- VPS
- Dedicated Serveri
- Domeni
- SSL
- cPanel
- LiteSpeed
- Linux administracija
- DNS
Zuletzt aktualisiert: