Die robots.txt ist eine der grundlegendsten Dateien für technisches SEO. Sie steuert, welche Bereiche Ihrer Website von Suchmaschinen-Crawlern besucht werden dürfen. Eine falsch konfigurierte robots.txt kann Ihre gesamte Website aus dem Index ausschließen!
robots.txt Grundlagen
robots.txt ist Teil des Robots Exclusion Protocol von 1994. Sie teilt Crawlern mit, welche URLs sie besuchen dürfen.
Was robots.txt KANN
- Crawler vom Crawling bestimmter Bereiche abhalten
- Crawl-Budget auf wichtige Seiten lenken
- Server-Last durch Bot-Traffic reduzieren
- XML-Sitemap Location angeben
- Crawl-Delay für aggressive Bots setzen
Was robots.txt NICHT KANN
- Indexierung verhindern (nutzen Sie noindex)
- Sensible Daten schützen (nutzen Sie Passwortschutz)
- Garantie, dass Bots sich daran halten (nur Empfehlung)
- Unterschiedliche Regeln für verschiedene Länder
Kritischer Fehler
Disallow: / blockiert die GESAMTE Website! Das ist der häufigste
robots.txt-Fehler und führt zur De-Indexierung. Prüfen Sie IMMER vor dem Upload!
Syntax & Befehle
Basis-Syntax
# Kommentare beginnen mit #
# Regel-Gruppe für einen User-Agent
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/
# Sitemap Location
Sitemap: https://example.com/sitemap.xml Befehle im Detail
| Befehl | Bedeutung | Beispiel |
|---|---|---|
| User-agent | Definiert Crawler | User-agent: Googlebot |
| Disallow | Crawling verbieten | Disallow: /admin/ |
| Allow | Ausnahme zu Disallow | Allow: /admin/public/ |
| Sitemap | Sitemap Location | Sitemap: https://example.com/sitemap.xml |
| Crawl-delay | Verzögerung in Sekunden | Crawl-delay: 10 |
Wildcards & Pattern Matching
# * = beliebige Zeichenfolge
Disallow: /*.pdf$ # Blockiert alle PDF-Dateien
# $ = Ende der URL
Disallow: /*?print= # Blockiert alle URLs mit ?print= Parameter
# Beispiele:
Disallow: /private* # /private, /private/, /private-docs/
Disallow: /*? # Alle URLs mit Parametern
Disallow: /*.jpg$ # Nur .jpg Dateien (nicht .jpg?size=large) Best Practices
1. Was SOLLTEN Sie blockieren
- Admin-Bereiche: /admin/, /wp-admin/
- Login/Register: /login, /register, /checkout
- Such-Ergebnisse: /search, /?s=
- Interne Suche: /*?q=, /*?search=
- Duplicate Parameter: /?sort=, /?filter=
- Staging/Test: /dev/, /staging/
- Danke-Seiten: /thank-you, /danke
2. Was Sie NIEMALS blockieren sollten
- CSS-Dateien: /*.css$ - Google braucht diese!
- JavaScript: /*.js$ - Für Rendering essentiell!
- Bilder: Nur wenn Sie aus Bildersuche raus wollen
- Produktseiten: Ihr wertvollster Content!
- Blog-Artikel: Siehe oben
Google's Empfehlung
"Don't use robots.txt to block CSS and JavaScript files. Googlebot needs to access these files to understand how your pages look and work." - Google Search Central
3. Standard robots.txt Template
# Alle Crawler dürfen alles crawlen (Standard)
User-agent: *
Disallow:
# Admin-Bereich blockieren
Disallow: /admin/
Disallow: /wp-admin/
# Suche blockieren
Disallow: /search
Disallow: /*?s=
Disallow: /*?q=
# Login/Register blockieren
Disallow: /login
Disallow: /register
# Duplicate Parameter blockieren
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
# Danke-Seiten blockieren
Disallow: /thank-you
Disallow: /danke
# XML-Sitemap Location
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/blog-sitemap.xml User-Agents verstehen
Wichtige User-Agents
| User-Agent | Suchmaschine | Besonderheiten |
|---|---|---|
| Googlebot | Wichtigster Crawler | |
| Googlebot-Image | Google Bildersuche | Nur für Bilder |
| Bingbot | Bing | Zweitwichtigster |
| GPTBot | OpenAI ChatGPT | AI Training Data |
| * | Alle | Wildcard für alle Crawler |
Spezifische Crawler-Regeln
# Standard für alle Crawler
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
# Google-spezifische Regel
User-agent: Googlebot
Disallow: /no-google/
# Bilder-Crawler blockieren
User-agent: Googlebot-Image
Disallow: /private-images/
# AI-Bots blockieren
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: / Crawl-Budget optimieren
Crawl-Budget ist die Anzahl der URLs, die Googlebot pro Tag crawlt. robots.txt hilft, Crawl-Budget auf wichtige Seiten zu fokussieren.
Crawl-Budget Verschwendung vermeiden
- Facettierte Navigation: Filter-URLs blockieren
- Session IDs: /*?sessionid= blockieren
- Infinite Scroll: /*?page= bei Ajax-Loading blockieren
- Duplicate Content: Parameter-URLs blockieren
- Low-Value Seiten: Tags, Archive, Author-Pages
# E-Commerce: Filter blockieren
User-agent: *
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*?price=
Disallow: /*?brand=
# Aber Kategorie-Seiten erlauben
Allow: /kategorie/
# Blog: Tags und Archive blockieren
Disallow: /tag/
Disallow: /author/
Disallow: /*/page/ Häufige Fehler
Fehler 1: Gesamte Site blockieren
User-agent: *
Disallow: / ← BLOCKIERT ALLES! Fehler 2: CSS/JS blockieren
Disallow: /*.css$
Disallow: /*.js$ ← Schadet Mobile-First Indexing! Fehler 3: noindex in robots.txt
Noindex: /private/ ist KEIN gültiger Befehl! Nutzen Sie Meta-Tags.
Fehler 4: robots.txt nicht im Root
example.com/blog/robots.txt ← Funktioniert NICHT!
Muss sein: example.com/robots.txt
Testing & Validierung
robots.txt testen
- Google Search Console robots.txt Tester:
- Öffnen Sie GSC → Crawling → robots.txt-Tester
- Testen Sie URLs gegen robots.txt
- Sehen Sie sofort, ob blocked oder allowed
- Live-Test:
- Rufen Sie https://ihre-domain.de/robots.txt auf
- Prüfen Sie Syntax-Fehler
- Achten Sie auf Leerzeilen und Formatierung
- robots.txt Validator Tools:
- technicalSEO.com robots.txt Checker
- Merkle robots.txt Validator
- Screaming Frog robots.txt Test
Praxis-Beispiele
E-Commerce Shop
User-agent: *
# Admin blockieren
Disallow: /admin/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
# Filter & Sortierung blockieren
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
# Suche blockieren
Disallow: /search
# Produktseiten ERLAUBEN (wichtig!)
Allow: /produkte/
# Sitemap
Sitemap: https://shop.example.com/sitemap.xml
Sitemap: https://shop.example.com/product-sitemap.xml WordPress Blog
User-agent: *
# WordPress Core blockieren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Plugins & Themes NICHT blockieren (CSS/JS!)
# Allow: /wp-content/
# WP-JSON API blockieren (optional)
Disallow: /wp-json/
# Author, Tags, Archive blockieren
Disallow: /author/
Disallow: /tag/
Disallow: /*/page/
# Suche blockieren
Disallow: /?s=
# Sitemap
Sitemap: https://blog.example.com/sitemap_index.xml robots.txt Checkliste
robots.txt Audit Checkliste
Fazit: robots.txt als SEO-Foundation
robots.txt ist ein mächtiges Tool für Crawl-Budget-Optimierung und Crawler-Steuerung. Richtig eingesetzt, hilft sie Google, Ihre wichtigsten Seiten effizient zu crawlen.
- Crawl-Budget: Fokus auf wichtige Seiten
- Server-Last: Weniger unnötige Bot-Requests
- Privacy: Admin-Bereiche geschützt
- Performance: Duplicate Content reduziert
Nächste Schritte
- 1. Aktuelle robots.txt prüfen: example.com/robots.txt aufrufen
- 2. GSC Tester nutzen: Wichtige URLs gegen robots.txt testen
- 3. Template anpassen: Standard-Template für Ihre Site customizen
- 4. Sitemap eintragen: Sitemap: URL hinzufügen
- 5. Monitoring: GSC Coverage Report auf blockierte URLs prüfen
Häufig gestellte Fragen
Hier finden Sie direkte Antworten zu OnPage SEO, den kostenlosen Tools und meiner Arbeitsweise.
Was ist OnPage SEO?
Wie lange dauert es, bis SEO-Maßnahmen wirken?
Sind Ihre SEO-Tools wirklich kostenlos?
Kann ich OnPage SEO selbst machen oder brauche ich eine Agentur?
Was ist der Unterschied zwischen OnPage und OffPage SEO?
Wie wichtig ist Barrierefreiheit für SEO?
Ihre Frage nicht dabei?
Schreiben Sie mir direkt – ich antworte persönlich und unverbindlich.