Technical SEO

robots.txt
Crawler-Steuerung & Crawl-Budget Optimierung

Lernen Sie, robots.txt richtig einzusetzen: Crawler steuern, Crawl-Budget optimieren, häufige Fehler vermeiden.

1996
First Standard
100%
Sites Need It
5
Core Directives
/robots.txt
Root Location

Die robots.txt ist eine der grundlegendsten Dateien für technisches SEO. Sie steuert, welche Bereiche Ihrer Website von Suchmaschinen-Crawlern besucht werden dürfen. Eine falsch konfigurierte robots.txt kann Ihre gesamte Website aus dem Index ausschließen!

robots.txt Grundlagen

robots.txt ist Teil des Robots Exclusion Protocol von 1994. Sie teilt Crawlern mit, welche URLs sie besuchen dürfen.

Was robots.txt KANN

  • Crawler vom Crawling bestimmter Bereiche abhalten
  • Crawl-Budget auf wichtige Seiten lenken
  • Server-Last durch Bot-Traffic reduzieren
  • XML-Sitemap Location angeben
  • Crawl-Delay für aggressive Bots setzen

Was robots.txt NICHT KANN

  • Indexierung verhindern (nutzen Sie noindex)
  • Sensible Daten schützen (nutzen Sie Passwortschutz)
  • Garantie, dass Bots sich daran halten (nur Empfehlung)
  • Unterschiedliche Regeln für verschiedene Länder

Kritischer Fehler

Disallow: / blockiert die GESAMTE Website! Das ist der häufigste robots.txt-Fehler und führt zur De-Indexierung. Prüfen Sie IMMER vor dem Upload!

Syntax & Befehle

Basis-Syntax

# Kommentare beginnen mit #

# Regel-Gruppe für einen User-Agent
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

# Sitemap Location
Sitemap: https://example.com/sitemap.xml

Befehle im Detail

Befehl Bedeutung Beispiel
User-agent Definiert Crawler User-agent: Googlebot
Disallow Crawling verbieten Disallow: /admin/
Allow Ausnahme zu Disallow Allow: /admin/public/
Sitemap Sitemap Location Sitemap: https://example.com/sitemap.xml
Crawl-delay Verzögerung in Sekunden Crawl-delay: 10

Wildcards & Pattern Matching

# * = beliebige Zeichenfolge
Disallow: /*.pdf$    # Blockiert alle PDF-Dateien

# $ = Ende der URL
Disallow: /*?print=  # Blockiert alle URLs mit ?print= Parameter

# Beispiele:
Disallow: /private*  # /private, /private/, /private-docs/
Disallow: /*?        # Alle URLs mit Parametern
Disallow: /*.jpg$    # Nur .jpg Dateien (nicht .jpg?size=large)

Best Practices

1. Was SOLLTEN Sie blockieren

  • Admin-Bereiche: /admin/, /wp-admin/
  • Login/Register: /login, /register, /checkout
  • Such-Ergebnisse: /search, /?s=
  • Interne Suche: /*?q=, /*?search=
  • Duplicate Parameter: /?sort=, /?filter=
  • Staging/Test: /dev/, /staging/
  • Danke-Seiten: /thank-you, /danke

2. Was Sie NIEMALS blockieren sollten

  • CSS-Dateien: /*.css$ - Google braucht diese!
  • JavaScript: /*.js$ - Für Rendering essentiell!
  • Bilder: Nur wenn Sie aus Bildersuche raus wollen
  • Produktseiten: Ihr wertvollster Content!
  • Blog-Artikel: Siehe oben

Google's Empfehlung

"Don't use robots.txt to block CSS and JavaScript files. Googlebot needs to access these files to understand how your pages look and work." - Google Search Central

3. Standard robots.txt Template

# Alle Crawler dürfen alles crawlen (Standard)
User-agent: *
Disallow:

# Admin-Bereich blockieren
Disallow: /admin/
Disallow: /wp-admin/

# Suche blockieren
Disallow: /search
Disallow: /*?s=
Disallow: /*?q=

# Login/Register blockieren
Disallow: /login
Disallow: /register

# Duplicate Parameter blockieren
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=

# Danke-Seiten blockieren
Disallow: /thank-you
Disallow: /danke

# XML-Sitemap Location
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/blog-sitemap.xml

User-Agents verstehen

Wichtige User-Agents

User-Agent Suchmaschine Besonderheiten
Googlebot Google Wichtigster Crawler
Googlebot-Image Google Bildersuche Nur für Bilder
Bingbot Bing Zweitwichtigster
GPTBot OpenAI ChatGPT AI Training Data
* Alle Wildcard für alle Crawler

Spezifische Crawler-Regeln

# Standard für alle Crawler
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

# Google-spezifische Regel
User-agent: Googlebot
Disallow: /no-google/

# Bilder-Crawler blockieren
User-agent: Googlebot-Image
Disallow: /private-images/

# AI-Bots blockieren
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

Crawl-Budget optimieren

Crawl-Budget ist die Anzahl der URLs, die Googlebot pro Tag crawlt. robots.txt hilft, Crawl-Budget auf wichtige Seiten zu fokussieren.

Crawl-Budget Verschwendung vermeiden

  • Facettierte Navigation: Filter-URLs blockieren
  • Session IDs: /*?sessionid= blockieren
  • Infinite Scroll: /*?page= bei Ajax-Loading blockieren
  • Duplicate Content: Parameter-URLs blockieren
  • Low-Value Seiten: Tags, Archive, Author-Pages
# E-Commerce: Filter blockieren
User-agent: *
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*?price=
Disallow: /*?brand=

# Aber Kategorie-Seiten erlauben
Allow: /kategorie/

# Blog: Tags und Archive blockieren
Disallow: /tag/
Disallow: /author/
Disallow: /*/page/

Häufige Fehler

Fehler 1: Gesamte Site blockieren

User-agent: *
Disallow: /   ← BLOCKIERT ALLES!

Fehler 2: CSS/JS blockieren

Disallow: /*.css$
Disallow: /*.js$   ← Schadet Mobile-First Indexing!

Fehler 3: noindex in robots.txt

Noindex: /private/ ist KEIN gültiger Befehl! Nutzen Sie Meta-Tags.

Fehler 4: robots.txt nicht im Root

example.com/blog/robots.txt ← Funktioniert NICHT!
Muss sein: example.com/robots.txt

Testing & Validierung

robots.txt testen

  1. Google Search Console robots.txt Tester:
    • Öffnen Sie GSC → Crawling → robots.txt-Tester
    • Testen Sie URLs gegen robots.txt
    • Sehen Sie sofort, ob blocked oder allowed
  2. Live-Test:
    • Rufen Sie https://ihre-domain.de/robots.txt auf
    • Prüfen Sie Syntax-Fehler
    • Achten Sie auf Leerzeilen und Formatierung
  3. robots.txt Validator Tools:
    • technicalSEO.com robots.txt Checker
    • Merkle robots.txt Validator
    • Screaming Frog robots.txt Test

Praxis-Beispiele

E-Commerce Shop

User-agent: *

# Admin blockieren
Disallow: /admin/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

# Filter & Sortierung blockieren
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=

# Suche blockieren
Disallow: /search

# Produktseiten ERLAUBEN (wichtig!)
Allow: /produkte/

# Sitemap
Sitemap: https://shop.example.com/sitemap.xml
Sitemap: https://shop.example.com/product-sitemap.xml

WordPress Blog

User-agent: *

# WordPress Core blockieren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# Plugins & Themes NICHT blockieren (CSS/JS!)
# Allow: /wp-content/

# WP-JSON API blockieren (optional)
Disallow: /wp-json/

# Author, Tags, Archive blockieren
Disallow: /author/
Disallow: /tag/
Disallow: /*/page/

# Suche blockieren
Disallow: /?s=

# Sitemap
Sitemap: https://blog.example.com/sitemap_index.xml

robots.txt Checkliste

robots.txt Audit Checkliste

Location: robots.txt liegt in Root (example.com/robots.txt)
Nicht blockiert: KEINE Disallow: / Regel für wichtige Crawler
CSS/JS erlaubt: Keine Blockierung von /*.css$ oder /*.js$
Sitemap: Sitemap: URL angegeben
Admin blockiert: /admin/, /wp-admin/ etc. disallowed
Parameter-URLs: Duplicate Content Parameter blockiert
Testing: In Google Search Console getestet
Syntax: Keine Syntax-Fehler (Leerzeilen, Formatierung)
User-Agents: Korrekte User-agent Definitionen
Wildcards: Korrekte Verwendung von * und $

Fazit: robots.txt als SEO-Foundation

robots.txt ist ein mächtiges Tool für Crawl-Budget-Optimierung und Crawler-Steuerung. Richtig eingesetzt, hilft sie Google, Ihre wichtigsten Seiten effizient zu crawlen.

  • Crawl-Budget: Fokus auf wichtige Seiten
  • Server-Last: Weniger unnötige Bot-Requests
  • Privacy: Admin-Bereiche geschützt
  • Performance: Duplicate Content reduziert

Nächste Schritte

  1. 1. Aktuelle robots.txt prüfen: example.com/robots.txt aufrufen
  2. 2. GSC Tester nutzen: Wichtige URLs gegen robots.txt testen
  3. 3. Template anpassen: Standard-Template für Ihre Site customizen
  4. 4. Sitemap eintragen: Sitemap: URL hinzufügen
  5. 5. Monitoring: GSC Coverage Report auf blockierte URLs prüfen

Häufig gestellte Fragen

Hier finden Sie direkte Antworten zu OnPage SEO, den kostenlosen Tools und meiner Arbeitsweise.

Was ist OnPage SEO?
OnPage SEO bezeichnet alle Optimierungsmaßnahmen, die direkt auf Ihrer Website durchgeführt werden. Dazu gehören Title Tags, Meta Descriptions, Überschriften-Struktur, Content-Qualität, interne Verlinkung und technische Faktoren wie Page Speed.
Wie lange dauert es, bis SEO-Maßnahmen wirken?
Erste Verbesserungen können Sie bereits nach 2-4 Wochen sehen. Signifikante Ranking-Verbesserungen brauchen in der Regel 3-6 Monate, da Google Zeit benötigt, um Ihre optimierten Seiten neu zu crawlen und zu bewerten. Technische Optimierungen wirken oft schneller als Content-Änderungen.
Sind Ihre SEO-Tools wirklich kostenlos?
Ja, alle Tools auf dieser Website sind zu 100% kostenlos nutzbar. Es gibt keine versteckten Kosten, keine Registrierung erforderlich und keine Limitierung der Nutzung. Alle Tools arbeiten vollständig im Browser (client-side) und sind DSGVO-konform.
Kann ich OnPage SEO selbst machen oder brauche ich eine Agentur?
Grundlegende OnPage-Optimierungen können Sie mit den Guides und Tools auf dieser Website selbst durchführen. Für komplexere technische Optimierungen, umfangreiche Websites oder wenn Sie Zeit sparen möchten, kann eine professionelle Beratung sinnvoll sein. Ich biete beide Optionen: DIY-Ressourcen und persönliche Beratung.
Was ist der Unterschied zwischen OnPage und OffPage SEO?
OnPage SEO umfasst alle Optimierungen auf Ihrer eigenen Website (Content, Technik, Struktur). OffPage SEO bezieht sich auf externe Faktoren wie Backlinks von anderen Websites. OnPage ist die Basis – ohne solide OnPage-Optimierung bringen auch die besten Backlinks wenig.
Wie wichtig ist Barrierefreiheit für SEO?
Sehr wichtig! Barrierefreie Websites haben bessere Nutzersignale (niedrigere Bounce Rate, höhere Verweildauer), sind besser für Screenreader optimiert (hilft auch Suchmaschinen beim Verstehen) und erfüllen ab 2025 die gesetzlichen BFSG-Anforderungen. Ich habe mich auf barrierefreies SEO spezialisiert.

Ihre Frage nicht dabei?

Schreiben Sie mir direkt – ich antworte persönlich und unverbindlich.