Praxiswissen für bessere Rankings

Tools Blog

Technical SEO

robots.txt
Crawler-Steuerung & Crawl-Budget Optimierung

Lernen Sie, robots.txt richtig einzusetzen: Crawler steuern, Crawl-Budget optimieren, häufige Fehler vermeiden.

1996

First Standard

100%

Sites Need It

Core Directives

/robots.txt

Root Location

Die robots.txt ist eine der grundlegendsten Dateien für technisches SEO. Sie steuert, welche Bereiche Ihrer Website von Suchmaschinen-Crawlern besucht werden dürfen. Eine falsch konfigurierte robots.txt kann Ihre gesamte Website aus dem Index ausschließen!

robots.txt Grundlagen

robots.txt ist Teil des Robots Exclusion Protocol von 1994. Sie teilt Crawlern mit, welche URLs sie besuchen dürfen.

Was robots.txt KANN

Crawler vom Crawling bestimmter Bereiche abhalten
Crawl-Budget auf wichtige Seiten lenken
Server-Last durch Bot-Traffic reduzieren
XML-Sitemap Location angeben
Crawl-Delay für aggressive Bots setzen

Was robots.txt NICHT KANN

Indexierung verhindern (nutzen Sie noindex)
Sensible Daten schützen (nutzen Sie Passwortschutz)
Garantie, dass Bots sich daran halten (nur Empfehlung)
Unterschiedliche Regeln für verschiedene Länder

Kritischer Fehler

Disallow: / blockiert die GESAMTE Website! Das ist der häufigste robots.txt-Fehler und führt zur De-Indexierung. Prüfen Sie IMMER vor dem Upload!

Syntax & Befehle

Basis-Syntax

# Kommentare beginnen mit #

# Regel-Gruppe für einen User-Agent
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

# Sitemap Location
Sitemap: https://example.com/sitemap.xml

Befehle im Detail

Befehl	Bedeutung	Beispiel
User-agent	Definiert Crawler	User-agent: Googlebot
Disallow	Crawling verbieten	Disallow: /admin/
Allow	Ausnahme zu Disallow	Allow: /admin/public/
Sitemap	Sitemap Location	Sitemap: https://example.com/sitemap.xml
Crawl-delay	Verzögerung in Sekunden	Crawl-delay: 10

Wildcards & Pattern Matching

# * = beliebige Zeichenfolge
Disallow: /*.pdf$    # Blockiert alle PDF-Dateien

# $ = Ende der URL
Disallow: /*?print=  # Blockiert alle URLs mit ?print= Parameter

# Beispiele:
Disallow: /private*  # /private, /private/, /private-docs/
Disallow: /*?        # Alle URLs mit Parametern
Disallow: /*.jpg$    # Nur .jpg Dateien (nicht .jpg?size=large)

Best Practices

1. Was SOLLTEN Sie blockieren

Admin-Bereiche: /admin/, /wp-admin/
Login/Register: /login, /register, /checkout
Such-Ergebnisse: /search, /?s=
Interne Suche: /*?q=, /*?search=
Duplicate Parameter: /?sort=, /?filter=
Staging/Test: /dev/, /staging/
Danke-Seiten: /thank-you, /danke

2. Was Sie NIEMALS blockieren sollten

CSS-Dateien: /*.css$ - Google braucht diese!
JavaScript: /*.js$ - Für Rendering essentiell!
Bilder: Nur wenn Sie aus Bildersuche raus wollen
Produktseiten: Ihr wertvollster Content!
Blog-Artikel: Siehe oben

Google's Empfehlung

"Don't use robots.txt to block CSS and JavaScript files. Googlebot needs to access these files to understand how your pages look and work." - Google Search Central

3. Standard robots.txt Template

# Alle Crawler dürfen alles crawlen (Standard)
User-agent: *
Disallow:

# Admin-Bereich blockieren
Disallow: /admin/
Disallow: /wp-admin/

# Suche blockieren
Disallow: /search
Disallow: /*?s=
Disallow: /*?q=

# Login/Register blockieren
Disallow: /login
Disallow: /register

# Duplicate Parameter blockieren
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=

# Danke-Seiten blockieren
Disallow: /thank-you
Disallow: /danke

# XML-Sitemap Location
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/blog-sitemap.xml

User-Agents verstehen

Wichtige User-Agents

User-Agent	Suchmaschine	Besonderheiten
Googlebot	Google	Wichtigster Crawler
Googlebot-Image	Google Bildersuche	Nur für Bilder
Bingbot	Bing	Zweitwichtigster
GPTBot	OpenAI ChatGPT	AI Training Data
*	Alle	Wildcard für alle Crawler

Spezifische Crawler-Regeln

# Standard für alle Crawler
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

# Google-spezifische Regel
User-agent: Googlebot
Disallow: /no-google/

# Bilder-Crawler blockieren
User-agent: Googlebot-Image
Disallow: /private-images/

# AI-Bots blockieren
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

Crawl-Budget optimieren

Crawl-Budget ist die Anzahl der URLs, die Googlebot pro Tag crawlt. robots.txt hilft, Crawl-Budget auf wichtige Seiten zu fokussieren.

Crawl-Budget Verschwendung vermeiden

Facettierte Navigation: Filter-URLs blockieren
Session IDs: /*?sessionid= blockieren
Infinite Scroll: /*?page= bei Ajax-Loading blockieren
Duplicate Content: Parameter-URLs blockieren
Low-Value Seiten: Tags, Archive, Author-Pages

# E-Commerce: Filter blockieren
User-agent: *
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*?price=
Disallow: /*?brand=

# Aber Kategorie-Seiten erlauben
Allow: /kategorie/

# Blog: Tags und Archive blockieren
Disallow: /tag/
Disallow: /author/
Disallow: /*/page/

Häufige Fehler

Fehler 1: Gesamte Site blockieren

User-agent: *
Disallow: /   ← BLOCKIERT ALLES!

Fehler 2: CSS/JS blockieren

Disallow: /*.css$
Disallow: /*.js$   ← Schadet Mobile-First Indexing!

Fehler 3: noindex in robots.txt

Noindex: /private/ ist KEIN gültiger Befehl! Nutzen Sie Meta-Tags.

Fehler 4: robots.txt nicht im Root

example.com/blog/robots.txt ← Funktioniert NICHT!
Muss sein: example.com/robots.txt

Testing & Validierung

robots.txt testen

Google Search Console robots.txt Tester:
- Öffnen Sie GSC → Crawling → robots.txt-Tester
- Testen Sie URLs gegen robots.txt
- Sehen Sie sofort, ob blocked oder allowed
Live-Test:
- Rufen Sie https://ihre-domain.de/robots.txt auf
- Prüfen Sie Syntax-Fehler
- Achten Sie auf Leerzeilen und Formatierung
robots.txt Validator Tools:
- technicalSEO.com robots.txt Checker
- Merkle robots.txt Validator
- Screaming Frog robots.txt Test

Praxis-Beispiele

E-Commerce Shop

User-agent: *

# Admin blockieren
Disallow: /admin/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

# Filter & Sortierung blockieren
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=

# Suche blockieren
Disallow: /search

# Produktseiten ERLAUBEN (wichtig!)
Allow: /produkte/

# Sitemap
Sitemap: https://shop.example.com/sitemap.xml
Sitemap: https://shop.example.com/product-sitemap.xml

WordPress Blog

User-agent: *

# WordPress Core blockieren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# Plugins & Themes NICHT blockieren (CSS/JS!)
# Allow: /wp-content/

# WP-JSON API blockieren (optional)
Disallow: /wp-json/

# Author, Tags, Archive blockieren
Disallow: /author/
Disallow: /tag/
Disallow: /*/page/

# Suche blockieren
Disallow: /?s=

# Sitemap
Sitemap: https://blog.example.com/sitemap_index.xml

robots.txt Checkliste

Fazit: robots.txt als SEO-Foundation

robots.txt ist ein mächtiges Tool für Crawl-Budget-Optimierung und Crawler-Steuerung. Richtig eingesetzt, hilft sie Google, Ihre wichtigsten Seiten effizient zu crawlen.

Crawl-Budget: Fokus auf wichtige Seiten
Server-Last: Weniger unnötige Bot-Requests
Privacy: Admin-Bereiche geschützt
Performance: Duplicate Content reduziert

Nächste Schritte

1. Aktuelle robots.txt prüfen: example.com/robots.txt aufrufen
2. GSC Tester nutzen: Wichtige URLs gegen robots.txt testen
3. Template anpassen: Standard-Template für Ihre Site customizen
4. Sitemap eintragen: Sitemap: URL hinzufügen
5. Monitoring: GSC Coverage Report auf blockierte URLs prüfen

Häufig gestellte Fragen

Hier finden Sie direkte Antworten zu OnPage SEO, den kostenlosen Tools und meiner Arbeitsweise.

Was ist OnPage SEO?

OnPage SEO bezeichnet alle Optimierungsmaßnahmen, die direkt auf Ihrer Website durchgeführt werden. Dazu gehören Title Tags, Meta Descriptions, Überschriften-Struktur, Content-Qualität, interne Verlinkung und technische Faktoren wie Page Speed.

Wie lange dauert es, bis SEO-Maßnahmen wirken?

Erste Verbesserungen können Sie bereits nach 2-4 Wochen sehen. Signifikante Ranking-Verbesserungen brauchen in der Regel 3-6 Monate, da Google Zeit benötigt, um Ihre optimierten Seiten neu zu crawlen und zu bewerten. Technische Optimierungen wirken oft schneller als Content-Änderungen.

Sind Ihre SEO-Tools wirklich kostenlos?

Ja, alle Tools auf dieser Website sind zu 100% kostenlos nutzbar. Es gibt keine versteckten Kosten, keine Registrierung erforderlich und keine Limitierung der Nutzung. Alle Tools arbeiten vollständig im Browser (client-side) und sind DSGVO-konform.

Kann ich OnPage SEO selbst machen oder brauche ich eine Agentur?

Grundlegende OnPage-Optimierungen können Sie mit den Guides und Tools auf dieser Website selbst durchführen. Für komplexere technische Optimierungen, umfangreiche Websites oder wenn Sie Zeit sparen möchten, kann eine professionelle Beratung sinnvoll sein. Ich biete beide Optionen: DIY-Ressourcen und persönliche Beratung.

Was ist der Unterschied zwischen OnPage und OffPage SEO?

OnPage SEO umfasst alle Optimierungen auf Ihrer eigenen Website (Content, Technik, Struktur). OffPage SEO bezieht sich auf externe Faktoren wie Backlinks von anderen Websites. OnPage ist die Basis – ohne solide OnPage-Optimierung bringen auch die besten Backlinks wenig.

Wie wichtig ist Barrierefreiheit für SEO?

Sehr wichtig! Barrierefreie Websites haben bessere Nutzersignale (niedrigere Bounce Rate, höhere Verweildauer), sind besser für Screenreader optimiert (hilft auch Suchmaschinen beim Verstehen) und erfüllen ab 2025 die gesetzlichen BFSG-Anforderungen. Ich habe mich auf barrierefreies SEO spezialisiert.

Ihre Frage nicht dabei?

Schreiben Sie mir direkt – ich antworte persönlich und unverbindlich.

Frage stellen SEO-Audit anfordern

robots.txt
Crawler-Steuerung & Crawl-Budget Optimierung

robots.txt Grundlagen

Was robots.txt KANN

Was robots.txt NICHT KANN

Kritischer Fehler

Syntax & Befehle

Basis-Syntax

Befehle im Detail

Wildcards & Pattern Matching

Best Practices

1. Was SOLLTEN Sie blockieren

2. Was Sie NIEMALS blockieren sollten

Google's Empfehlung

3. Standard robots.txt Template

User-Agents verstehen

Wichtige User-Agents

Spezifische Crawler-Regeln

Crawl-Budget optimieren

Crawl-Budget Verschwendung vermeiden

Häufige Fehler

Fehler 1: Gesamte Site blockieren

Fehler 2: CSS/JS blockieren

Fehler 3: noindex in robots.txt

Fehler 4: robots.txt nicht im Root

Testing & Validierung

robots.txt testen

Praxis-Beispiele

E-Commerce Shop

WordPress Blog

robots.txt Checkliste

robots.txt Audit Checkliste

Fazit: robots.txt als SEO-Foundation

Nächste Schritte

Häufig gestellte Fragen

Ihre Frage nicht dabei?

Tastaturkürzel

Navigation

Menü-Navigation

Allgemein

Wie kann ich helfen?

robots.txt Crawler-Steuerung & Crawl-Budget Optimierung

robots.txt Grundlagen

Was robots.txt KANN

Was robots.txt NICHT KANN

Kritischer Fehler

Syntax & Befehle

Basis-Syntax

Befehle im Detail

Wildcards & Pattern Matching

Best Practices

1. Was SOLLTEN Sie blockieren

2. Was Sie NIEMALS blockieren sollten

Google's Empfehlung

3. Standard robots.txt Template

User-Agents verstehen

Wichtige User-Agents

Spezifische Crawler-Regeln

Crawl-Budget optimieren

Crawl-Budget Verschwendung vermeiden

Häufige Fehler

Fehler 1: Gesamte Site blockieren

Fehler 2: CSS/JS blockieren

Fehler 3: noindex in robots.txt

Fehler 4: robots.txt nicht im Root

Testing & Validierung

robots.txt testen

Praxis-Beispiele

E-Commerce Shop

WordPress Blog

robots.txt Checkliste

robots.txt Audit Checkliste

Fazit: robots.txt als SEO-Foundation

Nächste Schritte

Häufig gestellte Fragen

Ihre Frage nicht dabei?

Wie kann ich helfen?

robots.txt
Crawler-Steuerung & Crawl-Budget Optimierung