Robots.txt – was du wissen musst

Zuletzt aktualisiert am: 29. Dezember 2025

Damit Suchmaschinen deine Website verstehen und die richtigen Inhalte anzeigen können, brauchen sie klare Anweisungen. Genau hier kommt die robots.txt-Datei ins Spiel. Sie ist klein, unscheinbar – und doch ein zentrales Werkzeug, um zu steuern, welche Bereiche deiner Website von Suchmaschinen gecrawlt werden dürfen und welche nicht. Für Website-Betreiber:innen ist sie deshalb unverzichtbar: Mit ihr lässt sich das Crawl-Verhalten optimieren, die Serverlast reduzieren und der Fokus auf die Seiten legen, die wirklich relevant sind.

In diesem Artikel

Deine SEO-Agentur für digitale Performance

Unsere SEO-Expert:innen unterstützen dich mit dabei, bei Google und anderen Suchmaschinen besser zu ranken. Lass dich jetzt unverbindlich beraten.

Was ist die robots.txt-Datei?

robots.txt ist eine Textdatei, um Bots und Crawler Anweisungen zu geben, welche Teile der Website durchsucht werden dürfen und welche nicht. Die Datei ist ein wichtiger Bestandteil der Suchmaschinenoptimierung (SEO), da sie dabei hilft, sicherzustellen, dass bestimmte Seiten oder Dateien von den Crawlern/Bots nicht besucht und gelesen werden.

Wo finde ich die robots.txt-Datei?

Die robots.txt-Datei ist im Root-Verzeichnis einer Website gespeichert. Um die robots.txt-Datei zu finden, gibst du einfach die Adresse der Website in den Browser ein, gefolgt von „/robots.txt“ (z.B.weventure.de/robots.txt).

Wie funktioniert die robots.txt-Datei?

robots.txt funktioniert, indem es Webcrawlern wie zum Beispiel dem Googlebot Anweisungen gibt, welche Seiten und Dateien durchsucht werden dürfen und welche nicht. Wenn ein Crawler auf eine Website stößt, wird er immer zuerst die robots.txt aufrufen, um festzustellen, welche Teile der Website durchsucht werden dürfen.

Die robots.txt-Datei besteht aus einer Reihe von Anweisungen, die von Webcrawlern interpretiert werden. 

Hier sind einige Beispielanweisungen in einer robots.txt-Datei:

User-agent: *

Das heißt, alle Bots werden angesprochen.

User-agent: Screaming Frog SEO Spider
Disallow: /
# Directories
Disallow: /core/
Disallow: /profiles/
Disallow: /contact_page/

In diesem Fall ist die Anweisung an den Screaming Frog Crawler die Folder /core/, /profiles/ und /contact_pages/ nicht zu besuchen.

robots.txt testen – so geht’s

Bevor du dich darauf verlässt, dass deine robots.txt wie gewünscht funktioniert, solltest du sie unbedingt testen. Dafür gibt es verschiedene Möglichkeiten:

  • Direkt im Browser prüfen
    Rufe deinedomain.de/robots.txt auf. So siehst du sofort, welche Regeln öffentlich hinterlegt sind.
  • Google Search Console
    Über die Funktion „URL-Prüfung“ kannst du checken, ob Google eine bestimmte Seite crawlen darf. Das frühere robots.txt-Tester-Tool ist zwar eingestellt, aber die URL-Prüfung liefert ähnliche Einblicke.
  • SEO-Tools
    Mit Tools wie Screaming Frog, Ryte oder Semrush lässt sich simulieren, wie Crawler deine Website anhand der robots.txt interpretieren.

👉 Tipp: Wenn du dir unsicher bist, kannst du deine robots.txt auch professionell prüfen lassen. Als technische SEO-Agentur in Berlin analysieren und optimieren robots.txt-Dateien regelmäßig im Rahmen unserer Projekte – und sorgen dafür, dass Websites effizient gecrawlt werden und die richtigen Inhalte im Fokus der Suchmaschinen stehen. Sprich uns gerne direkt an.

robots.txt Beispiele

disallow:

Die Disallow-Anweisung wird dafür genutzt, um Crawler davon abzuhalten, bestimmte Seiten oder Verzeichnisse auf einer Website zu durchsuchen. Indem du „Disallow“ verwendest, kannst du der Suchmaschine die Anweisung geben, welche Bereiche deiner Website nicht durchsucht und indexiert werden sollen.

Beispiel:

User-agent: Googlebot
Disallow: /vertrauliche_informationen/

Dieses Beispiel gibt an, dass der Googlebot von der Suche nach allen Seiten und Dateien in dem Verzeichnis „/vertrauliche-informationen/“ ausgeschlossen ist.

 

allow:

„Allow“ ist ein Schlüsselwort in der robots.txt-Datei, das dazu dient, Crawlern zu erlauben, bestimmte Seiten und Dateien auf einer Website zu durchsuchen. Wenn in der robots.txt-Datei „Allow“ verwendet wird, bedeutet dies, dass ein bestimmter Crawler Zugang zu bestimmten Seiten oder Verzeichnissen hat, die normalerweise blockiert wären.

„Allow“ ist aber nicht zwingend notwendig – wenn nichts in der robots.txt steht, ist standardmäßig alles erlaubt. „Allow“ wird vor allem eingesetzt, wenn man innerhalb eines blockierten Verzeichnisses einzelne Dateien zulassen möchte.

Ein viel verwendetes Allow-Beispiel ist die Default-Einstellung bei WordPress:

User-agent: *
Allow: /wp-admin/admin-ajax.php

Die Ajax-Datei stellt eine Verbindung zwischen dem Server (deinem Hosting) und dem Client (Google Bot) über AJAX her. WordPress nutzt dies, um den Seiteninhalt zu aktualisieren, ohne ihn neu zu laden. Deswegen ist das Allow-attribut hier vollkommen zulässig.

 

‼️ Wichtig zu beachten ist, dass die robots.txt-Datei keine absolute Sicherheit bietet. Es gibt keine Garantie dafür, dass Crawler sich an die Anweisungen in der Datei halten werden. Daher ist es wichtig, zusätzliche Sicherheitsmaßnahmen zu ergreifen, wenn es darum geht, sensible Informationen zu schützen. Dazu zählen beispielsweise Login-Schranken oder two-factor authentication.

Digitale Sichtbarkeit mit KI-Suchmaschinenoptimierung

In KI-Suchmaschinen aufzutauchen ist wichtig für organische Reichweite und Leads. Lass dich bei einem persönlichen Gespräch beraten, welche Potenziale deine Website hat.

Warum ist die robots.txt wichtig für SEO?

robots.txt ist wichtig für Website-Betreiber:innen, um sicherzustellen, dass ihre Seiten und Dateien von Crawlern richtig gelesen werden. Es gibt viele Gründe, warum ein Betreiber bestimmte Seiten oder Dateien von Suchmaschinen ausschließen möchte, z.B. um die Sicherheit zu erhöhen, die Serverlast zu verringern, in dem man bestimmte Bots ausschließt oder um den Fokus der Suchmaschinen auf wichtige Seiten zu lenken. Zusätzlich ist es empfehlenswert, die Sitemap in die Datei abzulegen. Denn beim Besuch einer Website besucht der Crawler zuerst die robots.txt. Besonders für große Seiten (oftmals auch internationale Seiten) ist die Datei ein wichtiges Tool, um das Crawl-Verhalten der Bots zu steuern und auf die wichtigen Seiten zu lenken.

robots.txt vs. noindex – warum „Disallow“ nicht immer reicht

Ein häufiger Irrtum ist, dass man mit der robots.txt steuern könne, ob eine Seite im Google-Index erscheint. Das stimmt so nicht:

  • robots.txt Disallow → verbietet nur das Crawlen. Die URL bleibt aber bekannt und kann trotzdem im Index landen.
  • Meta-Tag noindex → sorgt dafür, dass die Seite nicht im Index bleibt – allerdings nur, wenn Google die Seite zuvor auch crawlen darf (Disallow bedeutet auch, dass Google kein index/noindex erkennt).

Wenn Disallow nach hinten losgeht

Stell dir vor, du blockierst ein Verzeichnis wie /excel-tabellen/:

User-agent: *
Disallow: /interne-dokumente/

Eine Partnerseite oder sogar dein eigenes Blog verlinkt aber dorthin – vielleicht mit einem scherzhaften Linktext wie:

„Hier findest du die geheimen Excel-Tabellen mit allen Umsätzen 😅“

Google darf die Seite selbst nicht crawlen, erkennt aber den Link und indexiert die URL trotzdem – mitsamt diesem Ankertext als Snippet. Ergebnis: Deine „geheimen“ Seiten erscheinen in der Google-Suche, ohne dass du es beabsichtigst.

Google selbst schreibt:

„A page that’s disallowed in robots.txt can still be indexed if linked to from other sites (…) URL address and, potentially, other publicly available information such as anchor text in links to the page can still appear in Google search results.

Auch in SEO-Foren gibt es viele Fälle, wo blockierte Seiten mit fremdem Linktext im Index gelandet sind

Best Practice aus unseren Projekten

Ein gutes Beispiel, wie wichtig eine durchdachte robots.txt ist, zeigt unsere Arbeit mit Breitling, einer der bekanntesten Luxusuhrenmarken.

Bei über 130 Länder- und Sprachvarianten war das Crawl-Budget schnell überlastet – in einigen Märkten tauchten deshalb nicht die passenden Seiten in den Suchergebnissen auf.

Unser Lösungsansatz:

  • Zunächst haben wir analysiert, welche Sprach-Länder-Kombinationen tatsächlich relevant sind und welche kaum Suchvolumen haben.
  • Anschließend haben wir die robots.txt so angepasst, dass Google konsequent die wichtigen Varianten crawlen konnte, während unnötige Kombinationen ausgeschlossen wurden.
  • Parallel haben wir dafür gesorgt, dass für jedes Land mindestens eine korrekte Sprachversion indexierbar bleibt.

Das Ergebnis: Eine deutlich effizientere Crawling-Steuerung und eine saubere Ausspielung der richtigen Seiten in den jeweiligen Märkten.

💡 Unser Tipp: Gerade bei internationalen Setups lohnt es sich, die robots.txt regelmäßig auf Relevanz und Vollständigkeit zu prüfen. So stellst du sicher, dass Google die richtigen Inhalte im Fokus behält – und dein Crawl-Budget nicht an unwichtigen Seiten verpufft. Wenn du Hilfe brauchst: Unsere Expert:innen für technische Suchmaschinenoptimierung in Berlin stehen dir gerne zur Verfügung.

Wir steigern deine digitale Sichtbarkeit!

Mit individuellen Strategien und powered by AI unterstützen wir dich dabei, deine Online-Sichtbarkeit zu steigern. Lass dich jetzt unverbindlich beraten.

Fazit

Die robots.txt ist ein wichtiges Werkzeug, wenn es darum geht, den Zugang von Suchmaschinen zu bestimmten Bereichen einer Website zu steuern. Entscheidend ist aber, sie nicht als Allheilmittel zu betrachten. Sie regelt lediglich das Crawling, nicht die Indexierung – und genau hier entstehen oft Missverständnisse. Wird eine Seite blockiert, kann sie dennoch über externe Links sichtbar werden, manchmal sogar mit witzigen oder unpassenden Linktexten.

Für eine durchdachte SEO-Strategie reicht es deshalb nicht, nur Einträge in die Datei zu setzen. Sinnvoll ist eine Kombination aus gezieltem Crawl-Management, dem Einsatz von noindex-Tags und zusätzlichen Maßnahmen wie Passwortschutz bei sensiblen Inhalten. Wer diese Stellschrauben im Blick behält, lenkt das Crawl-Budget effizient, vermeidet unerwünschte Einträge im Index und sorgt dafür, dass die wirklich relevanten Seiten im Rampenlicht stehen.

Am Ende gilt: Diese kleine Textdatei ist nicht mehr als ein Signal – die eigentliche Arbeit besteht darin, klare Prioritäten für die eigene Website zu setzen und diese konsequent technisch umzusetzen.

FAQ: robots.txt

Was bedeutet „durch robots.txt-Datei blockiert“?

Wenn eine Seite oder ein Verzeichnis in der robots.txt-Datei mit Disallow markiert ist, bedeutet das: Suchmaschinen-Crawler dürfen diese Inhalte nicht abrufen. Die URL selbst bleibt aber bekannt und kann trotzdem im Index auftauchen – zum Beispiel, wenn externe Websites dorthin verlinken. Das Ergebnis: Die Seite wird ohne Snippet angezeigt, oft nur mit der URL oder dem Ankertext des Links.

Gar nicht – denn den Befehl noindex gibt es in der robots.txt nicht mehr. Google unterstützt diesen Ansatz seit 2019 nicht mehr. Wer eine Seite aus dem Index ausschließen möchte, muss ein noindex-Meta-Tag oder einen entsprechenden HTTP-Header verwenden. Dies geht zum Beispiel über das Yoast SEO Plugin.

👉 Wichtig: Damit Google das noindex erkennt, darf die Seite nicht via robots.txt blockiert sein, da der Crawler sie sonst gar nicht aufrufen kann.

Eine robots.txt ist eine einfache Textdatei im Root-Verzeichnis der Website. Sie enthält Regeln, die definieren, welche Bots (User-agents) welche Bereiche crawlen dürfen.
Beispiel:

User-agent: *
Disallow: /interne-dokumente/
Allow: /interne-dokumente/produktinfo.html
Sitemap: https://www.deinedomain.de/sitemap.xml

Wichtig ist: Die Datei muss im UTF-8-Format gespeichert sein und darf keine Sonderzeichen oder Tippfehler enthalten, sonst riskierst du, dass Crawler sie ignorieren.

WordPress erstellt automatisch eine virtuelle robots.txt, wenn keine eigene Datei im Root-Verzeichnis liegt. Über SEO-Plugins wie Yoast SEO oder Rank Math kannst du eine individuelle robots.txt direkt im Backend anpassen. Alternativ lässt sich die Datei auch per FTP oder im Hosting-Panel hochladen.

👉 Achtung: Manche Plugins überschreiben die Datei. Änderungen solltest du deshalb regelmäßig kontrollieren (deinedomain.de/robots.txt).

Wenn Seiten versehentlich mit einem noindex-Meta-Tag oder HTTP-Header markiert wurden, entferne den entsprechenden Eintrag im Code oder in deinem CMS/SEO-Plugin. Anschließend solltest du die Seite in der Google Search Console über die Funktion „URL-Prüfung“ neu crawlen lassen. Bis Google die Änderung verarbeitet, kann es allerdings einige Tage dauern.

Indexbereinigung bedeutet, den Google-Index von unwichtigen oder veralteten Seiten zu „säubern“. Ziel ist es, dass nur die relevanten Seiten einer Website im Index erscheinen. So konzentriert Google sein Crawl-Budget auf die Inhalte, die wirklich sichtbar sein sollen.

Typische Methoden sind:

  • Entfernen von Duplicate Content
  • Einsatz von noindex für irrelevante Seiten (z. B. interne Suche, Filter-URLs)
  • Korrektes Handling von Weiterleitungen
  • Kontrolle via robots.txt (nur fürs Crawling, nicht fürs Indexieren)

Weil es nur eine Empfehlung an Crawler ist. Viele Bots halten sich nicht daran – und sensible Daten können trotzdem ausgelesen werden. Für wirklich vertrauliche Inhalte brauchst du Zugangsbeschränkungen wie Passwortschutz oder IP-Whitelists.

Nein – technisch funktioniert eine Website auch ohne robots.txt. Allerdings ist sie sehr empfehlenswert, weil du damit Crawl-Budget steuerst, Serverlast reduzierst und Crawlern gezielt den Weg weist.

Autor

Bild von Corinna Vorreiter

Corinna Vorreiter

Corinna ist Head of Organic bei WEVENTURE und seit 2017 im SEO aktiv. Sie teilt ihr Wissen auf Konferenzen wie der SEO Campixx oder dem International Search Summit – mit Fokus auf internationales SEO und globale Sichtbarkeit.

Weitere Artikel