.st0{fill:#FFFFFF;}

Technical SEO

Robots.txt

 April 26, 2021

By  Stephan Ilg

Die Indexierung deiner Website – das A und O für dein Unternehmen! Ohne die Indexierung kannst du den Erfolg deines Unternehmens vergessen. Erst wenn deine Website in den Ergebnissen der Suchmaschinen erscheint, kann dein Unternehmen bekannt werden. Zudem kann auch erst dann die Suchmaschinenoptimierung – die du für deine Website geplant hast – funktionieren.

Doch bei der Indexierung kann einiges schiefgehen… Die Crawler durchsuchen die Website nicht immer so, wie wir es uns wünschen. Doch dafür gibt es eine Lösung: Robots.txt!

Robots.txt? Musst du auch direkt an kleine Roboter denken, die durch deine Website gehen und dir alle mögliche Arbeit abnehmen? Na ja, fast. Robots.txt sind im Hinblick auf die Indexierung deiner Website von großer Bedeutung. Sie sind jedoch keine kleinen süßen Roboter – sondern Textdateien.

In diesem Artikel erfährst du alles, was du über diese nützlichen Textdateien wissen musst. Ich erkläre dir, was Robots.txt sind, welche Funktion sie haben und wie sie aufgebaut sind.

Lies weiter, wenn du erfahren möchtest, welche Rolle sie bei der Suchmaschinenoptimierung deiner Website spielen können.

moderner Roboter


1. Was ist Robots.txt?

Robots.txt sind im Grunde genommen nichts anderes als Textdateien. Diese enthalten Anweisungen für die Crawler. Sie legen fest, welche Bereiche der Website gecrawled werden dürfen. Dafür können sie die bestimmten Bereiche der Website für Crawler blockieren.

Durch die Robots.txt Datei kannst du als Websitebesitzer also ganz einfach und ohne viel Aufwand mehrere oder einzelne Dateien vom Suchmaschinencrawling ausschließen. Du kannst zum Beispiel ganze Domains, komplette Verzeichnisse sowie einzelne oder mehrere Unterseiten und Dateien ausschließen.

Wichtig zu wissen: Robots.txt stellen keinen Schutz vor unberechtigten Zugriffen auf deine Website dar. Du solltest für die Sicherheit deiner Website also auf andere Maßnahmen setzen.

Die Robots.txt Dateien sind das erste Dokument, welches die Crawler beim Durchsuchen deiner Website aufrufen. Das liegt daran, dass die Textdateien im Root-Verzeichnis – also im Stammverzeichnis der Domain – hinterlegt werden.

Neben der Steuerung der Crawler kann durch die Robots.txt Dateien auch ein Verweis zu einer Sitemap eingefügt werden. Dadurch erhalten die Crawler einen Überblick über die vorhandenen URLs der jeweiligen Domain.


2. Wie funktioniert Robots.txt?

Nun fragst du dich wahrscheinlich, wie Robots.txt Dateien funktionieren. Ich erkläre es dir.

Crawler aller Suchmaschinen müssen als ersten Schritt im Stammverzeichnis der jeweiligen Website nach der Robots.txt Datei suchen. Erst nachdem sie diese mitsamt ihren Anweisungen ausgelesen haben, können sie mit der Indexierung der Website beginnen.

Damit die Arbeit der Crawler gelingen kann, musst du als Websitebetreiber unbedingt darauf achten, dass die Robots.txt Datei im Wurzelverzeichnis der Domain angelegt wurde. Im Idealfall ist sie komplett in Kleinbuchstaben geschrieben, da die Crawler die Datei und deren Anweisungen "case-sensitive" auslesen.

Wie du dir wahrscheinlich schon denken kannst, halten sich nicht die Crawler aller Suchmaschinen an diese Regelungen. Aber insbesondere die Crawler und Bots der größten und wichtigsten Suchmaschinen funktionieren nach diesem Prinzip. Dazu gehören zum Beispiel die Crawler von Google, Bing oder Yahoo.

Durch den richtigen Einsatz der Textdateien kannst du verhindern, dass dein Crawling Budget verschwendet wird. So kannst du dieses effizienter und sparsamer nutzen. Außerdem kannst du vermeiden, dass unwichtige Seiten oder ähnliche Seiten gecrawled werden. Dadurch kannst du den Crawlern ein fokussiertes Durchsuchen deiner Website ermöglichen. Ein weiterer besonderer Vorteil besteht darin, dass eine Überlastung deiner Website durch die Crawler verhindert wird.

Das erreichst du dadurch, indem sich unnötige Ressourcendateien durch die Robots.txt blockieren lassen. Du kannst also Skript-, Stil- oder Bilddateien einfach aus dem Crawling ausschließen. Genauso lassen sich durch entsprechende Einstellungen dynamisch generierte Webseiten vom Crawling ausgliedern. Das kann im Hinblick auf Warenkörbe sinnvoll sein.

Dir sollte jedoch bewusst sein, dass die Textdatei lediglich das Crawling und nicht die Indexierung selbst steuern und beeinflussen kann.

Expertentipp: 

Möchtest du sicherstellen, dass bestimmte Inhalte deiner Website nicht im Index aufgenommen werden, musst du den Befehl <meta name="robots" content="noindex"> im Header deiner Website integrieren.

 

Cartoon Roboter


3. Problematiken

Wie bereits erwähnt, gibst du den Crawlern durch diese Anweisungen lediglich eine Richtlinie vor. Du kannst dich nicht vollständig auf die Robots.txt verlassen. Die Crawler der meisten Suchmaschinen halten sich zwar an die von dir gesetzten Angaben, doch deren Verhalten kann letztendlich nicht beeinflusst oder erzwungen werden.

Außerdem kann die Syntax von den Crawlern unterschiedlich gelesen werden. Ein falsches Auslesen der Textdateien kannst du jedoch verhindern, indem du dich vorab informierst, wie die Syntax für die Webcrawler sind, die für deine Website wichtig sind.


4. Der Aufbau der Robots.txt

Der Aufbau der Robots.txt ist prinzipiell sehr simpel. Die Textdatei besteht aus Datensätzen, sogenannten records. Diese bestehen aus User-agent und Disallow.

Die User-agents (Robots) stellen den ersten Teil des Datensatzes dar. In diesen wird festgelegt, für welche Robots die nachkommenden Anweisungen definiert sind. Diese werden dann im zweiten Teil des Datensatzes dargelegt. Im Grunde besteht die Anweisung immer darin, den im ersten Teil bestimmten Robots etwas zu untersagen. Das geschieht durch das Setzen von Disallow.

Jede Zeile der Datensätze der Textdateien muss also entweder mit dem Schlüsselwort User-agent oder Disallow beginnen. Hinter dem jeweiligen Schlüsselwort wird anschließend ein Doppelpunkt gesetzt. Die dazugehörige Angabe wird durch ein Leerzeichen getrennt.


4.2 User-agents

Es gilt die Regel, dass innerhalb eines Datensatzes mindestens eine Zeile mit dem Schlüsselwort User-agent beginnt. Danach kannst du immer nur eine einzige Angabe machen. Möchtest du an mehrere Robots appellieren, musst du diese in weiteren Zeilen darunter auch mit User-agent ansprechen.

Setzt du den Platzhalter *, sprichst du alle Robots an. Appellierst du nur an bestimmte Robots, musst du diese immer namentlich nennen.
Eine weitere Regel besagt, dass mehr als ein Datensatz für alle Robots nicht zulässig ist.


4.3 Disallow

Die Zeilen beginnend mit dem Schlüsselwort Disallow, werden unter den Zeilen notiert, welche mit User-agent beginnen. Die Robots – die bereits in den Angaben bezüglich User-agent definiert wurden – werden dann die Anweisungen beachten, welche durch Disallow festgelegt werden.

Nach jeder Zeile, die mit dem Befehl Disallow anfängt, kannst du jeweils eine Pfadangabe festlegen. Die Anweisungen werden dabei der Reihenfolge entsprechend – also von der ersten bis zur letzten Zeile – abgearbeitet.

Der Befehl Disallow beschränkt sich dabei jedoch nicht nur auf ganze Verzeichnisse deiner Website. Du hast auch die Möglichkeit nur einzelne Teilstücke aus dem Crawling auszuschließen.


5. Robots.txt durch einen Generator erstellen lassen

Du kannst auch die Textdateien von einem dafür vorgesehenen Robots.txt Generator erstellen zu lassen. Dabei erstellt dir das Tool innerhalb von kürzester Zeit die von dir gewünschten Textdateien.

In der Regel musst du dafür die Adresse deiner Website und deren Sitemap angeben. Dann legst du innerhalb des jeweiligen Tools fest, welche Seiten oder auch Ordner von den Crawlern nicht indexiert werden sollen.

Wurde die Textdatei erstellt, solltest du sie jedoch immer auf ihre Richtigkeit überprüfen. Über ein geeignetes Webmaster Tool kannst du einen Test bezüglich der Crawler-Zugriffe durchführen.


Suchmaschinenoptimierung

6. Robots.txt und ihre Rolle bei der Suchmaschinenoptimierung

Obwohl Robots.txt im Grunde nur eine kleine Textdatei darstellen, haben sie großen Einfluss auf die Suchmaschinenoptimierung deiner Website. Du solltest sie also nicht unterschätzen und in deine SEO Kampagne miteinplanen.

Durch die Textdateien hast du die Möglichkeit, die Crawler individuell zu steuern, die deine Website zum Indexieren durchsuchen.

Expertentipp: 

Als Webmaster solltest du jedoch darauf achten, dass du nicht zu viele Seiten und Elemente deiner Website für die Crawler blockierst. Die blockierten Elemente können beim Ranking nämlich nicht beachtet werden.


Gleichzeitig musst du jedoch darauf achten, genügend Inhalte vom Crawling auszuschließen. Ansonsten kann es schnell zu einer Indexierung mit Duplicate Content kommen.

Damit die Crawler die Angaben der Robots.txt nicht missachten, musst du die Syntax überprüfen. Schon sehr kleine Fehler in der Textdatei haben gravierende Auswirkungen auf das Crawling, die Indexierung und schließlich auch auf das Ranking deiner Website.

Damit du sichergehen kannst, dass die Robots.txt Datei fehlerfrei ist, kannst du dies über die Google Search Console prüfen lassen. Unter dem Menüpunkt „Status“ und „blockierte URLs“ erhältst du eine Übersicht über alle Seiten, welche durch die Textdatei blockiert wurden.

Durch die richtige Anwendung der Robtos.txt und der richtigen Anweisungen in der Textdatei kannst du sicherstellen, dass alle wichtigen Elemente deiner Website gecrawled werden. So können alle derzeit aktuellen Inhalte der Seite in den Suchindex mit aufgenommen werden.


7. Fazit

Wie du erkennen kannst, kommen den Robots.txt Dateien in der Suchmaschinenoptimierung eine große Rolle zu.

Durch diese kannst du sicherstellen, dass die Crawler die wichtigsten Seiteninhalte deiner Website durchsuchen und diese dann im Index aufnehmen. Die Indexierung der Websiteinhalte stellt das Fundament für den Erfolg deines Unternehmens dar. Erst wenn deine Website im Index aufgenommen wurde, können alle anderen von dir angesetzten SEO Maßnahmen Fuß fassen.

Für ein fehlerfreies Crawling auf deiner Website sind die Robots.txt Dateien also unverzichtbar.

Stephan Ilg


Stephan ist SEO-Enthusiast, Diplomjurist und Unternehmer. Neben seiner Arbeit als Co-Founder des Startups Backpackertrail und SEO-Brain hinter Werbepresse ist er Dozent für E-Commerce sowie Medienrecht an der Hochschule Fresenius. Seine Arbeitssprachen sind Deutsch, Englisch, Französisch, Spanisch und Portugiesisch.

Kommentar schreiben

Your email address will not be published. Required fields are marked

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}