Robots.txt – Der ultimative Leitfaden

Was ist Robots.txt?

Robots.txt ist eine Textdatei, die Bot-Crawlern anweist, ob bestimmte Seiten indiziert werden sollen oder nicht. Es wird auch als Gatekeeper Ihrer gesamten Website bezeichnet. Das erste Ziel von Bot-Crawlern besteht darin, die robots.txt-Datei zu finden und zu lesen, bevor Sie Ihre Sitemap oder Seiten oder Ordner öffnen.

Genauer gesagt ermöglicht Ihnen robots.txt Folgendes:

  • Steuern Sie, wie Suchmaschinen-Bots Ihre Website crawlen
  • Gewähren Sie bestimmten Zugriff
  • Helfen Sie Suchmaschinen-Spidern, Seiteninhalte zu indizieren
  • Zeigen Sie, wie Sie Benutzern Inhalte bereitstellen

Robots.txt ist Teil des Robots Exclusion Protocol (REP), das aus Richtlinien auf Site-/Seiten-/URL-Ebene besteht. Auch wenn Suchmaschinen-Bots weiterhin Ihre gesamte Website crawlen können, liegt es an Ihnen, ihnen bei der Entscheidung zu helfen, ob bestimmte Seiten die Zeit und Mühe wert sind.

Warum Sie Robots.txt brauchen

Ihre Website benötigt keine robots.txt-Datei, um ordnungsgemäß zu funktionieren. Der Hauptgrund, warum Sie eine robots.txt-Datei benötigen, besteht darin, dass Bots beim Crawlen Ihrer Seite um Erlaubnis zum Crawlen bitten, damit sie versuchen können, Informationen über die Seite zur Indexierung abzurufen. Darüber hinaus fordert eine Website ohne robots.txt-Datei Bot-Crawler im Wesentlichen dazu auf, die Website nach eigenem Ermessen zu indizieren. Es ist wichtig zu verstehen, dass Bots Ihre Website auch ohne die robots.txt-Datei crawlen.

Der Speicherort Ihrer robots.txt-Datei ist ebenfalls wichtig, da alle Bots danach suchen www.123.com/robots.txt. Wenn sie dort nichts finden, gehen sie davon aus, dass die Website keine robots.txt-Datei hat, und indizieren alles. Die Datei muss eine ASCII- oder UTF-8-Textdatei sein. Es ist auch wichtig zu beachten, dass bei Regeln die Groß-/Kleinschreibung beachtet wird.

Hier sind einige Dinge, die robots.txt tun wird und die nicht:

  • Die Datei kann den Zugriff von Crawlern auf bestimmte Teile Ihrer Website steuern. Beim Einrichten von robots.txt sollten Sie sehr vorsichtig sein, da es möglich ist, die Indexierung der gesamten Website zu verhindern.
  • Es verhindert, dass doppelte Inhalte indiziert werden und in Suchmaschinenergebnissen erscheinen.
  • Die Datei gibt die Crawl-Verzögerung an, um eine Überlastung der Server zu verhindern, wenn die Crawler mehrere Inhalte gleichzeitig laden.

Hier sind einige Googlebots, die Ihre Website von Zeit zu Zeit crawlen können:

Webcrawler Zeichenfolge des Benutzeragenten
Neuigkeiten zum Googlebot Googlebot-Neuigkeiten
Googlebot-Bilder Googlebot-Image/1.0
Googlebot-Video Googlebot-Video/1.0
Google Mobile (empfohlenes Telefon) SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (kompatibel; Googlebot-Mobile/2.1; +http://www. google.com/bot.html)
Google-Smartphone Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (kompatibel; Googlebot/2.1; +http://www.google .com/bot.html)
Google Mobile Adsense (kompatibel; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense Medienpartner – Google
Google AdsBot (PPC-Landingpage-Qualität) AdsBot-Google (+http://www.google.com/adsbot.html)
Google App Crawler (Ressourcen für Mobilgeräte abrufen) AdsBot-Google-Mobile Apps

Du wirst einen finden Liste der zusätzlichen Bots hier.

  • Mithilfe der Dateien können Sie den Speicherort der Sitemaps angeben.
  • Es verhindert außerdem, dass Suchmaschinen-Bots verschiedene Dateien auf der Website indizieren, beispielsweise Bilder und PDFs.

Wenn ein Bot Ihre Website besuchen möchte (z www.123.com), worauf zunächst geprüft wird www.123.com/robots.txt und findet:

User-Agent: *

Nicht erlaubt: /

Dieses Beispiel weist alle (Benutzeragenten*) Suchmaschinen-Bots an, die Website nicht zu indizieren (Disallow: /).

Wenn Sie den Schrägstrich aus „Disallow“ entfernt haben, wie im Beispiel unten,

User-Agent: *

Nicht erlaubt:

Die Bots könnten alles auf der Website crawlen und indizieren. Daher ist es wichtig, die Syntax von robots.txt zu verstehen.

Verstehen Sie die Syntax von robots.txt

Die Robots.txt-Syntax kann als „Sprache“ der robots.txt-Dateien betrachtet werden. In einer robots.txt-Datei werden Sie wahrscheinlich auf fünf gebräuchliche Begriffe stoßen. Sie sind:

  • User-Agent: Der spezifische Webcrawler, dem Sie Crawling-Anweisungen geben (in der Regel eine Suchmaschine). Eine Liste der meisten Benutzeragenten finden Sie hier Hier.
  • Nicht erlaubt: Der Befehl, mit dem ein Benutzeragent angewiesen wird, eine bestimmte URL nicht zu crawlen. Für jede URL ist nur eine „Disallow:“-Zeile zulässig.
  • Alass (Gilt nur für Googlebot): Der Befehl teilt dem Googlebot mit, dass er auf eine Seite oder einen Unterordner zugreifen kann, auch wenn die übergeordnete Seite oder der Unterordner möglicherweise nicht zulässig ist.
  • Crawl-Verzögerung: Die Anzahl der Millisekunden, die ein Crawler warten muss, bevor er Seiteninhalte lädt und crawlt. Bitte beachten Sie, dass Googlebot diesen Befehl nicht erkennt, aber Die Crawling-Rate kann in der Google Search Console eingestellt werden.
  • Seitenverzeichnis: Wird verwendet, um den Speicherort aller mit einer URL verknüpften XML-Sitemaps anzuzeigen. Notieren Sie sich diesen Befehl wird nur unterstützt von Google, Ask, Bing und Yahoo.

Ergebnisse der Robots.txt-Anweisung

Sie erwarten drei Ergebnisse, wenn Sie robots.txt-Anweisungen ausgeben:

  • Volle Erlaubnis
  • Völlig verbieten
  • Bedingte Zustimmung

Lassen Sie uns sie unten erkunden.

Volle Erlaubnis

Dieses Ergebnis bedeutet, dass alle Inhalte Ihrer Website gecrawlt werden können. Robots.txt-Dateien sollen das Crawlen durch Suchmaschinen-Bots blockieren, daher kann dieser Befehl sehr wichtig sein.

Dieses Ergebnis könnte bedeuten, dass Sie überhaupt keine robots.txt-Datei auf Ihrer Website haben. Auch wenn Sie es nicht haben, werden Suchmaschinen-Bots trotzdem auf Ihrer Website danach suchen. Wenn sie es nicht bekommen, crawlen sie alle Teile Ihrer Website.

Lesen:  Die auf Leidenschaft basierende Wirtschaft führt zu großen Veränderungen in der Geschäftswelt

Die andere Option unter diesem Ergebnis besteht darin, eine robots.txt-Datei zu erstellen, diese jedoch leer zu lassen. Wenn die Spinne kriecht, erkennt sie die robots.txt-Datei und liest sie sogar. Da dort nichts gefunden wird, wird der Rest der Website weiter gecrawlt.

Wenn Sie eine robots.txt-Datei mit den folgenden zwei Zeilen haben:

User-Agent:*

Nicht erlaubt:

Der Suchmaschinen-Spider crawlt Ihre Website, identifiziert die robots.txt-Datei und liest sie. Es erreicht Zeile zwei und crawlt dann den Rest der Site weiter.

Völlig verbieten

Hier werden keine Inhalte gecrawlt und indiziert. Dieser Befehl wird durch diese Zeile gegeben:

User-Agent:*

Nicht erlaubt:/

Wenn wir von „kein Inhalt“ sprechen, meinen wir, dass nichts auf der Website (Inhalt, Seiten usw.) gecrawlt werden kann. Das ist nie eine gute Idee.

Bedingt zulassen

Dies bedeutet, dass nur bestimmte Inhalte auf der Website gecrawlt werden können.

Eine bedingte Einwilligung hat dieses Format:

User-Agent:*

Nicht erlaubt:/

Benutzeragent: Mediapartner-Google

Erlauben:/

Du kannst den … benutzen Die vollständige robots.txt-Syntax finden Sie hier.

Bitte beachten Sie, dass blockierte Seiten auch dann weiterhin indiziert werden können, wenn Sie die URL nicht zugelassen haben, wie im Bild unten gezeigt:

Möglicherweise erhalten Sie eine E-Mail von Suchmaschinen, dass Ihre URL indiziert wurde, wie im Screenshot oben gezeigt. Wenn Ihre nicht autorisierte URL von anderen Websites verlinkt wird, beispielsweise als Ankertext in Links, wird sie indiziert. Die Lösung hierfür besteht darin, 1) Ihre Dateien auf Ihrem Server mit einem Passwort zu schützen, 2) das Noindex-Meta-Tag zu verwenden oder 3) die Seite vollständig zu löschen.

Kann ein Roboter meine robots.txt-Datei trotzdem scannen und ignorieren?

Ja. Es ist möglich, dass ein Roboter robots.txt umgehen kann. Dies liegt daran, dass Google andere Faktoren wie externe Informationen und eingehende Links verwendet, um zu bestimmen, ob eine Seite indexiert werden soll oder nicht. Wenn Sie nicht möchten, dass eine Seite überhaupt indiziert wird, sollten Sie das Meta-Tag noindex-robots verwenden. Eine andere Möglichkeit wäre die Verwendung des X-Robots-Tag-HTTP-Headers.

Kann ich nur schlechte Roboter blockieren?

Theoretisch ist es möglich, schlechte Roboter zu blockieren, in der Praxis kann dies jedoch schwierig sein. Schauen wir uns einige Möglichkeiten an, dies zu tun:

  • Sie können einen schlechten Roboter blockieren, indem Sie ihn ausschließen. Sie müssen jedoch den Namen kennen, den der jeweilige Roboter im Feld „Benutzeragent“ scannt. Anschließend müssen Sie Ihrer robots.txt-Datei einen Abschnitt hinzufügen, der den fehlerhaften Roboter ausschließt.
  • Serverkonfiguration. Dies würde nur funktionieren, wenn der fehlerhafte Roboter von einer einzigen IP-Adresse aus operiert. Die Serverkonfiguration oder eine Netzwerk-Firewall verhindert, dass der böse Roboter auf Ihren Webserver zugreift.
  • Verwenden Sie erweiterte Firewall-Regelkonfigurationen. Diese blockieren automatisch den Zugriff auf die verschiedenen IP-Adressen, auf denen Kopien des bösartigen Roboters vorhanden sind. Ein gutes Beispiel für Bots, die auf unterschiedlichen IP-Adressen agieren, sind gekaperte PCs, die sogar Teil eines größeren Botnets sein können (lesen Sie mehr über Botnet). Hier).

Wenn der bösartige Roboter von einer einzigen IP-Adresse aus operiert, können Sie den Zugriff auf Ihren Webserver über die Serverkonfiguration oder mit einer Netzwerk-Firewall blockieren.

Wenn Kopien des Roboters auf mehreren unterschiedlichen IP-Adressen arbeiten, wird es schwieriger, sie zu blockieren. In diesem Fall ist es am besten, erweiterte Firewall-Regelkonfigurationen zu verwenden, die automatisch den Zugriff auf IP-Adressen blockieren, die viele Verbindungen herstellen. Leider kann dies auch den Zugriff guter Bots beeinträchtigen.

Was sind einige der besten SEO-Praktiken bei der Verwendung von robots.txt?

An dieser Stelle fragen Sie sich vielleicht, wie Sie sich in diesen kniffligen robots.txt-Gewässern zurechtfinden. Schauen wir uns das genauer an:

  • Stellen Sie sicher, dass Sie keine Inhalte oder Bereiche Ihrer Website blockieren, die gecrawlt werden sollen.
  • Verwenden Sie einen anderen Blockierungsmechanismus als robots.txt, wenn Sie möchten, dass Link-Equity von einer Seite mit robots.txt (was bedeutet, dass sie praktisch blockiert ist) an das Linkziel weitergeleitet wird.
  • Verwenden Sie robots.txt nicht, um zu verhindern, dass sensible Daten, wie z. B. private Benutzerinformationen, in Suchmaschinenergebnissen erscheinen. Dies kann dazu führen, dass andere Seiten auf Seiten verlinken, die private Benutzerinformationen enthalten, was dazu führen kann, dass die Seite indiziert wird. In diesem Fall wurde robots.txt umgangen. Weitere Optionen, die Sie hier erkunden können, sind Passwortsicherheit oder der No-Index Meta-Direktive.
  • Es ist nicht erforderlich, Richtlinien für jeden Crawler einer Suchmaschine festzulegen, da die meisten Benutzeragenten, wenn sie derselben Suchmaschine angehören, denselben Regeln folgen. Google verwendet Googlebot für Suchmaschinen und Googlebot Image für die Bildersuche. Wenn Sie wissen, wie Sie die einzelnen Crawler angeben, haben Sie den Vorteil, dass Sie genau festlegen können, wie der Inhalt Ihrer Website gecrawlt wird.
  • Wenn Sie die robots.txt-Datei geändert haben und möchten, dass Google sie schneller aktualisiert, senden Sie sie direkt an Google. Klicken Sie hier, um Anweisungen dazu zu erhalten Hier. Es ist wichtig zu beachten, dass Suchmaschinen robots.txt-Inhalte zwischenspeichern und den zwischengespeicherten Inhalt mindestens einmal täglich aktualisieren.
Lesen:  Wissenschaftler haben eine neue Art der australischen Spinne Tom Hardy genannt

Grundlegende Richtlinien für robots.txt

Nachdem Sie nun ein grundlegendes Verständnis von SEO in Bezug auf robots.txt haben, was sollten Sie bei der Verwendung von robots.txt beachten? In diesem Abschnitt sehen wir uns einige Richtlinien an, die bei der Verwendung von robots.txt zu befolgen sind. Es ist jedoch wichtig, die Anweisungen tatsächlich zu lesen ganze Syntax.

Größe und Lage

Der Texteditor, den Sie zum Erstellen einer robots.txt-Datei verwenden, muss in der Lage sein, Standard-ASCII- oder UTF-8-Textdateien zu erstellen. Die Verwendung eines Textverarbeitungsprogramms ist keine gute Idee, da dadurch möglicherweise Zeichen hinzugefügt werden, die das Crawling beeinträchtigen könnten.

Obwohl praktisch jeder Texteditor zum Erstellen Ihrer robots.txt-Datei verwendet werden kann, dieses Werkzeug wird dringend empfohlen, da Sie damit Ihre Website testen können.

Hier finden Sie weitere Richtlinien zu Format und Speicherort:

Wie bereits erwähnt, ist robots.txt nicht die beste Möglichkeit, die Indizierung vertraulicher persönlicher Informationen zu verhindern. Dies ist ein berechtigtes Anliegen, insbesondere jetzt mit der kürzlich eingeführten DSGVO. Der Datenschutz darf nicht gefährdet werden. Zeitspanne.

Wie stellen Sie dann sicher, dass robots.txt keine sensiblen Daten in den Suchergebnissen anzeigt?

Durch die Verwendung eines separaten Unterordners, der nicht im Internet aufgeführt werden kann, wird die Verbreitung sensiblen Materials verhindert. Sie können die Anzeige über die Serverkonfiguration verhindern. Bewahren Sie einfach alle Dateien auf, die robots.txt nicht aufrufen soll, und indizieren Sie sie in diesem Unterordner.

Führt das Auflisten von Seiten oder Ordnern in der robots.txt-Datei nicht zu unbeabsichtigtem Zugriff?

Wie bereits erwähnt, sollten Sie verhindern, dass Dateien in den Suchergebnissen angezeigt werden, wenn Sie sie nicht in einem separaten Unterordner ablegen und sie dann über Serverkonfigurationen wieder einblenden. Der einzige Eintrag, den Sie dann in der robots.txt-Datei vornehmen, ist der Ordnername. Der Zugriff auf diese Dateien ist nur über einen direkten Link zu einer der Dateien möglich.

Hier ist ein Beispiel:

Anstatt

User-Agent:*

Disallow:/foo.html

Disallow:/bar.html

Verwendung

User-Agent:*

Nicht zulassen:/norobots/

Anschließend müssen Sie einen „norobots“-Ordner erstellen, der foo.html und bar.html enthält. Bitte beachten Sie, dass Ihre Serverkonfigurationen klar vorsehen sollten, dass kein Verzeichniseintrag für den Ordner „norobots“ generiert wird.

Dies ist möglicherweise kein sehr sicherer Ansatz, da die Person oder der Bot, die Ihre Website angreifen, immer noch sehen können, dass Sie einen „Norobots“-Ordner haben, auch wenn sie die Dateien im Ordner möglicherweise nicht sehen können. Allerdings könnte jemand einen Link zu diesen Dateien auf seiner Website veröffentlichen oder, schlimmer noch, der Link könnte in einer öffentlich zugänglichen Protokolldatei erscheinen (z. B. einem Webserver-Protokoll als Referrer). Auch eine Fehlkonfiguration des Servers ist möglich, die zu einem Verzeichniseintrag führt.

Was bedeutet das? Robots.txt kann Ihnen bei der Zugriffskontrolle nicht helfen, aus dem einfachen Grund, dass es nicht für diesen Zweck gedacht ist. Ein gutes Beispiel ist ein „Verbotszeichen“. Es gibt Leute, die immer noch gegen die Anweisung verstoßen.

Wenn es Dateien gibt, auf die nur autorisierte Personen Zugriff haben sollen, können Serverkonfigurationen bei der Authentifizierung hilfreich sein. Wenn Sie ein CMS (Content Management System) nutzen, haben Sie Zugriffskontrolle auf einzelne Seiten und die Sammlung von Ressourcen.

Können Sie robots.txt für SEO optimieren?

Absolut. Der beste Leitfaden zur Optimierung von robots.txt ist der Inhalt der Website. Eine kurze Erinnerung: Robots.txt sollte niemals dazu verwendet werden, das Crawlen von Seiten durch Suchmaschinen-Bots zu verhindern. Verwenden Sie es nur, um die Teile Ihrer Website zu blockieren, die nicht für die Öffentlichkeit zugänglich sind, zum Beispiel Anmeldeseiten wie wp-admin.

Dies ist die unzulässige Zeile für Neil Patels Anmeldeseite auf einer seiner Websites:

User-Agent:*

Disallow:/wp-admin/

Erlauben:/wp-admin/admin-ajax.php

Mithilfe dieser Nichtzulassungsregel können Sie verhindern, dass Ihr Login indiziert wird.

Wenn Sie bestimmte Seiten nicht indizieren möchten, verwenden Sie denselben Befehl wie oben. Ein Beispiel:

User-Agent:*

Nicht zulassen:/page/

Geben Sie nach dem Schrägstrich die Seite an, die nicht indiziert werden soll, und schließen Sie mit einem neuen Schrägstrich ab. Zum Beispiel:

User-Agent:*

Nicht zulassen:/page/danke/

Welche Seiten möchten Sie möglicherweise von der Indexierung ausschließen?

  • Doppelter Inhalt, der beabsichtigt ist. Was bedeutet das? Manchmal erstellt man absichtlich Duplicate Content, um ein bestimmtes Ziel zu erreichen. Ein gutes Beispiel ist eine druckerfreundliche Version einer bestimmten Webseite. Sie können robots.txt verwenden, um die Indizierung der druckerfreundlichen Version identischer Inhalte zu blockieren.
  • Dankesseiten. Der Grund, warum Sie verhindern möchten, dass diese Seite indiziert wird, ist einfach: Sie soll ein letzter Schritt im Verkaufstrichter sein. Wenn Ihre Besucher auf dieser Seite ankommen, sollten sie den gesamten Verkaufstrichter durchlaufen haben. Wenn diese Seite indiziert ist, bedeutet das, dass Ihnen möglicherweise Leads entgehen oder Sie falsche Leads erhalten.

Der Befehl zum Blockieren einer solchen Seite lautet:

Nicht zulassen:/Danke/

Noindex und NoFollow

Wie wir in diesem Artikel gesagt haben, ist die Verwendung von robots.txt keine hundertprozentige Garantie dafür, dass Ihre Seite nicht indiziert wird. Schauen wir uns zwei Möglichkeiten an, um sicherzustellen, dass Ihre blockierte Seite tatsächlich nicht indiziert wird.

Lesen:  Open Source vs. proprietär: Was ist besser?

Die noindex-Direktive

Dies funktioniert in Kombination mit dem Befehl disallow. Verwenden Sie beides in Ihrer Richtlinie, wie in:

Nicht zulassen:/Danke/

Noindex:/Danke/

Die Nofollow-Direktive

Dadurch werden Google-Bots gezielt angewiesen, die Links auf einer Seite nicht zu crawlen. Dies ist nicht Teil der robots.txt-Datei. Um mit dem Befehl nofollow zu verhindern, dass Seiten gecrawlt und indiziert werden, müssen Sie den Quellcode der spezifischen Seite finden, die nicht indiziert werden soll.

Fügen Sie dies zwischen den öffnenden und schließenden Head-Tags ein:

Sie können sowohl „nofollow“ als auch „noindex“ gleichzeitig verwenden. Verwenden Sie diese Codezeile:

Generieren Sie robots.txt

Wenn Sie Schwierigkeiten haben, robots.txt mit allen notwendigen Formaten und Syntax zu schreiben, die Sie verstehen und befolgen müssen, können Sie Tools verwenden, die den Prozess vereinfachen. Ein gutes Beispiel ist unser kostenloser robots.txt-Generator.

Mit diesem Tool können Sie die Art des Ergebnisses auswählen, das Sie auf Ihrer Website benötigen, sowie die Datei oder Ordner, die Sie hinzufügen möchten. Sie können Ihre Datei sogar testen und sehen, wie Ihre Konkurrenz abschneidet.

Testen Sie Ihre robots.txt-Datei

Sie sollten Ihre robots.txt-Datei testen, um sicherzustellen, dass sie wie erwartet funktioniert.

Verwenden Sie den robots.txt-Tester von Google.

Melden Sie sich dazu bei Ihrem Webmaster-Konto an.

  • Wählen Sie dann Ihr Zuhause aus. In diesem Fall ist es Ihre Website.
  • Klicken Sie in der linken Seitenleiste auf „Crawlen“.
  • Klicken Sie auf „robots.txt-Tester“.
  • Ersetzen Sie vorhandenen Code durch Ihre neue robots.txt-Datei.
  • Klicken Sie auf „Testen“.

Wenn die Datei gültig ist, sollte ein Textfeld „Zulässig“ angezeigt werden. Weitere Informationen finden Sie in diesem umfassenden Handbuch Google robots.txt-Tester.

Wenn Ihre Datei gültig ist, ist es jetzt an der Zeit, sie in Ihren Stammordner hochzuladen oder als andere robots.txt-Datei zu speichern.

So fügen Sie robots.txt zu Ihrer WordPress-Site hinzu

Um Ihrer WordPress-Datei eine robots.txt-Datei hinzuzufügen, besprechen wir Plugin- und FTP-Optionen.

Für die Plugin-Option können Sie ein Plugin wie verwenden Alles in einem SEO-Paket

Melden Sie sich dazu bei Ihrem WordPress-Dashboard an

Scrollen Sie nach unten, bis Sie „Plugins“ erreichen.

Klicken Sie auf „Neu hinzufügen“

Gehen Sie zu „Plugins suchen“

Geben Sie „Alles in einem SEO-Paket“ ein.

Installieren Sie es und aktivieren Sie es

Im Abschnitt „Allgemeine Einstellungen“ des All-in-One SEO-Plugins können Sie die Noindex- und Nofollow-Regeln konfigurieren, die in Ihre robots.txt-Datei aufgenommen werden sollen.

Sie können angeben, welche URLs NOINDEX, NOFOLLOW sein sollen. Wenn Sie es deaktiviert lassen, wird es standardmäßig indiziert:

Um erweiterte Regeln in Ihrer robots.txt-Datei zu erstellen, klicken Sie auf „Feature Manager“ und dann auf die Schaltfläche „Aktivieren“ direkt unter robots.txt.

Robots.txt erscheint jetzt direkt unter dem Feature-Manager. Klicken Sie hier. Sie sehen einen Abschnitt mit dem Namen „Robots.txt-Datei erstellen“.

Es gibt einen Abschnitt zum Erstellen von Regeln, in dem Sie die gewünschten Regeln für Ihre Website auswählen und eingeben können, je nachdem, was nicht indiziert werden soll.

Wenn Sie mit der Erstellung der Regel fertig sind, klicken Sie auf „Regel hinzufügen“.

Die Zeile wird dann im erstellten robots.txt-Ordner aufgeführt.

Sie sehen eine Meldung, dass „All-in-One-Optionen“ aktualisiert wurde.

Eine andere Methode, die Sie verwenden können, besteht darin, Ihre robots.txt-Datei direkt auf Ihren FTP-Client (File Transfer Protocol) wie FileZilla hochzuladen.

Sobald Sie Ihre robots.txt-Datei generiert haben, können Sie sie suchen und ersetzen. Ihre robots.txt-Datei befindet sich unter: „/applications/[FOLDER NAME]/public_html.“

So bearbeiten Sie die robots.txt-Datei auf Ihrem Wix

Wix generiert eine robots.txt-Datei für Websites, die die Webbuilding-Plattform verwenden. Um es anzuzeigen, fügen Sie „/robots.txt“ zu Ihrer Domain hinzu. Die zu robots.txt hinzugefügten Dateien beziehen sich auf die Struktur der Websites von Wix, beispielsweise Noflashhtml-Links, die nicht zum SEO-Wert Ihrer Website von Wix beitragen.

Sie können Ihre robots.txt-Datei nicht bearbeiten, wenn Ihre Website von Wix betrieben wird. Sie können nur andere Optionen verwenden, z. B. das Hinzufügen eines „noindex-Tag‘ zu den Seiten, die nicht indiziert werden sollen.

So erstellen Sie ein Noindex-Tag für eine bestimmte Seite:

  • klicke auf Site-Menü
  • Klick auf das Institution Option für diese bestimmte Seite
  • Wählen SEO-Tag (Google).
  • Zum Einschalten Diese Seite aus den Suchergebnissen ausblenden

So bearbeiten Sie die robots.txt-Datei auf Ihrem Shopify

Ähnlich wie Wix fügt Shopify Ihrer Website automatisch eine nicht bearbeitbare robots.txt-Datei hinzu. Wenn Sie nicht möchten, dass bestimmte Seiten indiziert werden, müssen Sie das „noindex-Tag“ hinzufügen oder die Veröffentlichung der Seite aufheben. Sie können auch Meta-Tags im Kopfbereich der Seiten hinzufügen, die nicht indiziert werden sollen. Folgendes sollten Sie zu Ihrem Header hinzufügen:

Shopify hat eine umfassende Anleitung dazu erstellt Seiten vor Suchmaschinen ausblenden dem du folgen kannst.

Eine andere Möglichkeit besteht darin, eine App namens herunterzuladen Sitemap und NoIndex Manager von Orbis Labs. Sie können die Noindex- oder Nofollow-Optionen ganz einfach für jede Seite Ihrer Shopify-Site überprüfen:

Aktuelle Artikel:

Empfohlen