Mehrere Seiten aus dem Google Index per 410 entfernen

Da ich erst neulich ein Projekt von mir, welches ausschließlich Double Content von Affiliate Partnern enthielt komplett umgestellt und mit Unique Content bestückt habe, stand ich vor der Aufgabe, mehrere hundert Seiten aus dem Google Index zu löschen.

Um das zu bewerkstelligen, könnte man sich der manuellen Entfernung von URLs aus dem Google Index bedienen – was allerdings bei einer Vielzahl an Seiten ein hohes Maß an Fleiß und Geduld erfordert.

Daher bediente ich mich eines Status Header Codes, der nicht allzu vielen bekannt sein dürfte: der 410-Meldung. Crawlt die Suchmaschine eine Seite, welche den Header Code 410 hat, so erhält sie die Meldung, dass die Seite “Gone” ist, also weg ist und wird diese Seite somit nicht mehr besuchen und als Folge aus dem Index löschen.

Wie man eine 410 Fehlermeldung für mehrere Seiten korrekt erzeugt, erkläre ich in den folgenden Schritten.

Erstellen einer 410 Fehlerseite

Als erstes erstellt man eine .php Datei, auf welche im späteren Verlauf per .htaccess umgeleitet wird, sobald eine Seite aufgerufen wird, welche man aus dem Index gelöscht haben will.
Diese .php Seite nenne ich einfacherweise 410.php und lade sie in mein Hauptverzeichnis in einen Ordner namens error.

Eine Beispieldatei könnt Ihr hier herunterladen: 410 Fehler Beispieldatei (Klick rechte Maustaste ==> Ziel speichern unter)

.htaccess anpassen

In die .htaccess Datei fügt man nun folgende Anweisung ein:ErrorDocument 410 /error/410.php

Diese verweist auf die vorher erstellte php-Datei, welche man in den Ordner “error” hochgeladen hat.

Alle zu löschenden Seiten in die .htaccess einfügen

Im letzten Schritt erstellt man sich eine Liste aller Seiten, welche man aus dem Index löschen möchte. In meinem Fall habe ich mir einfach in Webmaster Tools alle URLs als .csv exportiert, die Google bereits als 404 (Nicht gefunden) erkannt hatte.

Nun bearbeitet man diese URLs, indem man die Domain entfernt und nur /verzeichnis/seite.html stehen lässt. Dann stellt man jeder URL noch ein “Redirect Gone” voran. Das Ergebnis sollte dann in etwa so aussehen: Redirect Gone /verzeichnis/zuloeschendeURL.html

Diese Liste aller zu löschenden URLs fügt man nun einfach in die .htaccess unterhalb der Zeile ErrorDocument 410 /error/410.php
ein. Hierdurch wird jede definierte URL auf die 410-Fehlerseite umgeleitet und der gewünschte Status Header Code ausgegeben.

Überprüfung des Status Header Codes

Im letzten Schritt sollte man nun auch überprüfen, ob alles so funktioniert, wie man es sich vorstellt. Hierzu ruft man einfach eine URL auf, welche man aus dem Index löschen lassen will und checkt, ob die Weiterleitung auf die 410-Fehlerseite funktioniert.
Darüber hinaus bedient man sich am Besten noch zusätzlich eines Firefox Addons, mit welchem man den Status Header auslesen kann und überprüft, ob auch der Header Code 410 ausgegeben wird. Sollte man kein Addon installiert haben, oder wollen, so kann man auch z.B. hier den Header Code online auslesen lassen.

Kleiner Tipp:

Sollte etwas nicht wie gewünscht funktionieren, so liegt das mit hoher Wahrscheinlichkeit an den angegeben Pfaden, welche relativ zum Hauptverzeichnis sein sollten.

Ich werde in ein paar Tagen an dieser Stelle berichten, wie lange die Entfernung meiner überflüssigen Seiten gedauert hat.

Comments 11

  1. Avatar
    1. Avatar Post
      Author

      Die Entfernung der Seiten aus dem Index ging relativ fix. Soweit ich mich erinnere, waren alle Seiten nach ca. 3 Tagen aus dem Index gelöscht.

  2. Avatar

    Vielen Dank, ich habe nun für mich 410 entdeckt. Es scheint technisch korrekter als 404 zu sein und außerdem scheint es auch zu funktionieren!

  3. Avatar
    1. Avatar Post
      Author

      Ja, so in etwa ein halbes Jahr würde ich es schon drin lassen. Ansonsten natürlich auch per google “New removal request”, das geht recht fix.

  4. Avatar

    Hallo Michael, ich habe das mal nach der Anleitung befolgt und erstmal funktioniert das mit der 410er Ausgabe wunderbar. Mal sehen, ob meine 1605 Fehler damit behoben werden. Vielen Dank bis hierher!

    Ich hatte übrigens vorher einen 301 Redirect auf die Startseite gemacht. Damit wurden die URLs aber bisher nicht entfernt. Ich hoffe daher, dass dies klappt.

  5. Avatar

    Einen kleinen Hinweis würde ich deiner Anleitung hinzufügen.
    Wenn es sich um URLs mit Queryangaben handelt, Beispielsweise /index.php/tralala.html?item=197011
    dann sollte man alles aus der URL entfernen was zum Query gehört. Aus dem Beispiel wird dann /index.php/tralala.html

  6. Avatar
    1. Avatar Post
      Author
  7. Avatar
  8. Avatar

    Hallo Michael,
    besten Dank für die Anleitung. Bisher hat alles funktioniert, bis auf die in der Search Console genannten Pfade, die mit einem Fragezeichen beginnen, wie z.B. /?attachment_id=2552. In der htacces steht Redirect Gone /?attachment_id=2552, es wird aber eine 404 Fehlermeldung generiert, statt die Weiterleitung auf die 410.php. Ich bin für einen Tipp sehr dabkbar.
    Vielen Dank!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.