Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Netzwerke>Eigene Error 404 Seite nicht bei Google & Co. indizieren lassen

Eigene Error 404 Seite nicht bei Google & Co. indizieren lassen

dom_beta18.03.1110:16


Hallo,


ich habe letztens eine eigene Error 404 (Datei nicht gefunden) Seite erstellt und der Server verweist auch auf diese Datei, wenn man einen nicht existente Datei aufruft.

Leider aber wurde diese Datei von Google indiziert.

Wie kann man das verhindern?

Ich habe auch gelesen, daß man die 404-Seite so anpassen muß, daß sie einen HTTP 404 Code ausgibt. Nur wie?


Danke!

„...“
0

Kommentare

nane
nane18.03.1110:34
@Dom_Beta

Das kannst Du mit einer "robots.txt" Datei steuern bzw. unterbinden.
Robots.org
Selfhtml
Selfhtml Anwendungsbeispiel
Wiki

Um "Fehlerseiten" korrekt auszugeben - mittels .htaccess Datei, gibt es einen einfachen Editor
„Das Leben ist ein langer Traum, an dessen Ende kein Wecker klingelt.“
0
dom_beta18.03.1110:56

Hallo,

also, hier beschreibe ich was ich gemacht habe:

1. Ich habe eine Datei namens "fehler404.htm" erstellt und entsprechend gestaltet.

2. Anschließend habe ich die .htaccess Datei geändert, bzw. diesen Eintrag hinzugefügt:

ErrorDocument 404 http://www.meindomain.tld/fehler404.htm


Nur wurde diese Datei in den Google Suchindex aufgenommen.

Was genau muß ich wo ändern, damit weder die Fehlerseite (fehler404.htm) in den Index aufgenommen wird und der Server bei Umleitung einen HTTP 404 Fehler / Statuscode ausgibt?

Das Problem ist ja, wenn eine nicht existente Datei aufgerufen wird, wird auf die 404 Seite umgeleitet. Es gibt dann ja ein Ergebnis, "da ist etwas" und die Suchmaschine nimmt die nicht existente Seite in den Index auf.


MfG
„...“
0
nane
nane18.03.1111:15
Du tippst einfach eine zusätzliche Zeile in Deine "robots.txt" Datei ein. Das war es eigentlich schon


User-agent: *
..
Disallow: /fehler404.htm
..
„Das Leben ist ein langer Traum, an dessen Ende kein Wecker klingelt.“
0
dom_beta18.03.1111:16

Hallo,

auf dieser Seite kann man die Seiten testen:

http://www.seoconsultants.com/tools/check-server-headers-tool/#Report


Als Bot habe ich "GoogleBot" gewählt.
Dort habe ich mal eine nicht existente Seite aufgerufen.

Als Ergebnis kam:

1. Requesting: http://www.domain.tld/55.htm
GET /55.htm HTTP/1.1
Connection: Keep-Alive
Keep-Alive: 300
Accept:*/*
Host: www.domain.tld
Accept-Language: en-us
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Server Response:
HTTP/1.1 302 Found Date: Fri, 18 Mar 2011 10:13:45 GMT Server: Apache/1.3.29 (Unix) FrontPage/5.0.2.2510 mod_ssl/2.8.16 OpenSSL/0.9.7d Location: http://www.domain.tld/error404.htm Content-Type: text/html; charset=iso-8859-1


Jemand eine Idee?
„...“
0
Serge
Serge18.03.1111:23
Ich fürchte, du hast keinen Einfluss auf den Google-Index, wenn der das mal geschluckt hat, ist es drin, bis er deine Seite mal wieder besucht.
0
sierkb18.03.1114:41
dom_beta:

nane sagte Dir bereits, wie Du das Indizieren via robots.txt im Root Deiner Domain verhindern kannst.

Sollte es zu spät dazu sein, und Google hat die Seite bereits indiziert (danach scheint's ja auszusehen), dann mal das hier versuchen:

Google: Ihre URL hinzufügen/entfernen , Abschnitt "Inhalt aus Googles Index entfernen"
bzw.
Google Webmaster-Hilfe: Eine Seite oder Website aus den Suchergebnissen von Google entfernen

Was mich grad' nur ein wenig irritiert ist, dass von Deinem Apache-Server ein Redirection Status-Code 302 (Found) ausgegeben wird und nicht ein ganz normaler Status-Code 200 (OK)...
Von wo nach wo leitest Du oder Dein Provider denn um und warum?

Wikipedia (en): List of HTTP status codes
Wikipedia (de): HTTP-Statuscode
RFC 2616: 10 Status Code Definitions 10.3 Redirection 3xx 10.3.3 302 Found:
RFC 2616: 10 Status Code Definitions 10.2 Successful 2xx 10.2.1 200 OK:
Wikipedia (de) HTTP-Statuscode
3XX – Umleitung
302 Found

Die angeforderte Ressource steht vorübergehend unter der im „Location“-Header-Feld angegebenen Adresse bereit[3]. Die alte Adresse bleibt gültig. Wird in HTTP/1.1 je nach Anwendungsfall durch die Statuscodes 303 bzw. 307 ersetzt. 302-Weiterleitung ist aufgrund eines Suchmaschinen-Fehlers, dem URL-Hijacking, in Kritik geraten. Webmaster sollten von der Verwendung eines solchen Redirects absehen, wenn sie auf fremde Inhalte weiterleiten.

Außerdem und am Rande bemerkt: Dein Provider benutzt noch Apache 1.3.29. Er sollte mal überlegen, ob er nicht so langsam mal auf einen aktuellen Apache 2 wechselt. Die Apache 1.3-Linie (aktuell von der 1.3-Linie ist Apache 1.3.42) ist schon lange und seit mehreren Jahren "deprecated" (inzwischen sogar: has reached "end of life") und wird von Apache selber in Bälde wohl auch nicht mehr mit Updates und Security-Fixes versorgt werden. Siehe dazu auch u.a. die entsprechende Notiz und Aufforderung unter .
0
sierkb18.03.1115:01
dom_beta:

Nachtrag: solltest Du eine Sitemap für Deinen Webauftritt bzw. eine solche sitemap.xml in Deinem Root-Verzeichnis liegen haben (entweder selber manuell erstellt und gepflegt oder durch ein evtl. verwendetes CMS erstellt und gepflegt oder durch eines der zahlreichen Tools dafür), so sollte die natürlich und konsequenterweise Deine individuellen Statuscode-Seiten ebenfalls nicht aufführen.
0
dom_beta21.03.1108:47

Hallo,
sierkb
Was mich grad' nur ein wenig irritiert ist, dass von Deinem Apache-Server ein Redirection Status-Code 302 (Found) ausgegeben wird und nicht ein ganz normaler Status-Code 200 (OK)...
Von wo nach wo leitest Du oder Dein Provider denn um und warum?


Ich habe die .htaccess Datei angepaßt:
ErrorDocument 404 http://www.domain.tld/error404.htm

Denn wenn eine nicht existierende Datei aufgerufen wird, hat mein Webserver immer eine "nichtssagende" Not-Found-Meldung ausgegeben.

Da aber eine solche Meldung die meisten nicht verstehen (Englisch) und es sonst keine weiteren Infos dazu gibt, habe ich eine eigene 404-Seite erstellt und den Server so umkonfiguriert, daß er wenn eine nicht existierende Datei aufgerufen wird, die fehler404.htm Datei aufgerufen wird.


MfG
„...“
0
sierkb21.03.1109:04
dom_beta:

Das beantwortet nicht meine Frage. Was die Apache Directive ErrorDocument Fehlercode Dokument bewirkt und wie und wo und warum man sie einsetzt, weiß ich selber und benutze ich seit Jahren auch schon selber (auch für eigene 404-Seiten). Ich fragte aber, warum da bei einem erfolgreichen Laden einer Seite von Deinem Server kein Status 200 OK, sondern offenbar eine Umleitungs-Statusmeldung, genauer: Status 302 Found.
0
dom_beta21.03.1109:07
sierkb
Ich fragte aber, warum da bei einem erfolgreichen Laden einer Seite von Deinem Server kein Status 200 OK, sondern offenbar eine Umleitungs-Statusmeldung, genauer: Status 302 Found.

keine Ahnung; möglicherweise deswegen weil ich die komplette URI angegeben habe und nicht nur die entsprechende Datei.

Notfalls müßte ich mein Provider mal kontaktieren.
„...“
0
meltingmind
meltingmind21.03.1109:10
Das liegt an dem absoluten Pfad, wenn statt http:// nur error404.htm eingetragen wird, sollte es keinen Status 302 geben, sondern den korrekten Status 404
0
dom_beta21.03.1110:17
meltingmind
Das liegt an dem absoluten Pfad, wenn statt http:// nur error404.htm eingetragen wird, sollte es keinen Status 302 geben, sondern den korrekten Status 404


ok.

Danke für den Hinweis!

Das werd ich mal ausprobieren!
„...“
0
dom_beta21.03.1120:49
so, ich glaube, jetzt habe ich's hinbekommen:

HTTP/1.1 404 Not Found Date: Mon, 21 Mar 2011 19:46:23 GMT Server: Apache/1.3.29 (Unix) FrontPage/5.0.2.2510 mod_ssl/2.8.16 OpenSSL/0.9.7d Last-Modified: Mon, 21 Mar 2011 19:46:09 GMT ETag: "???" Accept-Ranges: bytes Content-Length: 2555 Content-Type: text/html


so, die robots.txt Datei habe ich jetzt auch angepaßt. Mal sehen, ob Google das umsetzt. Wenn nicht, muß ich hier noch mal was schreiben.
„...“
0
dom_beta21.03.1121:22
noch eine Frage.

es ist notwendig in der eigenen 404 Seite einen 404 Header einzubauen?

Und wenn ja, wie erstelle ich diesen?
„...“
0
sierkb21.03.1121:45
dom_beta
es ist notwendig in der eigenen 404 Seite einen 404 Header einzubauen?
Und wenn ja, wie erstelle ich diesen?

Wie meinen? Was meinst Du damit, in eine eigene 404-Seite einen 404-Header einbauen? Eine ganze normale HTML-Seite machen mit den Status-Informationen, die der Server generiert und die man natürlich auch an die Nutzer weitergeben sollte und fertig! Dass eine 404-Seite natürlich vom Server auch gefunden werden soll und nicht selbst eine 404-Statusmeldung generiert, versteht sich wohl von selbst.

Abgesehen davon: und (lokal) bzw. dieselben Dokumente online , . Da steht alles drin was Du brauchst.
0
dom_beta21.03.1121:53
Ich meine dies:

http://php.net/manual/de/function.header.php

Zitat:
"header("HTTP/1.0 404 Not Found");"

ist das notwendig oder überflüssig, wenn der Server bei 404 auf die eigene 404-Seite verweist?
„...“
0
micheee21.03.1123:36
Wie du bereits zitiertest, relativer Pfad zur Fehlerseite,
sonst wirst du weitergeleitet zu der Domain auf der das Fehlerdokument liegt (inklusiver der in diesem Fall richtigen Header).
Das liegt an dem absoluten Pfad, wenn statt http:// nur error404.htm eingetragen wird, sollte es keinen Status 302 geben, sondern den korrekten Status 404

Du kannst das einfach selbst testen ob der richtige Header geschickt wird:
$ curl -I http://www.domain.tld/404
HTTP/1.1 404 Not Found
0
dom_beta22.03.1109:15

Hallo,

also, die Ausgabe von Fehler 404 funktioniert jetzt ordnungsgemäß.

Wenn ich eine nicht existente Datei aufrufe, bleibt in der Adresszeile der Pfad und als Datei der Inhalt der Datei "fehler404.htm" ausgegeben.

Ebeenso habe ich das "Directory Listening" deaktiviert und bei Zugriff auf ein Unterverzeichnis wird "Fehler 403 - Zugriff verweigert" ausgegeben.

Ich glaube, ich hab's jetzt verstanden.


MfG
„...“
0
dom_beta23.03.1113:37
wird Google & dem Webbrowser eigentlich der Code 403, 404, etc. übermittelt?
„...“
0
dom_beta21.04.1217:37
dom_beta
Leider aber wurde diese Datei von Google indiziert.

Am besten geht dies mit den Google Webmaster Tools, dort kann man bestimmte Dateien und Ordner aus dem Index entfernen lassen.

Übrigens, die Statusmeldungen funktionieren jetzt korrekt.
„...“
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.