Wie kommen Seiten nicht in Google rein?

Alle reden davon, wie ein Betreiber möglichst viele Seiten in den Google-Index rein bekommen und dort möglichst oben auf der Trefferliste positioniert sind. So auch bei uns, es heisst Suchmaschinenmarketing (SEO + SEM).
Heute mal das Gegenteil: Wie stelle ich sicher, dass meine Seiten nicht im Google-Index landen. So einfach wie es ist, sich selbst aus Google auszuschliessen, so sehr frage ich mich, weshalb Verleger klagen dass Google Inhalte klaue (sie können diese selbst sperren).
FAQ1: Meine Seiten kommen nicht in den Index, denn niemand kennt die Adresse. Meist falsch, da beispielsweise der Google Toolbar Seiten zurückmeldet und somit durchaus auch «unbekannte» URL gecrawled und indexiert werden.
FAQ2: Ist so was wichtig? Machen wir mal das folgende Spiel. Ich vermute bei jemandem Entwicklungssysteme oder will mich mal umschauen…
i) Suche in Google nach der Hauptdomäne bsp. mit der Query site:swisscom.com

ii) Nun beginnne ich Schritt für Schritt die Domänen auszuschliessen, die ich nicht sehen will mit -site. So lautet die zweite Query site:swisscom.com -site:www.swisscom.com und schon sehe ich interessante Kandidaten.. schauen sie selbst.
Also zurück zur Frage was ich für Möglichkeiten habe, dass Seiten nicht bei Google in Index landen.
> > Gruppe 1: Die Site / Seiten sollen öffentlich zugänglich sein
1) robots.txt Datei. Im Wurzelverzeichnis des Webserver kann ich mit der Datei robots.txt auf Stufe Verzeichnis festlegen, was der Suchmaschinencrawler besuchen soll. Der Grundsyntax (www.robotstxt.org) ist schon sehr lange stabil und lässt auch eine Differenzierung nach Suchmaschinen (User Agents) zu. Gewisse Suchmaschinen interpretieren auch einen erweiterten Syntax. Crawler die sich an die Regeln halten (alle «grossen») erkennt man u.a. auch daran, dass sie die Datei zu Beginn einer Session anfordern (erzeugt einen Eintrag im Access-Log). Soll auf diesem Blog beispielsweise von keinem Crawler das Verzeichnis /mt/ nicht besucht werden, alle anderen aber schon, so lautet die Datei so:

User-Agent: *
Disallow: /mt/
Allow: /

Hier noch die Anleitungen bei Google, Yahoo und bei Microsoft.
2) META tags. Diese Tags gilt es auf Seitenbasis einzufügen und sie erlauben damit eine feinere Steuerung. Auch hier gibt es wieder einen von allen interpretierten Grundsyntax (www.robotstxt.org) sowie suchmaschinenspezifische Erweiterungen. In der Grundversion gibt es zwei Angaben i) soll die vorliegende Seite indexiert werden oder nicht (INDEX / NOINDEX) und ii) soll den Links in der Seite gefolgt werden (FOLLOW / NOFOLLOW). Somit sehen die Tags in etwas so aus:

<META name=»robots» content=»noindex, follow» />
<META name=»robots» content=»index, nofollow» />
<META name=»robots» content=»noindex, nofollow» />

3) X-Robots-Tag Header. Bei diesem Ansatz lieferte die angeforderte Seite in der HTTP Response den genannten Header. De Ansatz wurde von Google bekannt gemacht und unterstützt ihren erweiterten Befehlssatz. Zumindest Yahoo unterstützt den header auch. Die Befehle sind sehr ähnlich wie bei robots.txt also

X-Robots-Tag: noindex, follow
X-Robots-Tag: index, nofollow
X-Robots-Tag: noindex, nofollow

Grundsätzlich ist zu allen drei Ansätzen zu sagen, dass es effizienter ist den Crawler mit robots.txt grossflächig auszuschliessen, damit nicht alle Seiten ausgeliefert werden um festzustellen, ob diese indexiert werden sollen. Auf der anderen Seite ist META oder der Header zuverlässiger.
> > Gruppe 2: Die Site / Seiten ist nur für eine Gruppe von Leuten zugänglich (z.B. Entwicklungssysteme)
Auch ein häufiger Fall ist es, dass ich ein System vor dem Live-Gang für eine Testgruppe zugänglich machen möchte. Die Ansätze oben sind grundsätzlich möglich, aber zu unzuverlässig und auch aufwändig bei der Umstellung vor dem Livegang. Das allerbeste hier ist also ein Passwort und zwar sehr früh. Also nicht erst auf einer Formularseite (sonst wird diese indexiert) aber bereits mit einer HTTP Basic Authentication (also einem Login Windows des Browsers).

Wie kommen Seiten nicht in Google rein?

kommentieren

Kommentar verwerfen

kommentieren

Kommentar verwerfen

Weitere Blogposts