Drüben auf dem Liip-Blog fragt Chregu nach, wie Teile einer Webseite aus dem Google-Index ferngehalten werden sollen. Auf einer Community-Seite sollen/werden Usernamen angezeigt, die nicht über den Google-Index gefunden werden sollen. Der Rest der Seite aber schon. Als Vorschläge bietet Chregu die folgenden an:
i) Cloaking
ii) Usernamen als Bilder
iii) Usernamen via JavaScript (nach dem Pageload) reingeschrieben
iv) eine Mischung von ii und iii
Meine Gedanken.
1) Nur Google oder alle Suchmaschinen
Sollen die Usernamen aus allen Suchmaschinen-Indices ferngehalten werden? Wenn ja, so kommen nur die Bilder also ii) in Frage.
Dies, da sich weniger nette Crawler als Google mit unterschiedlichsten User Agents melden. Mit den Ziel deren Ausbeute so gross wie möglich zu halten, wird JavaScript zunehmen auch ausgeführt (so auch bei Google). Bei JavaScript könnte es damit auf ein «Wettrüsten» rauslaufen. Ausserdem kenne ich (noch) keine öffentliche / freundlichen Suchmaschine, die OCR macht und blinde Nutzer haben JavaScript NICHT deaktiviert.
2) Cloaking
Cloaking — die Auslieferung einer unterschiedlichen Seite in Abhängigkeit des User Agents — ist grundsätzlich möglich und wir (wurde? Urban?) auch von search.ch genutzt. Für Google ist das eine mögliche Lösung und wird dort auch toleriert (auch wenn in der Tendenz «bad practice»). Aber für alle Suchmaschinen ist dies nicht 100% zuverlässig (da teilweise mit dem User Agent gespielt wird).
3) googleoff/googleon Tags
Ich kenne da noch ein paar Tags die es erlauben, Seiteninhalte von der Indexierung durch eine Google Search Appliance auszuschliessen. Dies werden aber auch von Google public (ohne Garantie der Dauerhaftigkeit) unterstützt. Die folgenden Tags (als HTML Kommentar eingepackt) erlauben es, Seitenteile von der Indexierung auszuschliessen.
3a) index Tag
Der mit googleon/off: index eingeschlossene Text wird nicht indexiert. In dem Fall landen Liip und Agile im Index, Chregu aber nicht.
Liip <!--googleoff: index--> Chregu <!--googleon: index--> Agile
3b) anchor Tag
Der durch googleon/off: anchor eingeschlossene Textanker wird der Zielseite nicht als Suchbegriff angerechnet. Der Link auf https://stuker.com würde bei einer Suche nicht mit Liip assoziert.
<!--googleoff: anchor--> <a href=https://stuker.com> Liip </a> <!--googleon: anchor-->
3c) snippet Tag
Der googleon/off: snippet eingeschlossene Text wird nicht zur Erzeugung des Trefferzitats genutzt.
<!--googleoff: snippet--> Ich bin nicht zitatwürdig <!--googleon: snippet-->
3d) all Tag
Und googleon/off: all schliesst alle der drei oben genannten Ausschlüsse index, anchor und snippet ein.
<!--googleoff: all--> Ich nicht <!--googleon: all>
Einen schönen Abend, viel Spass beim Ausschliessen 😉 und die Diskussion wegen dem Zugang für Menschen mit Behinderungen braucht ein bisschen mehr Zeit.
Update
– In einem Kommentar des Liip-Blogs hat es einen Link auf die Yahoo-Variante der Content-Kennzeichnung mit Class-Attributen.
– Zudem der (für freundliche Spider funktionierende) Vorschlag von Hannes, die Namen als iFrames undeiner für Suchmaschinen «gesperrten» Domäne einzubinden.
Teile einer Seite aus dem Google-Index fernhalten
T
Danke für die sehr ausführliche Antwort, den Google Tags Teil kannt ich definitiv noch nicht. Eine Bemerkung zum JavaScript Teil: Ich habe den ausführbaren Teil des Javascripts in eine externe JS Datei getan, welche mit robots.txt von Google (und Konsorten) ferngehalten wird. Alle «lieben» Suchmaschinen sollten das also schon sein lassen und den JavaScript Teil nicht ausführen. Drum ist der Ansatz für mich schon immer auch noch ziemlich sicher.
Hallo Jürg,
Danke für diesen interessanten Artikel. Das SE mittlerweile auch JS ausführen war mir so neu. Hast du da weiterführende Informationen auf die du dich beziehst?
@Chregu
Es ist also möglich JS Dateien per robots.txt vor Ausführung zu schützen?
Felix: Offiziell gibt’s dazu natürlich kein Statement (robots.txt um JS files auszuschliessen), aber wenn die Searchengines nach den Regeln spielen, sollte das ja der Fall sein und bei meinem Test war das der Fall.
Hallo Felix. Execution of JavaScript… wie üblich «Web Quellen», zuhören und feststellen. Hier ein paar Links:
– http://www.seomoz.org/ugc/wheres-all-this-traffic-coming-from-searchme
– http://www.labnol.org/internet/search/googlebot-executes-javascript-on-web-pages/8040/
– http://www.ogletreeseo.com/194.html
Hallo Jürg,
Du schreibst «Dies werden aber auch von Google public (ohne Garantie der Dauerhaftigkeit) unterstützt.»
Meinst Du damit, dass die normalen Google-Bots diese Tags auch beachten?
Hier lese ich gerade eine andere Behauptung, die besagt, dass die Tags nur für die GSA bestimmt ist.
http://www.google.com/support/forum/p/Webmasters/thread?tid=5fe70801501cba28&hl=en
Weißt Du da genaueres vielleicht?
Wir hatten die Tags vor ein paar Jahren (!!) mal bei Google public getestet und damals wurden diese auf auf http://www.google.com respektiert. Ich weiss aber nicht, wie der Stand heute ist… Die sichere Antwort ist nein, die spannenden: Ausprobieren.