Digital sozialisiert, Denker, Macher und Angel Investor.

Teile einer Seite aus dem Google-Index fernhalten

T

Drüben auf dem Liip-Blog fragt Chregu nach, wie Teile einer Webseite aus dem Google-Index ferngehalten werden sollen. Auf einer Community-Seite sollen/werden Usernamen angezeigt, die nicht über den Google-Index gefunden werden sollen. Der Rest der Seite aber schon. Als Vorschläge bietet Chregu die folgenden an:
i) Cloaking
ii) Usernamen als Bilder
iii) Usernamen via JavaScript (nach dem Pageload) reingeschrieben
iv) eine Mischung von ii und iii
Meine Gedanken.
1) Nur Google oder alle Suchmaschinen
Sollen die Usernamen aus allen Suchmaschinen-Indices ferngehalten werden? Wenn ja, so kommen nur die Bilder also ii) in Frage.
Dies, da sich weniger nette Crawler als Google mit unterschiedlichsten User Agents melden. Mit den Ziel deren Ausbeute so gross wie möglich zu halten, wird JavaScript zunehmen auch ausgeführt (so auch bei Google). Bei JavaScript könnte es damit auf ein «Wettrüsten» rauslaufen. Ausserdem kenne ich (noch) keine öffentliche / freundlichen Suchmaschine, die OCR macht und blinde Nutzer haben JavaScript NICHT deaktiviert.
2) Cloaking
Cloaking — die Auslieferung einer unterschiedlichen Seite in Abhängigkeit des User Agents — ist grundsätzlich möglich und wir (wurde? Urban?) auch von search.ch genutzt. Für Google ist das eine mögliche Lösung und wird dort auch toleriert (auch wenn in der Tendenz «bad practice»). Aber für alle Suchmaschinen ist dies nicht 100% zuverlässig (da teilweise mit dem User Agent gespielt wird).
3) googleoff/googleon Tags
Ich kenne da noch ein paar Tags die es erlauben, Seiteninhalte von der Indexierung durch eine Google Search Appliance auszuschliessen. Dies werden aber auch von Google public (ohne Garantie der Dauerhaftigkeit) unterstützt. Die folgenden Tags (als HTML Kommentar eingepackt) erlauben es, Seitenteile von der Indexierung auszuschliessen.
3a) index Tag
Der mit googleon/off: index eingeschlossene Text wird nicht indexiert. In dem Fall landen Liip und Agile im Index, Chregu aber nicht.
Liip <!--googleoff: index--> Chregu <!--googleon: index--> Agile
3b) anchor Tag
Der durch googleon/off: anchor eingeschlossene Textanker wird der Zielseite nicht als Suchbegriff angerechnet. Der Link auf https://stuker.com würde bei einer Suche nicht mit Liip assoziert.
<!--googleoff: anchor--> <a href=https://stuker.com> Liip </a> <!--googleon: anchor-->
3c) snippet Tag
Der googleon/off: snippet eingeschlossene Text wird nicht zur Erzeugung des Trefferzitats genutzt.
<!--googleoff: snippet--> Ich bin nicht zitatwürdig <!--googleon: snippet-->
3d) all Tag
Und googleon/off: all schliesst alle der drei oben genannten Ausschlüsse index, anchor und snippet ein.
<!--googleoff: all--> Ich nicht <!--googleon: all>
Einen schönen Abend, viel Spass beim Ausschliessen 😉 und die Diskussion wegen dem Zugang für Menschen mit Behinderungen braucht ein bisschen mehr Zeit.
Update
– In einem Kommentar des Liip-Blogs hat es einen Link auf die Yahoo-Variante der Content-Kennzeichnung mit Class-Attributen.
– Zudem der (für freundliche Spider funktionierende) Vorschlag von Hannes, die Namen als iFrames undeiner für Suchmaschinen «gesperrten» Domäne einzubinden.

6 Kommentare

Digital sozialisiert, Denker, Macher und Angel Investor.