Digital sozialisiert, Denker, Macher und Angel Investor.

Suchmaschinen und deren Quellen

S

Ich will jetzt nicht gross ausholen und darüber plaudern, wo Suchmaschinen ihre Daten her haben (wenngleich ich mich frage, wo all die vielen Crawlerbesuche ihre Daten hinschaufeln und was die «supplemental results» sind).
Das Ganze hatte mit meinem Selbstversuch begonnen, in welchem ich Sonderzeichen zuerst in den HTML Page Title (Schritt 1) und später in den RSS- und Atom-Feed (Schritt 2, je Title vom Feed und Title vom Entry) eingefügt habe. Dieser Content ist nun in den «normalen» Internet-Suchmaschinen angekommen.
1. Bei google.com ist zu erkennen, dass die Maschine mein Pfeil Zeichen filtert… finde ich in der Zwischenzeit auch vernünftig. Ich mache nicht noch mehr Versuche, an welcher Stelle des Wortes oder bei welchen Zeichen das so ist. Interessant ist hingegen, dass beim Cache-Link der entsprechende Inhalt noch gar nicht da ist. Das hat aber wohl mit dem Motto Adam Bosworth «It is acceptable to be stale much of the time» zu tun (Quelle: Queue Volume 3 , Issue 8).
i-c4b595252073aca2c02a9750edde35ac-pfeil_google_com.gif
2. google Blogsearch zeigt den Pfeil an, aber und das finde ich zumindest interessant: Der Titel des Post stammt nicht aus dem RSS- oder Atom-Feed aber aus dem HTML des Posts (sonst hätte es dort auch ein Pfeil); Der Titel des Blogs (mit Pfeil) ist eine der beiden Quellen (da beide mit Pfeil).
i-8aeffc255b961d6e2e2a9cd5fd5631b9-pfeil_google_blogsearch.gif
3. Und yahoo.ch verhält sich wie Google. Der Sonderzeichenfehler bei persönlich schaue ich mir später an.
i-60af7492d06b9dfc7f1a5c99558f789f-pfeil_yahoo_ch.gif
Da ich das Zeichen erstmals in Google gesehen hatte, liegt es nahe, dass die Filterung aus dem letzten Update «Jagger» stammt, der offiziell gegen Spammer gerichtet war.

3 Kommentare

Von Jürg Stuker
Digital sozialisiert, Denker, Macher und Angel Investor.