Ich will jetzt nicht gross ausholen und darüber plaudern, wo Suchmaschinen ihre Daten her haben (wenngleich ich mich frage, wo all die vielen Crawlerbesuche ihre Daten hinschaufeln und was die «supplemental results» sind).
Das Ganze hatte mit meinem Selbstversuch begonnen, in welchem ich Sonderzeichen zuerst in den HTML Page Title (Schritt 1) und später in den RSS- und Atom-Feed (Schritt 2, je Title vom Feed und Title vom Entry) eingefügt habe. Dieser Content ist nun in den «normalen» Internet-Suchmaschinen angekommen.
1. Bei google.com ist zu erkennen, dass die Maschine mein Pfeil Zeichen filtert… finde ich in der Zwischenzeit auch vernünftig. Ich mache nicht noch mehr Versuche, an welcher Stelle des Wortes oder bei welchen Zeichen das so ist. Interessant ist hingegen, dass beim Cache-Link der entsprechende Inhalt noch gar nicht da ist. Das hat aber wohl mit dem Motto Adam Bosworth «It is acceptable to be stale much of the time» zu tun (Quelle: Queue Volume 3 , Issue 8).
2. google Blogsearch zeigt den Pfeil an, aber und das finde ich zumindest interessant: Der Titel des Post stammt nicht aus dem RSS- oder Atom-Feed aber aus dem HTML des Posts (sonst hätte es dort auch ein Pfeil); Der Titel des Blogs (mit Pfeil) ist eine der beiden Quellen (da beide mit Pfeil).
3. Und yahoo.ch verhält sich wie Google. Der Sonderzeichenfehler bei persönlich schaue ich mir später an.
Da ich das Zeichen erstmals in Google gesehen hatte, liegt es nahe, dass die Filterung aus dem letzten Update «Jagger» stammt, der offiziell gegen Spammer gerichtet war.
Suchmaschinen und deren Quellen
S
Das selbe Problem hatte ich mit einem eigenen RSS Feed, bei dem ich das Encoding nicht sauber deklariert hatte. Ob Yahoo das Encoding der Feeds nicht so genau nimmt?
xml version=»1.0″ encoding=»iso-8859-1″
Danke. Ich habe meinen Response Header angeschaut und dort ist tatsächlich kein Charset drin (aber nur im Client Code). Muss ich mal fixen.
Ich habe die Pfeile überall wieder rausgenommen… siehe und ursp. Post: https://stuker.com/2005/12/wirklich_ein_tr.html