Digital sozialisiert, Denker, Macher und Angel Investor.

Zuerst war es nur AppleSyndication/38

Z

Aus Lust und Laune habe ich die http Log-Dateien der beiden Sites www.namics.com und blog.namics.com mal verglichen. Fokus war dabei auf den User-Agent AppleSyndication/38. Das gleich vorweg: Ich dachte es sei der supercoole RSS-Screensaver welcher Apple mit Mac OS X Tiger mitliefert.
Rausgestellt hat sich dann, dass es der RSS-Teil/-Reader des Safari Browser ist, der sich meist mit «Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/412.6.2 (KHTML, like Gecko) Safari/412.2.2» meldet, ausser wenn er RSS liest. Und der Screensaver nutzt dieselbe Komponente.
Noch ein Wort zu «User-Agent» (UA). Dabei handelt es sich um die technische Bezeichung der Software, welche von einem Webserver Daten abruft (so beispielsweise im RFC 1945 für HTTP/1.0 verwendet). Also beispielsweise einen Browser. Zudem wird der UA als String im im http Request Header an den Webserver übermittelt – und dort habe ich diese bei den genannten Sites rausgefischt.
Der übermittelte String des UAs (siehe oben) ist befremdend komplex. Mozilla hatte mal 1998 dran rumspezifiziert, aber die heutige Kreativtät grenzt an Unfug. Es ist übrigens sehr einfach den UA-String zu verändern und einige Browser, so beispielsweie Opera erlauben dies auch über ein Menü.
Ein paar Zahlen zu meiner Erkundung:
> Zeilen in den Logs
www.namics.com: 732’107
blog.namics.com 121’611
> Einmalige UAs
www.namics.com: 1254
blog.namics.com:1163
Interessant als erstes ist, das auf dem Blog massiv mehr offensichtlich «gefälschte» UA-Strings sind (2 zu 43). So beispielsweise «cWrvqcgg7tiameqvtailbdcwuvlrlgkojvoesvy». Mehr Hacker
oder solche die E-Mail Adressen klauen?
Zusätzlich zu den krypischen finden sich auf dem Blog sehr viele «selbst gemachte» resp. programmierte UAs und auch Blog-SW, welche wiederum RSS einbinden. Hier in paar Müsterli:
ANONYMOUS
.NET+WebCrawler+(v0.1;+Test)
htdig/3.1.5+(root@localhost)
ie/5.0
LinkWalker
PulpFictionLite/1.2.1
W+Was+Here
WordPress/1.5.2+PHP/4.3.10
Und auch Webfountain beehrt uns: http://www.almaden.ibm.com/cs/crawler [rc1.wf.ibm.com] Als nächstes: Eigentlich logisch aber so schön sichtbar: Die RSS-Leser und -Syndikatoren, welche nur auf dem Blog erscheinen (das wir auf www kein RSS-Feed haben). Hier ein paar typische:
AppleSyndication/38
Bloglines/2.0
BlogPulse+(ISSpider-3.0)
FeedDemon/1.5+(http://www.bradsoft.com/;+Microsoft+Windows+XP)
NewsGatorOnline/2.0_(http://www.newsgator.com)
Syndic8/1.0_(http://www.syndic8.com/)
Technoratibot/0.7
Ein paar RSS-Crawler haben auf auf www.namics.com verirrt und die Liste ist natürlich viel länger.
Da ich bei www viel mehr Datenpunnkt habe ist klar: Sowohl die Vielfalt der Besucher wie auch die Bastelwut mit eigenen Crawlern ist auf demBlog viel grösser. Und wer sich noch mehr anschauen will hier die Dateien. Bewusst ohne Mengen bei den UAa (sort -u) damit die Dikussion über wer hat mehr nicht losbricht.
Die UAs von www.namics.com: [txt, 144k]
Die UAs von blog.namics.com: [txt, 88k]

2 Kommentare

Von Jürg Stuker
Digital sozialisiert, Denker, Macher und Angel Investor.