Digital sozialisiert, Denker, Macher und Angel Investor.

Web Statistik: Begriffe, Kennzahlen und Lügen (aka Web Analytics oder Online Business Intelligence) – Teil 1 von 3

W

Erfolgsmessung für Webanwendungen resp. für Kampagnen im Internet ist sehr effizient und auch wichtig. Bei uns ist dies Teil von fast allen Projekten und heisst dann Web Analytics oder Online Business Intelligence.
Gründe für den Posts: Heute sagt Daniel Rico in einem Interview er habe 100′000 Hits im Monat und seit deshalb erfolgreich. Oder vor ein paar Tagen bekam eine Gruppe Blogger die Anfrage „Wie häufig wird dein Blog heute schon frequentiert (Visits, Page Impressions)?“ und alle mischelten nichtssagend andere Zahlen zusammen. Oder bei einem Kunden brach von einem Tag auf den anderen (der mit Webtrend serverseitig gemessene Traffic) um mehr als den Faktor 10 zusammen… was geschah da wohl?
Teil 1: Begriffe und deren Probleme
Sicherlich gibt es noch 314’159’265 Begriffe mehr, doch hier mal die häufigsten
i-1fa9a9da700791d945c55f1ef12bf139-analytic_suspects.gif
>> Eine „Page View“ (PV) ist eine Seitenansicht. Also eine im Browser vollständig geladene und durch den User „nutzbare“ Seite. Der Begriff ist Synonym mit Page Impression (PI) oder Impression. Das kleine Geheimnis ist wohl, dass technisch gesehen ein PV weder garantiert dass die Seite auch visuell dargestellt wurde (geredendert wurde), noch dass der User genügend Zeit hatte die Seite auch zu lesen und mit dieser zu interagieren. So ist ein Redirect (automatische Weiterleitung) auch ein PV, aber ein nutzloser. Nicht allzu selten klicken User auch auf den Backbutton, weil sie gar nicht auf die Seite wollten; der PV ist aber schon gezählt… Das erleben wir, wenn wir die für Kunden erstellten Statistiken zur Prüfung mit den von Werbeschaltern gemeldeten Zahlen vergleichen. Heikel sind PV-Messung insb. auch bei einem HTML Frameset, da meist jeder Frame als PV gezählt wird.
>> Ein Unique Visit ist ein einmaliger Besuch. Da das Kommunikationsprotokoll zwischen Browser und Webserver bewusst zustandslos ausgestaltet wurde (d.h. jeder Klick könnte auch Serversicht auch ein neuer User sein), ist es technisch nur möglich, einen einzelnen Besuch zeitlich abzugrenzen. D.h. ein Unique Visit ist korrekterweise ein User am selben Computer, der mit demselben Browser mehrere Klicks gemacht hat die nicht mehr als x Minuten auseinander liegen (typischerweise 20 oder 30 Minuten). Wechsle ich den Computer, lösche ich die Cookies oder tue ich 21 Minuten (etc.) etwas anderes, so zählt es zwei Visits u.s.w.
>> Beim Unique Visitor, dem eineindeutigen User, wird es noch schwieriger. Korrekterweise heisst es: Ein User am selben Computer mit demselben Browser (weil dieser die Cookies speichert), der weder die IP-Adresse wechselt (je nach Messart) und der die Cookies in der Zwischenzeit nicht löscht. Aber einfache Definitionen sind halt lustiger. Wenn ich beispielsweise noch auf dem Handy browse, so bin ich real ein Unique Visitor (immer noch Jürg), aber in der Statistik zähle ich doppelt. Bei mir ist das noch mehrfach schlimm, da ich an und an mehrere Computer und Browser im Minutentakt nutze… aber ich bin ja kein normaler User — Sie schon? 😉
>> Die Session, ein Besuchprozess einer Website, ist nun eine rein zeitliche Abgrenzung und macht keine inhaltliche Aussage. Also wieder die 20 oder 30 Minuten und auch hier darf ich weder die IP-Adresse wechseln (je nach Messart), noch die Cookies löschen. Technisch wird je nach Messverfahren korrekterweise auch von einer Pseudosession gesprochen… Darunter wird die Kombination IP-Adresse und Port (der sog. Socket) verstanden: Da diese Kombination pro einzelnen Aufruf gemäss Kommunikationsprotokoll eindeutig ist kann damit unabhängig eines Cookies eine Session gezählt werden. Die zeitliche Demarkation und die Annahme dass ich die IP-Adresse oder der Browser nicht ändert bleibt. Reales Verhakten hin oder her.
>> Und nun zum „lieben“ Hit, der aus der Sicht der Erfolgsmessung nichts aussagt. Eine Website besteht technisch aus mehreren Elementen. Eine durch den ersten Aufruf / Klick geladenen HTML-Code ( „base page request“)vom Server gelieferten HTML-Grundseite (base page). Darin finden sich Referenzen auf weitere Elemente so wie beispielsweise Graphiken (gif, png, jps u.a.), CSS-Sytlesheet(s) und möglicherweise Java Script-Bibliotheken. Je nachdem wie eine Seite codiert ist können das mehrere Dutzend Elemente sein. Ältere Seiten haben in der Tendenz mehr Elemente („page elements“). Je nach Codierung, Einstellungen vom Browser / Server (caching), Typ des Browsers und von Aktivkomponenten auf dem Transportweg (z.B. Proxy) werden die Seitenelemente geladen oder halt nicht… Die Zahl Hits macht somit eine Aussage über die Belastung des Servers und ist von sehr vielen Sachen beeinflusst. Insb. auch die Art der Codierung mit AJAX (asynchrones Nachladen von Seitenelementen) verändert das Hit-Verhalten stark.
So und nun wird der Post zu lang. In der Folge spreche ich noch von geeignete Erfolgskennzahlen (Teil 2) sowie von den Lügen (Teil 3).

9 Kommentare

Von Jürg Stuker
Digital sozialisiert, Denker, Macher und Angel Investor.