Digital sozialisiert, Denker, Macher und Angel Investor.

PageRank und wie weiter?

P

Wollte es schon immer erzählen, hatte es vergessen und bin nun beim einem Lasttest (mit einem tollen Tool: Proxy Sniffer) wieder darüber gestolpert…
Bevor es Google gab, bewerteten Internet-Suchmaschinen die Relevanz eines Dokumentes (=Webseite) zu einem Suchbegriff nach Inhaltskriterien. D.h. Worte werden aus den Dokumenten extrahiert und nach ihrer Auffälligkeit gewichtet. Auffällig ist beispielsweise das Vorkommen des Wortes in der URL oder im HTML-Titel und Worte in H1 Tags sind auffälliger als solche in H2, Text weiter oben auf der Seite ist auffälliger als unten u.s.w. Das Ganze noch mit der relativen Häufigkeit des Wortes in allen Dokumenten multipliziert (Dichte) ergibt einen Wert zur Rangierung (Tf-idf: Term Document Frequency and Inverse Document Frequency). Das führte zu Suchmaschinespamming mit weissen Worte auf weissem Grund u.s.w. Hauptnachteil dass sich der Rang durch den Anbieter des Dokumentes beeinflussen liess.
Dann kam Google und bediente sich dem System des Reputation wissenschaftlicher Papers: Je häufiger ein Paper zitiert wird, desto wichtiger ist es. Hauptunterschied: Die Wichtigkeit wir nicht duch das Dokument selbst aber durch eingehende Links bestimmt kann damit durch den Anbeiter schlechter beeinflussen werden. Das System heisst PageRank, lässt sich auch auch durch einen Zufallssurfer beschreiben und die Grundsätze sind in diesem Paper von Brin und Page gut beschrieben: The Anatomy of a Large-Scale Hypertextual Web Search Engine (1998).
Doch nun können findige Leute in der Zwischenzeit auch dieses System ziemlich gut beeinflussen (spammen). Wie weiter?
Kennen die die Google Toolbar, ein Browser Helper von Google für den Internet Explorer und Firefox? Das Ding liefert in der Standardkonfiguration jede besuchte Website an Google zurück! Hier zwei «Lieferungen» als ich auf www.namics.com surfte (Packet 14 und 16):
i-f5692c345209cf7ee49480008085fa06-g_toolbar_ps-thumb.gif
In Packet 14 ist der folgende Request drin:

1. GET /search?client=navclient-auto&googleip=O;171&
ch=62093974834&freshness_check=4PJ1Y5d_nGlce0FySaH3F&
iqrn=UNtC&orig=0gS9s&ie=UTF-8&oe=UTF-8&features=Rank&
q=info:http%3A%2F%2Fwww%2Enamics%2Ecom%2Fwissen%2Ehtml HTTP/1.0

2. Cookie mit Sessiondaten und Sprachkennung

Kein Urteil über gut und schlecht, aber Google sammelt damit Information von realen Surfern und kann somit den PageRank aufgrund von (dynamischer) Nutzung und nicht nur von (statischer) Verlinkung berechnen. Dieselben Informationen liefern auch der Google Deskbar und andere Tools.
So richtig gut wird es dann mit dem personalisierten Google, wobei sogar meine persönliche Bedürfnisse mit ausgewertet werden können.
i-b493bcbbc2bd39d74668698fc5fbda79-g_search_history-thumb.gif
Ganz schön schlau und wegen der vielen Informationen möglicherweise auch gefährlich.

5 Kommentare

  • «Das Ding liefert in der Standardkonfiguration jede besuchte Website an Google zurück!»
    Wenn ich mich nicht taeusche, kann man das in den Options des Toolbars abstellen und mindestens vor einiger Zeit war der Default der PageRank-Anzeige auf «off» und man wurde beim einschalten auf Privacy-Issues hingewiesen. Bin nicht sicher, ob das immer noch so ist.
    Und schliesslich – der PageRank-Meter des Toolbars schickt einen HTTP-Request zu Google, um den PageRank rauszufinden. Da muss er ja wohl die URL mitschicken, sonst geht das ja nicht. Und dass die das loggen ist ja klar, oder? Ihr loggt doch sicher auch jeden Zugriff auf die Website, schliesslich will man doch wissen und auswerten, was die User treiben, nicht wahr?

  • Ob es wirklich ratsam ist, seine besuchten Seiten bei Google zu speichern.
    Waere es nicht Google so hiesse diese Funktion Spyware.

  • Für den Nutzer nennt sich das ganze Surfcomfort und Google bekommt im gegenzug Daten die heut zu tage bedeutender sind als irgendwelche Marktforschungen oder ähnliches.

  • Der PageRank-Algorithmus ist ein Verfahren, eine Menge verlinkter Dokumente, wie beispielsweise das World Wide Web, anhand ihrer Struktur zu bewerten bzw. zu gewichten. Dabei wird jedem Element ein Gewicht, der PageRank, aufgrund der Verlinkungsstruktur zugeordnet. Der Algorithmus wurde von Larry Page (daher der Name PageRank) und Sergey Brin an der Stanford University entwickelt und von dieser patentiert[1]. Er diente Google, dem von Brin und Page gegründeten Unternehmen, als Grundlage für die Bewertung von Seiten.
    Das Grundprinzip lautet: Je mehr Links auf eine Seite verweisen, umso höher ist das Gewicht dieser Seite. Je höher das Gewicht der verweisenden Seiten ist, desto größer ist der Effekt. Der PageRank-Algorithmus bildet einen zufällig durch das Netz surfenden User nach. Die Wahrscheinlichkeit, mit der dieser auf eine Webseite stößt, korreliert mit dem PageRank.
    http://www.bevtec.ch

Digital sozialisiert, Denker, Macher und Angel Investor.