Digital sozialisiert, Denker, Macher und Angel Investor.

Wer ist oben (am Beispiel des Rankings von Yahoo)?

W

Die Position der Treffer in der organischen Rangliste einer Suchmaschine ist nicht nur ein sehr schwieriges Problem (und nur in Näherung zu lösen), aber auch ein sehr emotionales Thema von Wissenden und Halbwissenden (häufig emotional) «diskutiert».
Oder noch einfacher die Frage: Welche Einfluss hat mein Google Page Rank (genau) auf meine Ranglistenposition. Die Antwort wird zur Zeit, da Google grad wieder mal als Blogposts getarnte Werbung bestraft, besonders emotional diskutiert. Die Antwort heisst meist: Es werden über hundert Faktoren berücksichtigt…
Erstaunlich offen war Dr. Jan Pedersen (Chief Scientist for the Search and Marketplace Division of Yahoo!) an einem Vortrag an der Uni Berkeley. Dort erklärte er 14 nach Wichtigkeit rangierte Faktoren zur Berechnung des Rangs in der Trefferliste bei Yahoo inkl. eine Entscheidungsbaum mit einigen Gewichtungsfaktoren (ermittelt über maschinelles Lernen). PageRank (bei Yahoo heisst das Analog Eigenrank) ist dabei «nur» an Stelle 7.
Die Faktoren (nach Wichtigkeit):
> A0 – A4: anchor text score per term. In wie vielen eingehenden Links (Anker) findet sich der Suchterm resp. die Suchterme 1-4.
> W0 – W4: term weights. Wie häufig/selten ist der Suchterm in der gesamten Kollektion.
> L0 – L4: first occurrence location (encodes hostname and title match). Wie weit oben ist der Suchterm im Dokument inkl. Domänenname/URL und HTML Seitentitel.
> SP: spam index: logistic regression of 85 spam filter variables (against relevance scores). Wie wahrscheinlich ist es, dass es sich beim Dokument um Spam handelt?
> F0 – F4: term occurrence frequency within document. Termhäufigkeit im Dokument.
> DCLN: document length (tokens). Anzahl ausgewertete Suchterme (Tokens) im Dokument.
> ER: Eigenrank. Popularitätsindex, berechnet über externe Verlinkung (PageRank-Analog).
> HB: Extra-host unique inlink count. Anzahl unterschiedliche Hosts mit Inlinks.
> ERHB: ER*HB
> A0W0 etc.: A0*W0
> QA: Site factor – logistic regression of 5 site link and url count ratios
> SPN: Proximity. Qualität der Nachbarschaft des Dokumentes bzgl. verlinkender Sites.
> FF: family friendly rating. Yahoo Rating bezgl. Familientauglichkeit des Dokumentes.
> UD: url depth. Klickpfadlänge der kürzestens Pfades ab Home innerhalb der Site.
Und hier noch der Entscheidungsbaum:
i-ebec26e6af003454f1fbb003d35c6d5e-yahoo-ranking-entscheidungsbaum.png
In kurz: Qualität des Inhaltes (Terme), Platzierung im Dokument die sog. Auffälligkeit und die Qualität der Verlinkung sind massiv wichtig. Oder in kurz: Guter Inhalt wird gut gewichtet.
Danke Jan Pedersen für diesen Einblick!

kommentieren

Von Jürg Stuker
Digital sozialisiert, Denker, Macher und Angel Investor.