Digital sozialisiert, Denker, Macher und Angel Investor.

Der Weltwoche ist es gelungen, Googles geheime Suchformel auszutricksen

D

So lautet der Titel des Artikels in der Sonnntagszeitung gestern. Lächerlich oder traurig?
i-f8b0a3bd198e31b96d0a2ae27291f49c-sz_warum-rich-top-ist.png
Das Qualität des Artikels ist für mich traurig, denn Journalisten wie Michael Soukup (und damit verbunden die Zeitungen) müssten sich im Detail mit news.google auskennen… zumindest lästern sie und der Verband der Schweizer Presse gerne darüber und wollten es am liebsten verbieten. Orten sie doch in dem Dienst Gefahr für ihre Zunft.
Fehler eins: „Die Suchformel“. Was tut die Suchformel genau? Unzweifelhaft gibt es verschiedene Angebote von Google und mit Abstand am grössten ist die Websuche. Dort ist die Suchformel vor allem für die Rangierung der Trefferliste (die Relevanzgewichtung) zuständig. Wir befinden und hier aber auf news.google, wo „die Formel“ vor allem Gruppen gleicher Themen bildet also aus einer Vielzahl von News-Meldungen Cluster bildet und als Titel einer der Meldungen wählt. Die Auflistung auf dem Portal erfolgt dann nach Aktualität (Datum) resp. Popularität (Reichweite). Der heikle Teil „der Formel“ hier ist die Clusterbildung und weniger die Rangierung innerhalb eines Clusters.
Fehler zwei: Datum als Teil der Formel. Die Weltwoche ortet die Verschwörung darin, dass plötzlich alte Artikel als neu gezeigt werden. Ja, das ist ein Problem aber eher im Bereich des Maschinenraums geortet werden als dort, wo der Kopf eingeschaltet werden muss. Google sammelt täglich Millionen von Websiten zusammen welche in der Folge indexiert werden. Bei dem Prozess werden Meta-Daten (wie beispielsweise das Datum) für den späteren Such- (Rangierung) und Darstellungsprozess (Trefferliste) isoliert. Zur Datumserkennung gibt es einige Verfahren die gleichzeitig angewendet und gegeneinander abgewogen werden. Im Fall des genannten Artikels scheiterte die standardmässige Entitätenerkennung (Extraktion bekannter Muster in dem Fall Datumsformat), da auf dem Artikel selbst als im Text klar erkennbares Datum nur das heutige Datum steht. Die URL zeigt klar das Jahr 2007 und so auch ein Abschlusstext. Google interpretierte diese Angaben nicht resp. gewichtete das Datum oben auf der Seite höher… das haben sie nun für die Quelle Weltwoche korrigiert.
Feher drei: Wortwahl. In diesem Zusammenhang von einem „Systemfehler im Suchalgorithmus“ zu sprechen und den Fall mit dem Cloacking von BMW zu vergleichen ist wohl weit weg von seriöser Berichterstattung.
Ich würde als Journalist lieber meine Stärken gegenüber einer Maschine die eine News-Seite zusammenstellt spielen. Eine Verschwörung zu orten ist aber wohl fehl am Platz… Ich als Weltwoche hätte Google wohl auch nicht angerufen. Man könnte sich aber darüber streiten, ob das aktuelle Datum links oben bei den Archiv-Artikeln aus Lesersicht eine gute Wahl ist.
i-53dfcded9d6f93bf4219d0e51328fa07-weltwoche-geheimnis-marc-rich-thumb.png
Und überhaupt wird immer wieder von der grossen und geheimen Formel von Google gesprochen… die gibt es in der Form wie viele glauben gar nicht. Entscheidend sind die Gewichtungsparameter die sich ständig über Input-Parameter der Nutzung verändern… Die Grundformeln könnte Google wohl gar publizieren. Yahoo ist da offenherziger: https://stuker.com/2007/11/wer_ist_oben_am.html

8 Kommentare

  • Dem zweiten Punkt kann ich nicht ganz zustimmen, Jürg. Aus einer Angabe wie «20/2007» ein konkretes Datum zu machen ist nicht just leicht (Meta-Information «Wochenpublikation» wie und woher beziehen? Heft- immer gleich Wochennumer? Publikationstag?), und das «2007» könnte sich durchaus auf etwas Anderes beziehen als auf den Artikel. Klar, nimmt Google lieber das glasklare, standardisierte Datum – s. auch hier.
    Dass Webmaster sowas ausnützen könnten, liegt nahe, und die Faustregel ist, dass pro Google-Loophole mindestens 1’000 Webmaster und SEOs durchschlüpfen. In jedem Fall gleich Absicht zu unterstellen, ist aber selbstverständlich heikel.
    Was ich nicht verstehe: Wieso Google ein und demselben Artikel bei jedem Indizieren ein neues Datum zuweist. Das abzugleichen wäre im Gegensatz zum Datum sehr wohl möglich. Oder?

  • Hallo Lukas.
    Ja, da hast Du recht… Beim ersten Anschauen meinte ich, dass das Datum sprechender sei als die Heftnummer… der Leser wird also auch im Stich gelassen.
    Interessant ist zudem, dass der Server im Header kein Datum liefert. Zudem bietet sich die Seite nicht zum caching an (also kein if-modified). Die Weltwoche macht das kaum ohne Absicht.
    Sich das Datum beim ersten Download zu merken wäre möglich, ist aber auf Effizienzgründen (Scale Out Architektur von Google) ein Albtraum. Zudem müsste geprüft werden ob die URL die selbe Seite liefert (z.B. mit einem Hash) und da würde das Katz-und-Maus-Spiel gleich wieder beginnen.
    Na ja,, zum Glück gibt es neben dem Journalisten Leute die sich mit dem Internet beschäftigen…

  • Besten Dank für diese nüchterne Analyse. Dazu noch folgendes:
    – Nur damit wir uns über die Relationen im Klaren sind: Seit dem Relaunch haben unsere von news.google.ch vermittelte Visits den Bruchteil eines Prozents unseres Traffics ausgemacht. Sagt unser Google Analytics.
    – Kleine, aber signifikante Korrektur: Nicht wir haben Verschwörungstheorien gesponnen, sondern Michael Soukup von der SonntagsZeitung. Mit Google hatten wir erst Kontakt, nachdem diese Herrn Soukup ohne unser Wissen eine offizielle Stellungnahme zu dem Fall zugestellt hatten.

  • Guten Tag Herr Thut
    und danke für den Kommentar. Sehe ich aus so: Die SZ hat sich das vegriffen und nicht die Weltwoche.
    Ohne dass sich eine Antwort erwarte, würden mich die absoluten Referres der Google Volltestsuche und von Google News schon noch interessieren 😉
    Gewöhnungsbedürftig aus Lesersicht finde ich das aktuelle Datum und die Abwesenheit eines gut lesbaren Publikationsdatums (nicht alle Menschen denken in Ausgaben) bei einem Archivartikel schon. Klar angegeben ist die Publikation hingegen.

  • lieber herr stuker, dass sie gleich zum zweihänder greifen müssen… „lächerlich“, „traurig“ – ist das der umgangston, den man bei namics pflegt?
    ich bin einverstanden, dass „google“ und „google news“ nicht ganz das gleiche sind. da aber googles nachrichten-dienst die suchresultate nicht nur nach datum, sondern auch nach relevanz sortiert, muss die relevanzgewichtigung der websuchformel ebenfalls eine rolle spielen. in beiden fällen (datum wie relevanz) erschien der besagte weltwoche-artikel immer an erster stelle. und zwar vor artikeln auf 20min.ch, das eine ungleich höhere reichweite aufweist als weltwoche.ch.
    schreiben, was ist: tatsache ist, dass die weltwoche den google-dienst ausgetrickst hat. damit wurden sowohl die nutzer von google news wie auch die weltwoche-leser getäuscht. das ist keine bagatelle, wenn man weiss, welchen einfluss google news haben kann (siehe fall united airlines).
    unbeantwortet bleibt die frage, warum man bei den archivierten weltwoche-artikeln immer ganz nach unten scrollen muss, um das effektive publikationsdatum zu erfahren? über die motivation der weltwoche können wir nur mutmassen. in jedem fall haben wir der weltwoche das volle anhörungsrecht gewährt. eine standesethische regel, die die weltwoche nicht konsequent befolgt.
    ich wünsche ihnen alles gute für 2009

  • Guten Tag Herr Soukup.
    Der Zweihänder war das noch nicht. Und ich bin aber immer noch der Meinung, dass die Argumentation im Artikel sehr dünn ist. Publiziert in der grössten Schweizer Sonntagszeitung wird die Analyse zu einer gedruckten (geglaubten?) falschen Wahrheit. Das finde ich traurig. Lächerlich finde ich den Titel, denn es gibt sie nicht, *die* heraufbeschwörte geheime Formel und genackt hat auch niemand. Höchsten empirisch optimiert ;-). Wie ein anderer Leser bereits bemerkt hat, ist diese «Optimierung» in der Branche auch bekannt…
    Mit dem Begriff der Relevanzgewichtung würde ich vorsichtiger umgehen, da Relevanz nicht absolut, aber von vielen Kontextfaktoren abhängig ist (vgl.: https://stuker.com/2006/01/wissen_sie_auf.html). Im Fall von News-Artikeln greifen Suchmaschinen wohl eher in die Popularitäts- (als in die Relevanz-) Kiste. Dies wird ihnen dann als «unjournalisitsch» angelastet.
    Der Algorithmus gibt einem aktuellen (als aktuell vermuteten) Artikel ein sehr hohes Gewicht und misst auf der Trefferliste in der Folge, wie häufig dieser geklickt/gelesen wird. In Abhängigkeit dieser Häufigkeit bleibt er (relativ) oben oder wird von aktuelleren / häufiger geklickten Beiträgen verdrängt. Und da der erste Rang häufiger gelickt wird, so hat dessen Bestand die Eigenschaft einer «selbsterfüllenden Prophezeihung». In seinem Cluster, welcher sie über einen raren (deutschen) Suchterm evtentuell selten erneuert wird, gewann die Weltwoche wegen dem «Neu-Bonus» wiederholt. Ein bei Feedbacksystemen häufiges beobachtetes Problem.
    Dass dies durchaus Absicht ist, habe ich bei meiner Replik an Herrn Thut auch geschrieben… oder eben gut gemacht. Er sagt jedoch, dass der damit generierte Trafic im einstelligen Prozentbereich ist (mich würden absolute Zahlen interessieren).
    Und ja, mit dem auch Lesersicht faktisch unlesbarem und kaum interpertierbaren Datum geben ich ihnen Recht. Da gibt es für menschliche Leser bessere Lösungen.
    Danke für Ihren Kommentar und auch ihnen ein gutes neuen Jahr.

Von Jürg Stuker
Digital sozialisiert, Denker, Macher und Angel Investor.