Was macht eine Suchmaschine wie Google den ganzen Tag (von ganz weit weg)?
1) Daten, die später durchsuchbar sind im Internet sammeln: Das so genannte Crawling oder Spidering.
2) Diese Daten in eine technische Form bringen, damit der Zugriff auf Stichworte rasch und effizient erfolgen kann: Indexierung.
3) Benutzeranfragen gegen den in 2) erstellten Index auswerten d.h. die zum Suchbegriff zutreffenden Dokumente (Webseiten) finden.
4) Die in 3) gefundenen Treffer in eine Reihenfolge bringen (welches Dokument ist zuoberst wenn der Nutzer Läufer eingibt).
So richtig schwierig ist nur die 4. Aufgabe doch kurz eine Bemerkung zu 1. Auch wenn die 8 Mia. Seiten, welche Google anbietet nach abschliessend viel aussieht, wird nur das sogenannte “Surface Web” d.h. Seiten die ohne Passworte technisch einfach zugänglich sind (z.B. nicht durch Formulare vor Suchmaschinen versteckt). Der Rest des Internets ist das sogenannte “Deep Web” und hier setzt ein erster öffentlicher Dienst an: Yahoo Subscriptions. Damit werden durch Passworte geschützte Quellen gefunden (z.B. Financial Times) die ich dann nur mit einem entsprechenden Login konsumieren kann.
Und nun zur schwierigen Aufgabe, zum Ranking. Die Rangierung der Trefferliste hängt immer von Kontext des einzelnen Benutzers ab. So sucht ein Schachfan beim Begriff “schwarzer Läufer” etwas anderes als ein Nutzer, der die Person sucht, welche 1936 den 100 Meter-Lauf in Berlin gewann (Jesse Owens). Das Wort Läufer hat übrigens noch ein paar Dutzend Bedeutung…
Zwei aktuelle Ansätze mit dem Ziel das Ranking dem Nutzer anzupassen, respektive die Qualität der Grunddaten zu verbessern (Suchmaschinen-Spam zu eliminieren).
Bei Google Personalized Search (Beta) werden vergangene Suchanfragen des einzelnen Users und die in der trefferliste geklickten Links (Relevanzfeedback) gespeichert und bei zukünftigen Suchanfragen berücksichtigt. So werden spezifische Nutzerthemen stärker gewichtet. Mehr Informationen dazu bei Google.
Spannender ist Yahoo My Web (Beta), eine “Social Search Engine“. Darin habe ich eine Bookmarkmanager in welchem ich meinen Browser-Bookmarks Tags vergeben und gleichzeitig ein Netzwerk mit mir bekannten Personen, welche auch so eine Liste führen, aufbauen kann. Somit kann Yahoo nun in “meinen” Seiten suchen, meine Seiten als Grundlage für meine Bedürfnisse bei einer Suchanfrage analysieren, meine Tags bei der Suche mitauswerten, meinen Freundeskreis in die Suche einbeziehen etc.
Es bleibt spannend.
Wie werden Resultate von Suchmaschinen besser?
W