Digital sozialisiert, Denker, Macher und Angel Investor.

KategorieInformation Retrieval

Wer ist oben (am Beispiel des Rankings von Yahoo)?

W

Die Position der Treffer in der organischen Rangliste einer Suchmaschine ist nicht nur ein sehr schwieriges Problem (und nur in Näherung zu lösen), aber auch ein sehr emotionales Thema von Wissenden und Halbwissenden (häufig emotional) «diskutiert». Oder noch einfacher die Frage: Welche Einfluss hat mein Google Page Rank (genau) auf meine Ranglistenposition. Die Antwort wird zur Zeit...

Bei der Enterprise Suche wurde es grad spannend

B

Microsoft hat immer davon gesprochen, jetzt haben sie wirklich was Gutes auf den Tisch gelegt. Hut ab: Microsoft Search Server 2008. Ein als eigenes Produkt verpacktes Enterprise Search Produkt, welches technisch auf Sharepoint (WSS und .Net) basiert, sich aber standalone installieren lässt. Bevor ich nun 1’000 Sachen erzähle ein paar die ich ziemlich cool finde: – Das leistungsfähige...

Enterprise Search: Microsoft versus Google [Umfrage]

E

Am Mittwoch, 28. November 2007 zwischen 14 – 17.30 Uhr organisieren wir einen 1:1 Vergleich der Suchtechnologie für Firmen von Microsoft (die heute S2 offiziell angekündigt haben) und Google. Dafür könnten wir von beiden Firmen je einen Techie (No Marketing-Brup) gewinnen, der bereit ist die Lösungen live zu zeigen und so zu vergleichen. >> Wer kommen will, kann hier hier anmelden: Google...

Ist die neue Suchfunktion besser als die alte?

I

Es gibt verschiedene Search Analytics Kennzahlen, von denen ich schon über einige berichtet habe. Interessant ist das Beispiel von Jan Pedersen von Yahoo, welches er im Rahmen der Vorlesung «Search Engines: Technology, Society, and Business» organisiert von Marti Hearst an der UC Berkeley gezeigt hat. Yahoo nimmt die Suchsessions, bei denen mindestens ein Link auf der Trefferliste...

Und die Diskussion beginnt (Autonomy vs Google)

U

Auf dem Google Blog schreibt Matthew Glotzbach (Product Management Director, Google Enterprise) über ein Whitepaper von Autonomy, welches von Google handelt. Titel: Don’t believe everything you read. Darin wiederlegt er Falschaussagen die Autonomy über die Google Search Appliance macht. Und Glotzbach hat recht… Wir haben die Technologie bei Kunden schon sehr oft eingesetzt und im...

Look at the Data (not at the Shirt)

L

Im Rahmen des Google Developer Day sprach Peter Norvig über «Theorizing from Data». Dabei geht es im Kern um einen alten Streit zwischen Linguisten und Statistiker, der Norvig sehr elegant zu Gunsten der Statistiker entscheidet: «If you don’t have the data, you don’t do progress». Nach einer Einführung, weshalb der bei Google arbeitet («because that’s...

Fremde E-Mails lesen

F

Natürlich aus rein wissenschaftlichem Interesse. Im Rahmen der Enron Untersuchung in den USA wurden von der Federal Energy Regulatory Commission 619’446 E-Mail Nachrichten von 158 Usern (meist Kadermitarbeiter) öffentlich publiziert. Diesen Korpus gibt es bei der Carnegie Mellon Universität zum Download und ist ein guter Grund, seine privaten E-Mails nicht übers Geschäft zu...

Search Analytics – Kennzahlen um den Index (Teil 3)

S

Letzter Teil einer Serie über Kennzahlen der Suche. Ziel ist es, die Qualität der (Volltext)suche zu messen und somit faktenbasiert zu verbessern. Also keine emotionalen Diskussionen darüber, wie die Trefferliste rangiert (…das ist sowieso subjektiv…), aber eine Messung. Die Serie ist Teil der Der online Erfolgsmessung: Web Analytics und unserer Arbeiten zur Informationssuche...

Worttrennung und Editierabstand = Unterhaltung

W

Wissenschaftlich fundiert und auch einfach erklärt, doch deutlich spannender ist der Unterhaltungswert. Rechtschreibeprüfungen nutzen unter anderem die Worttrennung (Decompounding) und der Editierabstand (Levenstein distance) um ähnliche Schreibweisen als Korrekturvorschläge zu machen. Im folgenden Beispiel (Microsoft Word 2003 mit Schweizer(deutsches) Wörterbuch hält der Algorithmus alles vor...

Search Analytics – Kennzahlen um die Trefferliste (Teil 2)

S

Nach einem ersten Teil «Search Analytics – Kennzahlen um die Query», hier der zweite Streich. Ziel ist es weiterhin die Effektivität der Suche («Suchmaschine») faktenbasiert zu verbessern. Also nicht ein Zaub(d)erer, der mit viel warmer Luft erklärt was zu tun ist, niemand ihm folgen kann und nach der Änderung immer noch alle unglücklich sind aber: Zahlen. Das ganze ist...

Digital sozialisiert, Denker, Macher und Angel Investor.