Digital sozialisiert, Denker, Macher und Angel Investor.

Klingelingeling, igittiigitt und Frei fand man nicht

K

Die Vermutung war richtig und die Korrektur schnell gemacht. Der Unterhaltungseffekt hallt aber nach.
In unserem Intranet findet sich sehr zentral eine Personensuche welche wiederum aus einem zentralen Personen- (und LDAP-)Verzeichnis, basierend auf Lotus Notes gespiesen wird.
Währenddem die Suche in einer frühen Version direkt auf einer Logik in Lotus Notes basierte stellten wir auf einen lokalen SQL-Server von Microsoft um. Und plötzlich fanden sich wenige Namen nicht mehr… so kannte das Verzeichnis „Patrick Frei“ bei einer Suche nach „Patrick“ aber nicht bei der einer Suche nach „Frei“.
i-d164a7f07946056fb829d31c347755a8-know-personensuche.png
Lustiges Fehlerraten? Bereits in der ersten Meldung im JIRA-Ticket (Vorteil von IT-Leuten an der Userfront) stand als Vermutung die Stoppwortliste des SQL-Servers drin. Stoppworte dienen bei der Informationssuche dazu, den Index um Begriffe zu erleichtern die sehr häufig auftreten, keinen semantischen Beitrag bei der Suche liefern und damit keine Relevanz für die Erfassung des Dokumentinhalts besitzen. Der Index wird je nach Grösse und Qualität der Stoppwortliste schnell man 30%-40% kleiner. Typische Stoppworte sind beispielsweise die Artikel der/die/das, einer/eine/ein oder Konjunktionen wie und/oder/doch.
Also auf die Jagd nach der Stoppwortliste des SQL-Servers welche bei der Erstellung eines Volltextindex genutzt wird. MS nennt die Stoppworte „Noise Words“ und so heisst auch die sprachspezifische Datei: noiseDEU.txt [txt, 150KB].
Darin gefunden haben wir auch „frei“, womit Patrick nun auch gefunden wird… Was wir aber auch noch drin gefunden haben belustigte unseren Chat noch ein paar Minuten. Hier ein paar zufällige Beispiele aus den über 1700 Einträgen (fast so gut wie die exotischen Telefonbucheinträge, ein paar Einträge sind nach über 2 Jahren nicht mehr aktuell):
– Milliarde, Milliarden, Billion, Billionen (Kunststück dass es Menschen braucht um Finanzskandale zu entdecken)
– eiapopeia
– elferlei
– gack
– haha, hahaha
– hatschi
– heda, hehe, hehehe, hei, heida
– holdrio
– hopp, hopphopp
– hopsala
– hopsasa
– igitt, igitte, igittiigitt
– juchhei, juchheirasa, juchheirassasa, juchheisa, juchheissa, juchheissa
– pfui
– piep
– piff
– platsch
– potz, potztausend
– u.s.w. (auch drin 😉

3 Kommentare

  • Danke für die furchtbare Stopwortliste. In der heutigen Zeit haben Stopworte als Performance-Enhancer meist keine Berechtigung mehr. Begründen kann man sie einzig noch mit Defiziten der Gewichtungsformeln. Hier gilt: weniger ist mehr. Ein Beispiel aus Okapi anno ca. ’92: «a, the, an, at, by, into, on, for, from, to, with, of, and, or, in, not, et». Grundsatz: Information NIE vernichten.

Digital sozialisiert, Denker, Macher und Angel Investor.