Digital sozialisiert, Denker, Macher und Angel Investor.

Search Analytics – Kennzahlen um den Index (Teil 3)

S

Letzter Teil einer Serie über Kennzahlen der Suche. Ziel ist es, die Qualität der (Volltext)suche zu messen und somit faktenbasiert zu verbessern. Also keine emotionalen Diskussionen darüber, wie die Trefferliste rangiert (…das ist sowieso subjektiv…), aber eine Messung. Die Serie ist Teil der Der online Erfolgsmessung: Web Analytics und unserer Arbeiten zur Informationssuche allgemein: Information Retrieval. Die zwei Posts bis jetzt:
> Kennzahlen um die Trefferliste
> Kennzahlen um die Query
Und nun der Index. Der Index ist die (technische) Datenstruktur, welche die auffindbaren Elemente enthält. Wichtige Aspekte sind dessen Vollständigkeit (sind alle gewünschten Elemente darin verfügbar?), die Aktualität (ist der Index synchron mit den originären Datenquellen?) und dessen Mächtigkeit (welche Funktionen bietet der Index an wie beispielsweise die Suche nach Phrasen oder die Evaluation von Wortabständen?). Aber bei der Suchanalyse bitte nur das messen, was wirklich auch angepackt d.h. verändert wird. Daher schlage ich nur eine Kennzahlen vor:
1) Anzahl suchbare Elemente.
zu 1) Sie wissen wie viele Seiten ihr Angebot hat. Stimmt diese Zahl mit dem Suchindex überein? Einfach, aber einige Fragen gilt es zu klären so wie: Gibt es unterschiedliche Ansichten des selben Inhaltes beispielsweise eine Druckansicht jeder Seite? In die Suche gehört nur eine der Repräsentationen (da es sich bei der anderen faktisch um ein Duplikat handelt). Oder: Wie werden Seiten gehandhabt, welche mehrere binäre Dokumente «drauf haben» (insb. PDF)? Normalerweise gibt es pro PDF einen Indexeintrag (konvertiert nach HTML , mit einer eigenen URL) und zudem noch einen Eintrag für die Verteilerseite selbst, da dort hoffentlich auch ein paar nützliche Informationen untergebracht sind.
Wenn die Kennzahl plötzlich sinkt? Es mag einen echten Grund geben, so beispielsweise wurden Seiten der Präsenz deaktiviert und gehören somit raus aus dem Index. Häufiger sind aber Berechtigungsprobleme weil plötzlich etwas in der Konfiguration geändert wurde oder andere technische Probleme wie die Erreichbarkeit einer der Quellen o.ä. Oder auch sehr beliebt Template-/HTML-Änderungen nach denen der Crawler die Links nicht mehr erkennt (JavaScript und Flash lässt grüssen).
Wenn die Kennzahl plötzlich steigt? Klar: Sie haben neue Inhalte publiziert 😉 Auch beliebt sind sogenannte «Crawler-Traps» d.h. der Crawler indexiert denselben Inhalt mehrfach oder gar endlos. Grund sind meist technische Änderungen insb. an der ULR (z.B. Session IDs) oder an der Serverkonfiguration.
Somit wünsche ich Ihnen alle Verbesserungen bei Ihrer Suche. Es lohnt sich die Zahlen anzukucken!
PS: Dieser Post ist Teil der dreiteiligen Serie Search Analytics.

2 Kommentare

Digital sozialisiert, Denker, Macher und Angel Investor.