WDF * IDF

Vorwort: Wieso sind Suchsysteme und deren Verständnis relevant?

Suchsysteme helfen den Nutzern, sich im Internet zurecht zu finden. Sie bieten einen einfachen Zugang zu relevanten Webseiten und werden mittlerweile von 18 Millionen Internetnutzern in Deutschland täglich und weiteren 22,36 Mio. wöchentlich zur Informationssuche eingesetzt [1]. Stefan Schulz fasst den Nutzen treffend zusammen: „Suchmaschinen machen Informationen einfach handhabbar.“ [2] Bei der Wahl der Suchmaschine sind sich die Deutschen laut Schulz einig: „Egal wie alt und gebildet Menschen sind, sie verwenden nur eine Suchmaschine – Google. Fünf Milliarden Suchen verarbeitet das Unternehmen inzwischen täglich.“ [3]

Die Anzahl der an Google gestellten Suchanfragen (mit Ausnahme des Jahres 2014) steigt weltweit immer weiter an.  So ist es nicht verwunderlich, dass auch kommerzielle Anbieter, wie zum Beispiel E-Commerce Unternehmen, Verlage oder auch TV-Sender, längst die Bedeutung der Suchmaschinen als Traffic-Kanal erkannt und in ihre Marketing-Aktivitäten einbezogen haben.

Relevanz von WDF * IDF innerhalb von Suchsystemen

Karen Spärck Jones veröffentlichte bereits 1972 im Journal of Documentation einen Artikel mit dem “A statistical interpretation of term specificity and its application in retrieval”, indem die Spezifität eines Terms erstmals berechenbar beschrieben und später als inverse Dokumentenfrequenz bekannt wurde.[4] Diese Methode basiert darauf, die Anzahl aller Dokumente zu zählen, in denen das jeweilige Wort vorkommt. Die Denkweise war wie folgt: Ein Wort aus einer Suchanfrage, das in sehr vielen Dokumenten vorkommt, ist kein geeigneter Diskriminierer und sollte daher weniger stark im Vergleich zu einem Wort gewichtet werden, das in sehr wenigen Dokumenten vorkommt.

Kombiniert mit der Termfrequenz, also der Häufigkeit eines Begriffs im jeweiligen Dokument (je mehr, desto besser), hat es die inverse Dokumentenfrequenz in nahezu jeden Wortgewichtungs-Algorithmus gefunden. Die Klasse dieser Gewichtungs-Algorithmen, die generell mit WDF * IDF engl. TF*IDF bezeichnet werden (hierbei wird das IDF-Maß mit dem WDF-Maß multipliziert), haben sich als überaus robust und schwer zu schlagen erwiesen, sogar durch wesentlich ausgefeiltere Methoden und Theorien.[5]

Um die Gewichtung eines Terms in einem Dokument innerhalb eines Information Retrieval Systems zu ermitteln, wird dessen Häufigkeit also in Relation zur Häufigkeit dieses Begriffes in allen anderen Dokumenten im Index gesetzt.[6]

Quellen