WDF * IDF bzw. TF * IDF – Was ist das und wie hilft es im SEO?

Vorwort: Wieso sind Suchsysteme und deren Verständnis relevant?

Suchsysteme helfen den Nutzern, sich im Internet zurecht zu finden. Sie bieten einen einfachen Zugang zu relevanten Webseiten und werden mittlerweile von 18 Millionen Internetnutzern in Deutschland täglich und weiteren 22,36 Mio. wöchentlich zur Informationssuche eingesetzt [1]. Stefan Schulz fasst den Nutzen treffend zusammen: „Suchmaschinen machen Informationen einfach handhabbar.“ [2] Bei der Wahl der Suchmaschine sind sich die Deutschen laut Schulz einig: „Egal wie alt und gebildet Menschen sind, sie verwenden nur eine Suchmaschine – Google. Fünf Milliarden Suchen verarbeitet das Unternehmen inzwischen täglich.“ [3]

Die Anzahl der an Google gestellten Suchanfragen (mit Ausnahme des Jahres 2014) steigt weltweit immer weiter an.  So ist es nicht verwunderlich, dass auch kommerzielle Anbieter, wie zum Beispiel E-Commerce Unternehmen, Verlage oder auch TV-Sender, längst die Bedeutung der Suchmaschinen als Traffic-Kanal erkannt und in ihre Marketing-Aktivitäten einbezogen haben.

Relevanz von WDF * IDF innerhalb von Suchsystemen

Karen Spärck Jones veröffentlichte bereits 1972 im Journal of Documentation einen Artikel mit dem “A statistical interpretation of term specificity and its application in retrieval”, indem die Spezifität eines Terms erstmals berechenbar beschrieben und später als inverse Dokumentenfrequenz bekannt wurde.[4] Diese Methode basiert darauf, die Anzahl aller Dokumente zu zählen, in denen das jeweilige Wort vorkommt. Die Denkweise war wie folgt: Ein Wort aus einer Suchanfrage, das in sehr vielen Dokumenten vorkommt, ist kein geeigneter Diskriminierer und sollte daher weniger stark im Vergleich zu einem Wort gewichtet werden, das in sehr wenigen Dokumenten vorkommt.

Kombiniert mit der Termfrequenz, also der Häufigkeit eines Begriffs im jeweiligen Dokument (je mehr, desto besser), hat es die inverse Dokumentenfrequenz in nahezu jeden Wortgewichtungs-Algorithmus gefunden. Die Klasse dieser Gewichtungs-Algorithmen, die generell mit WDF * IDF engl. TF*IDF bezeichnet werden (hierbei wird das IDF-Maß mit dem WDF-Maß multipliziert), haben sich als überaus robust und schwer zu schlagen erwiesen, sogar durch wesentlich ausgefeiltere Methoden und Theorien.[5]

Um die Gewichtung eines Terms in einem Dokument innerhalb eines Information Retrieval Systems zu ermitteln, wird dessen Häufigkeit also in Relation zur Häufigkeit dieses Begriffes in allen anderen Dokumenten im Index gesetzt.[6]

Praxisbeispiel: Wieso hilft TF * IDF bzw. WDF * IDF im SEO?

Selbst wenn Google selbst mittlerweile fortgeschrittenere Algorithmen einsetzt, findet man in einem guten TF * IDF Tool dennoch relevante Inhaltslücken, also Themen und Aspekte, die man in seinem Text noch ergänzen sollte. Beispielsweise hatte ich anfangs in meinem Artikel zu WordPress Hostings die Firmen webgo, strato und alfahosting nicht erwähnt, was mir ZU RECHT direkt von TermLabs um die Ohren gehauen wurde:

Gutes TF IDF Tool

Diese als missing hervorgehobenen Begriffe stehen sinnbildlich für wichtige Themen, die der Leser in einem relevanten Dokument erwarten würde. Genau dafür ist ein gutes TF-IDF-Tool Gold wert!

Mit einem kostenlosen Tool kommt dagegen nur Schwachsinn bei raus:

wdf-idf-muell-Tool

Alleine die beiden Wörter ‚domain‘ und ‚domains‘ als zwei Terme zu behandeln ist sowas von einfältig und falschlich einfach falsch. Suchmaschinen führen mittels Stemming alle Terme auf ihre Grundfunktion, also ihren Wortstamm zurück (Reduktion) und analysieren erst danach statistische Zusammenhänge.

Quellen

Diese Seite verwendet Cookies. Bitte stimmen Sie der Verwendung zu, in dem Sie auf 'Akzeptieren' klicken.