WDF * IDF bzw. TF * IDF – Was ist das und wie hilft es im SEO?

Vorwort: Wieso sind Suchsysteme und deren Verständnis relevant?

Suchsysteme helfen den Nutzern, sich im Internet zurecht zu finden. Sie bieten einen einfachen Zugang zu relevanten Webseiten und werden mittlerweile von 18 Millionen Internetnutzern in Deutschland täglich und weiteren 22,36 Mio. wöchentlich zur Informationssuche eingesetzt [1]. Stefan Schulz fasst den Nutzen treffend zusammen: „Suchmaschinen machen Informationen einfach handhabbar.“ [2] Bei der Wahl der Suchmaschine sind sich die Deutschen laut Schulz einig: „Egal wie alt und gebildet Menschen sind, sie verwenden nur eine Suchmaschine – Google. Fünf Milliarden Suchen verarbeitet das Unternehmen inzwischen täglich.“ [3]

Die Anzahl der an Google gestellten Suchanfragen (mit Ausnahme des Jahres 2014) steigt weltweit immer weiter an.  So ist es nicht verwunderlich, dass auch kommerzielle Anbieter, wie zum Beispiel E-Commerce Unternehmen, Verlage oder auch TV-Sender, längst die Bedeutung der Suchmaschinen als Traffic-Kanal erkannt und in ihre Marketing-Aktivitäten einbezogen haben.

Relevanz von WDF * IDF innerhalb von Suchsystemen

Karen Spärck Jones veröffentlichte bereits 1972 im Journal of Documentation einen Artikel mit dem “A statistical interpretation of term specificity and its application in retrieval”, indem die Spezifität eines Terms erstmals berechenbar beschrieben und später als inverse Dokumentenfrequenz bekannt wurde.[4] Diese Methode basiert darauf, die Anzahl aller Dokumente zu zählen, in denen das jeweilige Wort vorkommt. Die Denkweise war wie folgt: Ein Wort aus einer Suchanfrage, das in sehr vielen Dokumenten vorkommt, ist kein geeigneter Diskriminierer und sollte daher weniger stark im Vergleich zu einem Wort gewichtet werden, das in sehr wenigen Dokumenten vorkommt.

Kombiniert mit der Termfrequenz, also der Häufigkeit eines Begriffs im jeweiligen Dokument (je mehr, desto besser), hat es die inverse Dokumentenfrequenz in nahezu jeden Wortgewichtungs-Algorithmus gefunden. Die Klasse dieser Gewichtungs-Algorithmen, die generell mit WDF * IDF engl. TF*IDF bezeichnet werden (hierbei wird das IDF-Maß mit dem WDF-Maß multipliziert), haben sich als überaus robust und schwer zu schlagen erwiesen, sogar durch wesentlich ausgefeiltere Methoden und Theorien.[5]

Um die Gewichtung eines Terms in einem Dokument innerhalb eines Information Retrieval Systems zu ermitteln, wird dessen Häufigkeit also in Relation zur Häufigkeit dieses Begriffes in allen anderen Dokumenten im Index gesetzt.[6]

Praxisbeispiel: Wieso hilft TF * IDF bzw. WDF * IDF im SEO?

Selbst wenn Google selbst mittlerweile fortgeschrittenere Algorithmen einsetzt, findet man in einem guten TF * IDF Tool für informationsbezogene Suchanfragen, also sogenannte informational Queries, dennoch relevante Inhaltslücken, also Themen und Aspekte, die man in seinem Text noch ergänzen sollte. Beispielsweise hatte ich anfangs in meinem Artikel zu WordPress Hostings die Firmen webgo, strato und alfahosting nicht erwähnt, was mir ZU RECHT direkt von TermLabs um die Ohren gehauen wurde:

Gutes TF IDF Tool

Diese als missing hervorgehobenen Begriffe stehen sinnbildlich für wichtige Themen, die der Leser in einem relevanten Dokument erwarten würde. Genau dafür ist ein gutes TF-IDF-Tool Gold wert!

Mit einem kostenlosen Tool kommt dagegen nur Unsinn bei raus:

wdf-idf-muell-Tool

Das liegt an folgenden drei Fehlern, die nahezu alle angeblichen WDF*IDF-Tools machen:

Keine Analyse ohne Stemming!

Die beiden Wörter ‚domain‘ und ‚domains‘ als zwei Terme zu behandeln (wie im obigen Beispiel) ist einfältig und fachlich schlicht falsch. Suchmaschinen führen mittels Stemming (Auch Stammformreduktion oder Normalformenreduktion genannt) alle Terme auf ihre Grundfunktion, also ihren Wortstamm zurück (Reduktion) und analysieren erst danach statistische Zusammenhänge!

Der Hauptinhalt muss extrahiert werden!

Ebenso wird das Layout analysiert und der Hauptinhalt analysiert, den Google in den Quality Rater Guidelines auch Main Content nennt. Hierbei werden Texte in Header, Footer und Sidebars quasi ignoriert, was die Relevanz der analysierten Terme deutlich verbessert.

Es geht nicht ohne guten Korpus und Termindex!

Letztendlich zeigt sich die Qualität einer guten Termanalyse inbesondere bei der korrekten Berechnung der inversen Termfrequenz. Dabei benötigt man einen möglichst vollständigen Dokumentenkorpus, den man regelmäßig aktualisiert und in einen Wortindex überführt, in dem alle Terme nach Häufigkeit sortiert vorliegen. Nur damit lässt sich effektiv die Gewichtung von Termen berechen!

Quellen