Kommerzielle Nutzung unlizensierter Trainingsdaten – Haben NLP & KI-Dienste auf Basis von GPT-3 ein Problem?

Sprachmodelle wie GPT-3 müssen mit großen Mengen an Text gefüttert werden, im Falle von GPT-3 satte 2 Terabyte an Text. Doch woher stammen diese eigentlich und wurden für die kommerzielle Verwendung dieser Texte eigentlich Lizenzen erworben?

Für das Training komplexer Sprachverarbeitungsmodelle greift man im wissenschaftlichen Umfeld gerne auf bekannte und öffentlich verfügbare Datensätze zurück. Dies ist insbesondere in der Forschung sinnvoll, denn so lassen sich Algorithmen besser mit deren Vorgängern und Konkurrenten vergleichen, die schließlich mit den selben Daten trainiert wurden. Da es sich in der Regel um nicht-kommerzielle Nutzung handelt, sehe ich hier auch keinerlei Probleme. Doch bei OpenAIs KI GPT-3 ist das nicht der Fall.

Auch wenn ein Forschungspaper die grundlegenden Mechanismen hinter GPT-3 beschreibt, ist daraus mit der GPT-3 API ein kommerzielles Produkt entstanden, das nicht frei und kostenlos zugänglich ist. Auf seiner Webseite nennt OpenAI drei Gründe, wieso man nur eine API veröffentlicht, anstatt die Modelle offen zu legen:

  1. Die Kommerzialisierung der Technologie soll die laufenden KI-Forschungs-, Sicherheits- und politischen Bemühungen zu finanzieren.
  2. Die Modelle sind sehr groß und erfordern viel Fachwissen, um sie zu entwickeln und einzusetzen. Das macht es aus Sicht von OpenAI für jeden außer größeren Unternehmen schwer, von der zugrunde liegenden Technologie zu profitieren.
  3. Das API-Modell erlaubt es OpenAI auf den Missbrauch der Technologie zu reagieren. Da derzeit nicht vorhergesagt werden kann, wofür die Modelle eingesetzt werden können, hält es OpenAI für sicherer, sie über eine API freizugeben und den Zugang damit unter Kontrolle zu behalten und schädliche Nutzung zu unterbinden.

Ich kann diese Gründe nachvollziehen, wobei der zweite aus meiner Sicht überhaupt nicht gegen die Veröffentlichung der Modelle spricht. Man hätte ja trotzdem mit einer API leistungsfähige KI-Systeme für kleinere Unternehmen und Organisationen zugänglich machen können.

Allerdings sehe ich bei der Kommerzialisierung ein riesiges Problem! Schaut man sich einmal die Trainingsdaten an, mit denen GPT-3 trainiert wurde, finden sich darin jede Menge nicht-lizenzfreier Inhalte:

gpt 3 dataset Kommerzielle Nutzung unlizensierter Trainingsdaten - Haben NLP & KI-Dienste auf Basis von GPT-3 ein Problem?
Trainingsdaten von GPT-3 (Quelle)

Die Verwendung der Inhalte des Common Crawl halte ich für sehr problematisch. Die Common Crawl Foundation ist eine kalifornische Non-Profit-Organisation und stellt dessen Common Crawl-Korpus kostenfrei zur Verfügung. Dieser enthält mehrer Petabytes an Daten, die über 12 Jahre durch Web-Crawling gesammelt wurden. Zwar ist der Zugriff auf das von Amazon gehostete Common Crawl-Archiv kostenlos, die Inhalte darin sind jedoch eindeutig nicht für die kommerzielle Nutzung freigegeben, schließlich handelt es sich um die Texte beliebiger Webseiten ohne Hinweise auf deren Lizenzen.

WebText2 ist eine erweiterte Version des ursprünglichen OpenWebTextCorpus, der alle Reddit-Posts von 2005 bis April 2020 abdeckt und damit im Grunde auch Eigentum von Reddit, das mittlerweile zum Condé Nast Verlag gehört.

Books1 und Books2 stammen aus dem unter KI-Forschern sehr beliebten Bücher-Textkorpus BookCorpus. Über dessen Herkunft oder Lizenzbedingungen ist wenig bekannt. Selbst im offiziellen GPT-3 Pre-Print Dokument von OpenAI finden sich keine genaueren Quellangaben über diesen Datensatz.

Im Fall der Wikipedia dürfen die Texte auf Basis von Creative-Commons-Lizenz Namensnennung – Weitergabe unter gleichen Bedingungen 3.0 (unported) verwendet werden, was eine kommerzielle Nutzung zwar nicht ausschließt, eigentlich aber bedingt, dass die Produkte ebenso unter CC-BY-SA stehen müssten.

Was bedeutet das für den Einsatz von GPT-3?

Ich bin kein Anwalt und auch kein Urheberrechtsexperte, halte die Verwendung dieser Daten zu kommerziellen Zwecken jedoch derzeit für ungeklärt bzw. riskant. Das gilt theoretisch auch jeden durch GPT-3 erzeugten Text.

In der Praxis spielt dies aus meiner Sicht jedoch keine Rolle, denn zum einen tragen dieses Risiko höchstens die Anbieter der Tools, die einem die Rechte an der Nutzung übertragen oder eben OpenAI selbst als Anbieter der API. Zum anderen ist dürfte es defakto unmöglich sein, nachzuweisen, dass ein Text auf Basis eines Sprachmodells generiert wurde, für dessen Training unlizensierte Trainingsdaten verwendet wurden.

Die Meinung eines Urheberrechtsexperten würde mich ebenso interessieren, wie ein Statement des KI Bundesverband e.V., die in ihrem Positionspapier sogar eine europäische GPT-Variante fordern, um Abhängigkeiten und der Entstehung neuer Monopole entgegenzuwirken.

3 Gedanken zu „Kommerzielle Nutzung unlizensierter Trainingsdaten – Haben NLP & KI-Dienste auf Basis von GPT-3 ein Problem?“

  1. Super interessante Fragestellung (zum Schluss des Artikels formuliert).

    Ist ja grundsätzlich eine Frage: welche Daten darf ich verwenden, um eine KI zu trainieren? Und werden diese Daten dann irgendwie „Teil des Systems“ (obwohl sie da nicht 1-zu-1 drinstecken / zu finden sind) oder werden sie nur für das Training genutzt und sind völlig unabhängig vom KI-System (das etwas völlig eigenständiges ist). Ist ein bestimmter Input (in Deinem Artikel: ein Trainingstext) nach dem Trainingsvorgang in diesem Sinne NICHT mehr „vorhanden“ in der KI – oder ist der irgendwie noch drin und wird dann „verwendet“, wenn man die KI einsetzt?

    Ich glaube, da muss man noch viel denken zu Nutzungsrechten, Eigentumsrechten, etc.

    Ich stimme Dir zu: ein Kommentar von Juristen oder Verbänden wäre da sehr interessant. Ich befürchte aber, es reicht nicht, nur bestehendes Recht zu analysieren, sondern das muss wahrscheinlich weiterentwickelt werden, um für diese neuen Möglichkeiten/Anwendungsfälle wirklich passend zu sein (sage ich, ohne Jurist zu sein ;-)).

  2. Nutzen nicht Wdf*Idf-Tools auch CommonCrawl oder vergleichbare Daten, um einen Dokumentenkorpus als Basis zu haben? Diese Tools sind i.d.R. auch kostenpflichtig, daher stellt sich die Frage denke ich auch hier. Und ich gehe davon aus, dass diese sich rechtlich abgesichert haben, ob und wie sie was nutzen können. Am Ende würde ich persönlich denken handelt es sich um Testdaten, d.h. der urheberrechtliche Aspekt spielt hier keine entscheidende Rolle. Aber ich bin auch kein Rechtsexperte, daher lassen wir besser diese sprechen…

    1. Korrekt, die haben theoretisch das gleiche Problem, außer sie haben den zugrundeliegenden Korpus lizensiert. Dafür gibt es Anbieter… aber wie gesagt, in der Praxis ist das wahrscheinlich nicht nachzuweisen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.