Zum Inhalt springen

EU-Richtlinie erlaubt kommerzielle Nutzung unlizensierter Trainingsdaten! Daher solltest Du alle Bots aussperren

710555b108ff45cea73508d5df790b26 EU-Richtlinie erlaubt kommerzielle Nutzung unlizensierter Trainingsdaten! Daher solltest Du alle Bots aussperren

Ich habe mich in den vergangenen Monaten intensiv mit Sprachmodellen wie GPT-3 beschäftigt. Diese müssen mit großen Mengen an Text gefüttert werden, um daraus Muster zu lernen, die dann erstaunliche Fähigkeiten aufweisen. Im Falle von GPT-3 sind das stolze 2 Terabyte an Text.

Unter anderem drängte sich folgende Frage für mich auf:

Woher stammen diese eigentlich und wurden für die kommerzielle Verwendung dieser Texte eigentlich Lizenzen erworben?

Für das Training komplexer Sprachverarbeitungsmodelle greift man im wissenschaftlichen Umfeld gerne auf bekannte und öffentlich verfügbare Datensätze zurück. Dies ist insbesondere in der Forschung sinnvoll, denn so lassen sich Algorithmen besser mit deren Vorgängern und Konkurrenten vergleichen, die schließlich mit den selben Daten trainiert wurden. Da es sich in der Regel um nicht-kommerzielle Nutzung handelt, sehe ich hier auch keinerlei Probleme. Doch bei OpenAIs KI GPT-3 ist das nicht der Fall.

Auch wenn ein Forschungspaper die grundlegenden Mechanismen hinter GPT-3 beschreibt, ist daraus mit der GPT-3 API ein kommerzielles Produkt entstanden, das nicht frei und kostenlos zugänglich ist. Auf seiner Webseite nennt OpenAI drei Gründe, wieso man nur eine API veröffentlicht, anstatt die Modelle offen zu legen:

  1. Die Kommerzialisierung der Technologie soll die laufenden KI-Forschungs-, Sicherheits- und politischen Bemühungen zu finanzieren.
  2. Die Modelle sind sehr groß und erfordern viel Fachwissen, um sie zu entwickeln und einzusetzen. Das macht es aus Sicht von OpenAI für jeden außer größeren Unternehmen schwer, von der zugrunde liegenden Technologie zu profitieren.
  3. Das API-Modell erlaubt es OpenAI auf den Missbrauch der Technologie zu reagieren. Da derzeit nicht vorhergesagt werden kann, wofür die Modelle eingesetzt werden können, hält es OpenAI für sicherer, sie über eine API freizugeben und den Zugang damit unter Kontrolle zu behalten und schädliche Nutzung zu unterbinden.

Ich kann diese Gründe nachvollziehen, wobei der zweite aus meiner Sicht überhaupt nicht gegen die Veröffentlichung der Modelle spricht. Man hätte ja trotzdem mit einer API leistungsfähige KI-Systeme für kleinere Unternehmen und Organisationen zugänglich machen können.

Doch ist die Kommerzialisierung vielleicht ein Problem, weil geschützte Trainingsdaten verwendet wurden? Denn, schaut man sich einmal die Trainingsdaten an, mit denen GPT-3 trainiert wurde, finden sich darin jede Menge nicht-lizenzfreier Inhalte:

gpt 3 dataset EU-Richtlinie erlaubt kommerzielle Nutzung unlizensierter Trainingsdaten! Daher solltest Du alle Bots aussperren
Trainingsdaten von GPT-3 (Quelle)

Die Verwendung der Inhalte des Common Crawl hielt ich zunächst aus meinem Rechtsempfinden heraus für problematisch. Die Common Crawl Foundation ist eine kalifornische Non-Profit-Organisation und stellt dessen Common Crawl-Korpus kostenfrei zur Verfügung. Dieser enthält mehrer Petabytes an Daten, die über 12 Jahre durch Web-Crawling gesammelt wurden. Zwar ist der Zugriff auf das von Amazon gehostete Common Crawl-Archiv kostenlos, die Inhalte darin sind jedoch eindeutig nicht für die kommerzielle Nutzung freigegeben, schließlich handelt es sich um die Texte beliebiger Webseiten ohne Hinweise auf deren Lizenzen.

WebText2 ist eine erweiterte Version des ursprünglichen OpenWebTextCorpus, der alle Reddit-Posts von 2005 bis April 2020 abdeckt und damit im Grunde auch Eigentum von Reddit, das mittlerweile zum Condé Nast Verlag gehört.

Books1 und Books2 stammen aus dem unter KI-Forschern sehr beliebten Bücher-Textkorpus BookCorpus. Über dessen Herkunft oder Lizenzbedingungen ist wenig bekannt. Selbst im offiziellen GPT-3 Pre-Print Dokument von OpenAI finden sich keine genaueren Quellangaben über diesen Datensatz.

Im Fall der Wikipedia dürfen die Texte auf Basis von Creative-Commons-Lizenz Namensnennung – Weitergabe unter gleichen Bedingungen 3.0 (unported) verwendet werden, was eine kommerzielle Nutzung zwar nicht ausschließt, eigentlich aber bedingt, dass die Produkte ebenso unter CC-BY-SA stehen müssten.

Was bedeutet das für den Einsatz von GPT-3 und anderer maschineller Lernverfahren?

Anders als mein persönliches Rechtsempfinden in die kommerzielle Nutzung von unlizensierten Trainingsdaten offenbar seit der jüngsten EU-Urheberrechtsreform kein Problem mehr!

Darin findet sich eine Erleichterung des Data und Textmining, genauer die §§ 44b für kommerzielle Zwecke und 60d UrhG-DE für wissenschaftliche Zwecke. Darin steht quasi: Solange nicht per Robots.txt eingeschränkt, dürfen öffentliche Daten und Werke auch zu kommerziellen Zwecken per Datamining verwertet werden.

Text und Data Mining ist künftig vergütungsfrei gestattet, beispielsweise um künstliche Intelligenz für kommerzielle Anwendungen zu trainieren (§ 44b UrhG). Ein Nutzungsvorbehalt des Urhebers bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

https://www.haufe.de/finance/haufe-finance-office-premium/urheberrecht-die-konsequenzen-aus-der-eu-richtlinie-201-4-data-mining_idesk_PI20354_HI14803521.html

Aus meiner Sicht müsste damit sogar das scrapen und umschreiben eines urheberrechtlich geschützten Textes erlaubt sein! Dieser so entstandene Text unterliegt selbst jedoch NICHT dem Urheberrecht, da eine Maschine kein Urheber sein kann und ist demnach als gemeinsfrei anzusehen.

„Rechtmäßig zugänglich″ sind Werke, deren Zugriff dem Nutzer, also demjenigen, der das Mining durchführt, rechtlich erlaubt ist. Das trifft z.B. auf frei im Internet zugängliche Werke wie öffentliche Websites zu.

https://www.cmshs-bloggt.de/gewerblicher-rechtsschutz/urheberrecht/text-und-data-mining-nach-dem-neuen-urheberrecht/

In der Praxis bedeutet dass, dass man alle Bots per robots.txt aussperren sollte und dann gewünschte Crawler wie beispielsweise GoogleBot explizit erlauben sollte. Ansonsten gilt es offenbar als Einverständnis zur Verwertung mittels Data Mining!

Noch ist das Ganze keine Rechtspraxis, bedarf also noch der Klärung und Anwendung, aber das neue Gesetz könnte aus meiner Sicht durchaus so ausgelegt werden, insbesondere da damit Innovation im Bereich KI in der EU gefördert werden soll. Ich bin aber kein Anwalt und auch kein Urheberrechtsexperte. Ich gebe hier die Rechtslage aus meiner Sicht nach bestem Wissen und Gewissen wieder.

So sperrst Du alle Bots und Crawler aus (außer Google, bing und Co.)

Mit einer robots.txt-Datei kannst du festlegen, welche Crawler auf welche Dateien auf deiner Website zugreifen können. Die robots.txt-Datei muss dabei stets im Stammverzeichnis deiner Website liegen und exakt „robots.txt“ genannt werden.

Damit Du die Inhalte Deiner Website nicht zur Verwertung mittels Data Mining freigibst, solltest Du also zunächst sämtliche Inhalte für alle Crawler sperren und anschließend „gute Crawler“ wie Googlebot und Bingbot wieder den Zugriff erlauben.

Deine robots.txt könnte beispielsweise so aussehen:

# Block everything for all Crawlers
User-agent: *
Disallow: /

# Allow everything for Googlebot
User-agent: Googlebot
Allow: /

# Allow everything for Bingbot
User-agent: Bingbot
Allow: /

Bitte beachte, dass nach jedem Block von Allow oder Disallow-Anweisungen immer eine Leerzeile folgt, bevor ein neuer User-agent adressiert werden kann!

10 Gedanken zu „EU-Richtlinie erlaubt kommerzielle Nutzung unlizensierter Trainingsdaten! Daher solltest Du alle Bots aussperren“

      1. Keine Ahnung, bin ja keine Expertin. Hatte einfach gedacht, dass es doch noch mehr wichtige geben müsste

        1. Kai Spriestersbach

          Ich bin bislang noch nicht dazu gekommen und habe zudem nicht so viele Inhalte, die man minen könnte.

      2. Hi Kai,
        ich verstehe nicht ganz, was das „Aussperren“ bringen soll, man kann den Crawler doch auch problemlos als Googlebot tarnen und als Google Bilder Bot.

        Und wenn ich den Bot als User tarnen, bringt es ebenfalls nichts. Oder hab ich hier etwas nicht ganz mitbekommen?

        Gruss,
        Olaf

        1. Kai Spriestersbach

          Hallo Olaf,
          natürlich hindert das niemanden die Inhalte illegal zu verwenden, allerdings kann man die Sperrung via Robots.txt als Nutzungsvorbehalt in maschinenlesbarer Form betrachten und damit als Widerspruch zur Nutzung in Text- und Data Mining. Somit willigst Du zumindest nicht implizit ein in die kommerzielle Nutzung deiner Inhalte durch Dritte.
          LG Kai

      3. Super interessante Fragestellung (zum Schluss des Artikels formuliert).

        Ist ja grundsätzlich eine Frage: welche Daten darf ich verwenden, um eine KI zu trainieren? Und werden diese Daten dann irgendwie „Teil des Systems“ (obwohl sie da nicht 1-zu-1 drinstecken / zu finden sind) oder werden sie nur für das Training genutzt und sind völlig unabhängig vom KI-System (das etwas völlig eigenständiges ist). Ist ein bestimmter Input (in Deinem Artikel: ein Trainingstext) nach dem Trainingsvorgang in diesem Sinne NICHT mehr „vorhanden“ in der KI – oder ist der irgendwie noch drin und wird dann „verwendet“, wenn man die KI einsetzt?

        Ich glaube, da muss man noch viel denken zu Nutzungsrechten, Eigentumsrechten, etc.

        Ich stimme Dir zu: ein Kommentar von Juristen oder Verbänden wäre da sehr interessant. Ich befürchte aber, es reicht nicht, nur bestehendes Recht zu analysieren, sondern das muss wahrscheinlich weiterentwickelt werden, um für diese neuen Möglichkeiten/Anwendungsfälle wirklich passend zu sein (sage ich, ohne Jurist zu sein ;-)).

      4. Nutzen nicht Wdf*Idf-Tools auch CommonCrawl oder vergleichbare Daten, um einen Dokumentenkorpus als Basis zu haben? Diese Tools sind i.d.R. auch kostenpflichtig, daher stellt sich die Frage denke ich auch hier. Und ich gehe davon aus, dass diese sich rechtlich abgesichert haben, ob und wie sie was nutzen können. Am Ende würde ich persönlich denken handelt es sich um Testdaten, d.h. der urheberrechtliche Aspekt spielt hier keine entscheidende Rolle. Aber ich bin auch kein Rechtsexperte, daher lassen wir besser diese sprechen…

        1. Kai Spriestersbach

          Korrekt, die haben theoretisch das gleiche Problem, außer sie haben den zugrundeliegenden Korpus lizensiert. Dafür gibt es Anbieter… aber wie gesagt, in der Praxis ist das wahrscheinlich nicht nachzuweisen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.