Zum Inhalt springen

Tutorial: So sperrst Du ChatGPT und andere Bots aus, die deine Texte für ihre KI nutzen wollen

710555b108ff45cea73508d5df790b26 Tutorial: So sperrst Du ChatGPT und andere Bots aus, die deine Texte für ihre KI nutzen wollen

Ich habe mich in den vergangenen Monaten intensiv mit Sprachmodellen wie GPT-3 beschäftigt. Diese müssen mit großen Mengen an Text gefüttert werden, um daraus Muster zu lernen, die dann erstaunliche Fähigkeiten aufweisen. Für das Training komplexer Sprachverarbeitungsmodelle greift man im wissenschaftlichen Umfeld gerne auf bekannte und öffentlich verfügbare Datensätze zurück. Dies ist insbesondere in der Forschung sinnvoll, denn so lassen sich Algorithmen besser mit deren Vorgängern und Konkurrenten vergleichen, die schließlich mit den selben Daten trainiert wurden. Da es sich in der Regel um nicht-kommerzielle Nutzung handelt, sehe ich hier auch keinerlei Probleme. Doch bei OpenAIs ChatGPT, GPT-3, GPT-3.5 und GPT-4 ist das längst nicht mehr der Fall.

Auch wenn ein Forschungspaper die grundlegenden Mechanismen hinter GPT-3 beschreibt, sind daraus mit der API und ChatGPT längst kommerzielle Produkte entstanden, die weder frei noch kostenlos zugänglich sind.

Anders als mein persönliches Rechtsempfinden in die kommerzielle Nutzung von unlizensierten Trainingsdaten jedoch seit der jüngsten EU-Urheberrechtsreform kein Problem!

Darin findet sich eine Erleichterung des Data und Textmining, genauer die §§ 44b für kommerzielle Zwecke und 60d UrhG-DE für wissenschaftliche Zwecke. Darin steht quasi: Solange nicht per Robots.txt eingeschränkt, dürfen öffentliche Daten und Werke auch zu kommerziellen Zwecken per Datamining verwertet werden.

Text und Data Mining ist künftig vergütungsfrei gestattet, beispielsweise um künstliche Intelligenz für kommerzielle Anwendungen zu trainieren (§ 44b UrhG). Ein Nutzungsvorbehalt des Urhebers bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

https://www.haufe.de/finance/haufe-finance-office-premium/urheberrecht-die-konsequenzen-aus-der-eu-richtlinie-201-4-data-mining_idesk_PI20354_HI14803521.html

Aus meiner Sicht müsste damit sogar das scrapen und umschreiben eines urheberrechtlich geschützten Textes erlaubt sein! Dieser so entstandene Text unterliegt selbst jedoch NICHT dem Urheberrecht, da eine Maschine kein Urheber sein kann und ist demnach als gemeinsfrei anzusehen.

„Rechtmäßig zugänglich″ sind Werke, deren Zugriff dem Nutzer, also demjenigen, der das Mining durchführt, rechtlich erlaubt ist. Das trifft z.B. auf frei im Internet zugängliche Werke wie öffentliche Websites zu.

https://www.cmshs-bloggt.de/gewerblicher-rechtsschutz/urheberrecht/text-und-data-mining-nach-dem-neuen-urheberrecht/

In der Praxis bedeutet dass, dass man alle Bots per robots.txt aussperren sollte und dann gewünschte Crawler wie beispielsweise GoogleBot explizit erlauben sollte. Ansonsten gilt es offenbar als Einverständnis zur Verwertung mittels Data Mining!

Noch ist das Ganze keine Rechtspraxis, bedarf also noch der Klärung und Anwendung, aber das neue Gesetz könnte aus meiner Sicht durchaus so ausgelegt werden, insbesondere da damit Innovation im Bereich KI in der EU gefördert werden soll. Ich bin aber kein Anwalt und auch kein Urheberrechtsexperte. Ich gebe hier die Rechtslage aus meiner Sicht nach bestem Wissen und Gewissen wieder.

So sperrst Du alle Bots und Crawler aus (außer Google, bing und Co.)

Mit einer robots.txt-Datei kannst du festlegen, welche Crawler auf welche Dateien auf deiner Website zugreifen können. Die robots.txt-Datei muss dabei stets im Stammverzeichnis deiner Website liegen und exakt „robots.txt“ genannt werden.

Damit Du die Inhalte Deiner Website nicht zur Verwertung mittels Data Mining freigibst, solltest Du also zunächst sämtliche Inhalte für alle Crawler sperren und anschließend „gute Crawler“ wie Googlebot und Bingbot wieder den Zugriff erlauben.

Deine robots.txt könnte beispielsweise so aussehen:

# Block everything for all Crawlers
User-agent: *
Disallow: /

# Allow everything for Googlebot
User-agent: Googlebot
Allow: /

# Allow everything for Bingbot
User-agent: Bingbot
Allow: /

Bitte beachte, dass nach jedem Block von Allow oder Disallow-Anweisungen immer eine Leerzeile folgt, bevor ein neuer User-agent adressiert werden kann!

ChatGPT kann auf das Internet zugreifen!

Für ChatGPT gibt es seit Kurzem ein neues Plugin, das das Durchsuchen des Internets ermöglicht. Dieses Feature wurde von vielen Nutzern gewünscht, da das aktuelle Modell nur Daten bis 2021 enthält. Das Plugin ist aktuell noch als Alpha-Version gekennzeichnet, was bedeutet, dass es noch Fehler enthalten kann und nur sehr wenigen Nutzern zur Verfügung steht.

Zum Glück lässt sich das neue Browsing-Plugin von ChatGPT aussperren und damit verhindern, dass Nutzer Texte der eigenen Webseite mittels Sprachmodell auswertet, übersetzt, umschreibt oder anderweitig nutzt. Um die Urheberrechte von Inhalten zu respektieren und die Normen des Internets einzuhalten, verwendet das Browser-Plugin den User-Agent-Token „ChatGPT-User“ und hält sich an die robots.txt-Anweisungen. Dieser User-Agent wird nur für direkte Aktionen im Auftrag von ChatGPT-Nutzern verwendet und nicht für automatisches Crawling.

Somit lässt sich ChatGPT mit der folgenden Anweisung explizit aussperren:

# Block ChatGPT-Users from accessing via browsing plugin
User-agent: ChatGPT-User
Disallow: /
4js Tutorial: So sperrst Du ChatGPT und andere Bots aus, die deine Texte für ihre KI nutzen wollen