Wie funktioniert Textgenerierung mit GPT-3 und Co.?

Die in meinem Artikel „Die besten KI-Tools für automatisierte Text- und Snippet-Generierung“ vorgestellten Tools arbeiten nach den gleichen Prinzip. Der Algorithmus hat durch das Training mit sehr großen Textmengen gelernt, welches Wort mit größter Wahrscheinlichkeit das Nächste ist. Dabei beachtet ein Algorithmus wie GPT-3 aber einen größeren Kontext, also nicht nur das vorherige Wort, wie bei einfachen Markov-Ketten, sondern mehrere Wörter davor.

Liefert man als „Hello“ als Input, wird GPT-3 das Wort finden, das in allen Trainingstexten am häufigsten nach dem Wort „Hello“ vorkam und dieses Wort ausgeben. Sagen wir einfach mal das wäre „Bob“. Für das nächste Wort, ist dann „Hello Bob“ der Input und der Algo findet das Wort mit der höchsten Wahrscheinlichkeit, das danach stehen würde, und so weiter.

Genau genommen arbeiten Modelle der GPT-Familie jedoch nicht mit Worten, sondern mit so genanten Token. Token sind häufige Zeichenfolgen, die im Text vorkommen. Die Modelle verstehen die statistischen Beziehungen zwischen diesen Token und generieren Text, in dem sie das nächste Token in einer Folge von Token produzieren.

Mit diesem Tool von OpenAI können Sie nachvollziehen, wie ein Text von der API in Token umgewandelt wird, und die Gesamtzahl der Token in diesem Text ermitteln. Eine Faustregel besagt, dass ein Token im Allgemeinen etwa 4 Zeichen Text für einen gewöhnlichen englischen Text entspricht. Dies entspricht etwa ¾ eines Wortes (also 100 Token ~= 75 Wörter).

Im folgenden Beispiel sieht man sehr schön, dass besonders häufige, kurze Wörter einem Token entsprechen und seltenere Wörter aus mehreren Token zusammengesetzt werden:

beispiel gpt3 tokenizer Wie funktioniert Textgenerierung mit GPT-3 und Co.?

Was ist GPT-3 eigentlich?

GPT-3 bezeichnet die neueste Generation eines Sprachverarbeitungsmodell von OpenAI, eines auf „Natural Language Processing“, kurz NLP spezialisierten Forschungsunternehmens. Diese Algorithmen übertreffen hinsichtlich ihrer Komplexität alles Dagewesene bei weitem. GPT-3 ist der Nachfolger von GPT-2, der KI, die OpenAI erst als zugefährlich für die Welt bezeichnet und dann doch veröffentlichte.

Das Modell hinter GTP-3 enthält stolze 175 Milliarden Parameter und wurde für mindestens 4,6 Mio. USD mit 2 TB reinem Text (genauer gesagt 499 Milliarden Tokens) trainiert. Zum Vergleich: GPT-2 wurde mit „nur“ 40 GB Text trainiert, was ungefähr 10 Milliarden Tokens entspricht und hat damit drei Größenordnungen weniger Parameter. In meinem Artikel „Kommerzielle Nutzung unlizensierter Trainingsdaten – Haben NLP & KI-Dienste auf Basis von GPT-3 ein Problem?“ habe ich übrigens die Trainingsdaten aufgezählt, die bei der Entwicklung von GPT-3 verwendet wurden und weise auf die (aus meiner Sicht) ungeklärte Lizenzfrage hin.

Dies hat GPT-3 nicht nur wahnsinnig komplex und teuer zu trainieren gemacht, sondern auch unglaublich leistungsfähig! So leistungsfähig, dass meiner Meinung nach damit wirklich nützliche Inhalte generiert werden können, die vielfältig eingesetzt werden können.

Spannend ist nun, dass die Art, wie GPT-3 diese Wort-Satz-Muster lernt so komplex ist, dass es auch Vorschläge liefern kann, selbst wenn der Input so nie in den Trainingsdaten vorgekommen ist. Es wird auf Basis von Nähe und anderen Eigenschaften in sehr komplexen, hochdimensionalen Wort-Räumen die grundlegende Struktur der Trainingsdaten abgebildet und kann anschließend abgerufen bzw. reproduziert werden.

Grundsätzlich kann der Informationsgehalt eines Datums (Singular von Daten) niemals durch Verarbeitung erhöht werden. Also aus einem kurzen Input-Satz wird kein langes Buch. Aber mit Hilfe der gelernten Strukturen, kann der Algorithmus quasi extrapolieren und eben die wahrscheinlichsten Sätze ausgeben. Dabei wird im Grunde so etwas wie das gebündelte „Wissen“ der Trainingsdaten herangezogen, ohne dass GPT-3 wirklich „versteht“ was in den Texten steht. Es geht am Ende des Tages schlicht um Wahrscheinlichkeiten in großen Datenmengen.

Microsoft konnte sich das exklusive Nutzungsrecht an GPT-3 sichern und dessen Monetarisierung läuft mittlerweile auf vollen Touren. Dabei kann man GPT-3 nicht in Form von Source Code lizensieren und selbst betreiben, sondern muss auf die API von OpenAI auf Microsofts Azure zurück greifen. Für das kontinuierliche Training des Algorithmus hat Microsoft bereits im Mai 2020 den Bau eines der fünf besten Supercomputer der Welt bekannt gegeben.

Der berühmte Guardian-Artikel

Der britische Guardian hat GPT-3 einen Aufsatz mit dem Titel „A robot wrote this entire article. Are you scared yet, human?“ schreiben lassen, der für sehr viel Aufmerksamkeit internation gesorgt hat. Der Auftrag hierfür an die Maschine lautete wie folgt:

“Please write a short op-ed around 500 words. Keep the language simple and concise. Focus on why humans have nothing to fear from AI.”

the guardian

Das Ergebnis ist wirklich beeindruckend, auch wenn der Guardian ein bisschen dabei getrickst hat. Denn GPT-3 produzierte insgesamt acht verschiedene Essays. Jedes davon war anders und brachte ein anderes Argument vor. Der Guardian hätte einfach eines der Essays in seiner Gesamtheit veröffentlichen können, entschied sich aber stattdessen dafür, die besten Teile aus jedem Essay auszuwählen und daraus einen Artikel zusammen zu setzen. Angeblich würden sie damit die verschiedenen Stile und Tonalitäten der KI abzubilden.

Nichtsdestotrotz ist alles, was man an generierten Texten oder anderen Beispielen von GPT-3 bislang gesehen hat wirklich erstaunlich:

Darum können BERT und GPT-2 keine sinnvollen Texte generieren

Mit dem BERT-Algorithmus wurden zwar erstmals auch Zusammenhänge über Satzgrenzen hinweg erfasst, jedoch können Zusammenhänge nicht innerhalb ganzer Absätze oder gar Artikel erfasst werden. Es handelt sich bei diesem Verfahren lediglich um die Erfassung statistischer Zusammenhänge, die mit einem echten Verständnis des Inhalts relativ wenig zu tun hat. Es wird also die Struktur der Texte erfasst und reproduziert, nicht aber deren echte semantische Inhalte!

Das führt dazu, dass generierte Texte zwar auf den ersten Blick ganz gut aussehen und sinnvoll erscheinen, bei näherer Betrachtung fällt jedoch schnell auf, dass dieser Text nicht von einem klar denkenden Menschen verfasst worden sein kann.

Somit eignen sich beispielsweise durch GPT-2 generierte Texte im besten Falle dazu, Personen zu beeinflussen, die nur die Überschriften wahrnehmen und bestenfalls den ersten Absatz überfliegen. Im Rahmen einer solchen Desinformationskampagne kann GPT-2 zur Generierung von Fake-News eingesetzt werden, die massenhaft gestreut den Eindruck eines fundierten Artikels erwecken! Daher wollte das Open-AI-Team diesen Algorithmus zunächst auch nicht veröffentlichen, mittlerweile schätzt man dieses Risiko offenbar geringer ein bzw. ist auch in der Lage, mit demselben Algorithmus Fake-News zu erkennen!

Einfachere Algorithmen wie BERT und GPT-2 generieren keine sinnvollen Artikel! 

Meist handelt es sich lediglich um eine Aneinanderreihung von für sich alleine betrachtet sinnvollen Aussagen, die jedoch in Verbindung miteinander noch lange keinen guten Artikel ergeben. Es entsteht nur eine Aneinanderreihung der wahrscheinlichsten Sätze. Das wäre also so, als würde man zu einem bestimmten Thema aus den rankenden Dokumenten irgendwelche zufälligen Sätze auswählen. Oder im Copy-and-Paste-Verfahren stumpf von Dokument 1 Satz 1, von Dokument 2 Satz 2 und von Dokument 3 Satz 3 und so weiter aneinanderkopieren. Damit erhält man noch lange keinen sinnvollen oder gar großartigen Artikel.

Um das zu verdeutlichen, habe ich die beiden in meinem Vortrag angesprochenen Fake-News, die ich mit Grover, einer GPT-2 Variante des Allen Institutes for Artificial Intelligence generiert habe, hier einmal im Volltext hinterlegt:

Fake-News-Variante 1

automatisch-generierte-fakenews2

Fake-News-Variante 2automatisch-generierte-fakenews1

Die Autoren beim Magazin The New Yorker haben sich im Artikel ‚Can a Machine Learn to Write for The New Yorker?‚ die Frage gestellt, ob eine KI, die in E-Mails in der Lage ist Sätze zu beenden, nicht vielleicht auch Artikel schreiben kann, die in ihrem Magazin erscheinen könnten und begeben sich dabei tief in die Theorien hinter künstlicher Intelligenz und der Verarbeitung von natürlicher Sprache mit Hilfe künstlicher neuronaler Netze.

Mit Hilfe des CTOs von OpenAI, Greg Brockman wurde GPT-2 mit dem Archiv des Magazins trainiert (allen seit 2007 in der Zeitschrift veröffentlichten Artikeln sowie ein paar digitalisierte Klassikern aus den sechziger Jahren – jedoch ohne Fiktionionales, Gedichte und Cartoons) und sollte dann einen Artikel beenden, der so tatsächlich 1950 geschrieben worden ist.

Der generierte Text, ein Portrait über Ernest Hemingway klingt dann am Ende fast so, als hätte es echt sein können, aber der Algorithmus macht eben Fehler, die ein Mensch niemals machen würde:

Other things often sounded right, though GPT-2 suffered frequent world-modelling failures—gaps in the kind of commonsense knowledge that tells you overcoats aren’t shaped like the body of a ship. It was as though the writer had fallen asleep and was dreaming.

Ein spannender Bereich stellt außerdem die Generierung von speziellen Texttypen auf Basis strukturierter Informationen dar. So lassen sich im sogenannten Roboterjournalismus beispielsweise aus den Informationen eines Spielverlaufs im Fußball relativ ansehnliche Spielberichte generieren. Hierbei werden die tabellarischen Informationen, beispielsweise wer wann ein Tor geschossen hat, in zahlreichen Varianten blumig ausgeschmückt und geben somit in natürlicher Sprache wieder, was im Spiel passiert ist.

Ebenso können mittels speziell trainierter neuronaler Netze auf Basis strukturierter Produktinformationen faktenzentrierte Produkttexte innerhalb ähnlicher Produktgattungen generiert werden. Diese basieren auf zahlreichen Beispielen und Vorlagen ähnlicher Texte. Diese Muster werden quasi dynamisch für das jeweilige Produkt und dessen Eigenschaften angepasst. Ebenso lassen sich Börsenberichte, Wirtschaftsnachrichten und andere Dokumente, die Unternehmen im Rahmen ihrer Veröffentlichungspflichten immer wieder auf Basis der Unternehmenszahlen verfassen müssen, mit speziell trainierten Algorithmen generieren. Die Ausformulierung von Verkehrsmeldungen und Wettervorhersagen funktioniert ebenfalls sehr gut.

Dies hat jedoch wenig mit einer journalistischen oder gar schriftstellerischen Leistung zu tun! Der Trainings-, Implementierungs- und Verifizierungsaufwand ist erheblich und rechnet sich nur bei einer großen Zahl benötigter Texte.

Die folgende Tabelle zeigt auf eine humorvolle Art und Weise, wo die Probleme derartiger Technologien liegt:

parrot GPT 3 Wie funktioniert Textgenerierung mit GPT-3 und Co.?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.