Durchbruch bei automatisierter Textgenerierung mittels künstlicher Intelligenz

Automatische Textgenerierung mittels künstlicher Intelligenz

In meinem SEOkomm-Vortrag zum BERT-Update habe ich das Thema „Automatische Textgenerierung mittels künstlicher Intelligenz“ angesprochen. Danach hatten mich zahlreiche Anfragen diesbezüglich erreicht, weshalb ich in diesem Artikel den aktuellen Stand Ende 2019 inklusive der Möglichkeiten und Einschränkungen zusammengefasst habe. Seit dem stand die KI-Welt jedoch nicht still und heute ist es Zeit für ein Update!

Denn die Aussage aus dem November 2019:

Die Möglichkeiten der automatisierten Textgenerierung sind aktuell noch ziemlich eingeschränkt!

Ist mit den Erscheinen von GPT-3 aus meiner Sicht nicht mehr korrekt!

Heute kann ich formulieren:

Computergenerierter Text ist für ein breites Anwendungsspektrum geeignet, inklusive der Generierung nützlicher Texte, beispielsweise für SEO-Zwecke!

Nützliche Texte generiert von GPT-3

Die neueste Generation der natürlichen Sprachalgorithmen (Natural Language Generation, NLG) ist derzeit wieder in aller Munde, da OpenAI ein neues maschinelles Lernmodell veröffentlicht hat, das alles Dagewesene an Komplexität bei weitem übertrifft. Der Nachfolger von GPT-2 (der KI, die OpenAI erst selbst als zugefährlich bezeichnet und dann doch veröffentlicht hat) nennt sich konsequenterweise GPT-3. Diese Modell enthält nun 175 Milliarden! Parameter und wurde für mindestens 4,6 Mio. USD mit 2 TB reinem Text (genauer gesagt 499 Milliarden Tokens) trainiert. Zum Vergleich: GPT-2 wurde mit ‘nur’ 40 GB Text trainiert, was ungefähr 10 Milliarden Tokens entspricht und hat drei Größenordnungen weniger Parameter.

Microsoft hat sich übrigens das exklusive Nutzungsrecht an GPT-3 gesichert und die Monetarisierung läuft auf vollen Touren. Dabei kann man GPT-3 nicht in Form von Source Code lizensieren und selbst betreiben, sondern muss auf die API von OpenAI auf Microsofts Azure zurück greifen. Für das kontinuierliche Training des Algorithmus hat Microsoft bereits im Mai 2020 den Bau eines der fünf besten Supercomputer der Welt bekannt gegeben.

Dies hat GPT-3 nicht nur wahnsinnig komplex und teuer zu trainieren gemacht, sondern auch unglaublich leistungsfähig! So leistungsfähig, dass meiner Meinung nach damit wirklich nützliche Inhalte generiert werden können, die vielfältig eingesetzt werden können.

Der sehr geschätzte Kollege Will Critchlow von SearchPilot ist der Meinung, dass GPT-3 durchaus Inhalte erstellt, die es wert sind, auf SEO und weitere Nutzervorteile getestet zu werden.

Der britische Guardian hat GPT-3 einen Aufsatz schreiben lassen. Der Auftrag hierfür an die Maschine lautete wie folgt:

“Please write a short op-ed around 500 words. Keep the language simple and concise. Focus on why humans have nothing to fear from AI.”

the guardian

Das Ergebnis ist wirklich beeindruckend, auch wenn der Guardian ein bisschen dabei getrickst hat. Denn GPT-3 produzierte insgesamt acht verschiedene Essays. Jedes davon war anders und brachte ein anderes Argument vor. Der Guardian hätte einfach eines der Essays in seiner Gesamtheit veröffentlichen können, entschied sich aber stattdessen dafür, die besten Teile aus jedem Essay auszuwählen und daraus einen Artikel zusammen zu setzen. Angeblich würden sie damit die verschiedenen Stile und Tonalitäten der KI abzubilden.

Nichtsdestotrotz ist alles, was man an generierten Texten oder anderen Beispielen von GPT-3 bislang gesehen hat wirklich erstaunlich:

Unglaubliche Beispiele für die Leistungsfähigkeit von GPT-3

Im folgenden Beispiel wird GPT-3 verwendet um komplexe Antwort-E-Mails im Stil und der Tonalität des Autors zu generieren auf Basis einer Liste von kurzen Stichpunkten:

Und es gibt noch viel mehr. Auf dieser Seite werden weitere spannende Anwendungs-Beispiele mit der GPT-3 API aufgelistet:

Darum können BERT und GPT-2 keine sinnvollen Texte generieren

Mit dem BERT-Algorithmus wurden zwar erstmals auch Zusammenhänge über Satzgrenzen hinweg erfasst, jedoch können Zusammenhänge nicht innerhalb ganzer Absätze oder gar Artikel erfasst werden. Es handelt sich bei diesem Verfahren lediglich um die Erfassung statistischer Zusammenhänge, die mit einem echten Verständnis des Inhalts relativ wenig zu tun hat. Es wird also die Struktur der Texte erfasst und reproduziert, nicht aber deren echte semantische Inhalte!

Das führt dazu, dass generierte Texte zwar auf den ersten Blick ganz gut aussehen und sinnvoll erscheinen, bei näherer Betrachtung fällt jedoch schnell auf, dass dieser Text nicht von einem klar denkenden Menschen verfasst worden sein kann.

Somit eignen sich beispielsweise durch GPT-2 generierte Texte im besten Falle dazu, Personen zu beeinflussen, die nur die Überschriften wahrnehmen und bestenfalls den ersten Absatz überfliegen. Im Rahmen einer solchen Desinformationskampagne kann GPT-2 zur Generierung von Fake-News eingesetzt werden, die massenhaft gestreut den Eindruck eines fundierten Artikels erwecken! Daher wollte das Open-AI-Team diesen Algorithmus zunächst auch nicht veröffentlichen, mittlerweile schätzt man dieses Risiko offenbar geringer ein bzw. ist auch in der Lage, mit demselben Algorithmus Fake-News zu erkennen!

Einfachere Algorithmen wie BERT und GPT-2 generieren keine sinnvollen Artikel! 

Meist handelt es sich lediglich um eine Aneinanderreihung von für sich alleine betrachtet sinnvollen Aussagen, die jedoch in Verbindung miteinander noch lange keinen guten Artikel ergeben. Es entsteht nur eine Aneinanderreihung der wahrscheinlichsten Sätze. Das wäre also so, als würde man zu einem bestimmten Thema aus den rankenden Dokumenten irgendwelche zufälligen Sätze auswählen. Oder im Copy-and-Paste-Verfahren stumpf von Dokument 1 Satz 1, von Dokument 2 Satz 2 und von Dokument 3 Satz 3 und so weiter aneinanderkopieren. Damit erhält man noch lange keinen sinnvollen oder gar großartigen Artikel.

Um das zu verdeutlichen, habe ich die beiden in meinem Vortrag angesprochenen Fake-News, die ich mit Grover, einer GPT-2 Variante des Allen Institutes for Artificial Intelligence generiert habe, hier einmal im Volltext hinterlegt:

Fake-News-Variante 1

automatisch-generierte-fakenews2

Fake-News-Variante 2automatisch-generierte-fakenews1

Die Autoren beim Magazin The New Yorker haben sich im Artikel ‘Can a Machine Learn to Write for The New Yorker?‘ die Frage gestellt, ob eine KI, die in E-Mails in der Lage ist Sätze zu beenden, nicht vielleicht auch Artikel schreiben kann, die in ihrem Magazin erscheinen könnten und begeben sich dabei tief in die Theorien hinter künstlicher Intelligenz und der Verarbeitung von natürlicher Sprache mit Hilfe künstlicher neuronaler Netze.

Mit Hilfe des CTOs von OpenAI, Greg Brockman wurde GPT-2 mit dem Archiv des Magazins trainiert (allen seit 2007 in der Zeitschrift veröffentlichten Artikeln sowie ein paar digitalisierte Klassikern aus den sechziger Jahren – jedoch ohne Fiktionionales, Gedichte und Cartoons) und sollte dann einen Artikel beenden, der so tatsächlich 1950 geschrieben worden ist.

Der generierte Text, ein Portrait über Ernest Hemingway klingt dann am Ende fast so, als hätte es echt sein können, aber der Algorithmus macht eben Fehler, die ein Mensch niemals machen würde:

Other things often sounded right, though GPT-2 suffered frequent world-modelling failures—gaps in the kind of commonsense knowledge that tells you overcoats aren’t shaped like the body of a ship. It was as though the writer had fallen asleep and was dreaming.

Ein spannender Bereich stellt außerdem die Generierung von speziellen Texttypen auf Basis strukturierter Informationen dar. So lassen sich im sogenannten Roboterjournalismus beispielsweise aus den Informationen eines Spielverlaufs im Fußball relativ ansehnliche Spielberichte generieren. Hierbei werden die tabellarischen Informationen, beispielsweise wer wann ein Tor geschossen hat, in zahlreichen Varianten blumig ausgeschmückt und geben somit in natürlicher Sprache wieder, was im Spiel passiert ist.

Ebenso können mittels speziell trainierter neuronaler Netze auf Basis strukturierter Produktinformationen faktenzentrierte Produkttexte innerhalb ähnlicher Produktgattungen generiert werden. Diese basieren auf zahlreichen Beispielen und Vorlagen ähnlicher Texte. Diese Muster werden quasi dynamisch für das jeweilige Produkt und dessen Eigenschaften angepasst. Ebenso lassen sich Börsenberichte, Wirtschaftsnachrichten und andere Dokumente, die Unternehmen im Rahmen ihrer Veröffentlichungspflichten immer wieder auf Basis der Unternehmenszahlen verfassen müssen, mit speziell trainierten Algorithmen generieren. Die Ausformulierung von Verkehrsmeldungen und Wettervorhersagen funktioniert ebenfalls sehr gut.

Dies hat jedoch wenig mit einer journalistischen oder gar schriftstellerischen Leistung zu tun! Der Trainings-, Implementierungs- und Verifizierungsaufwand ist erheblich und rechnet sich nur bei einer großen Zahl benötigter Texte.

Kai Spriestersbach ist Inhaber, Herausgeber und Chefredakteur von SEARCH ONE. Daneben arbeitet er als freier Mitarbeiter im Bereich Research & Development für die eology GmbH mit Sitz in Volkach. Der studierte Bachelor of Science in E-Commerce forscht und arbeitet derzeit an einem innovativen E-Learning Konzept und ist als Lehrbeauftragter an der Hochschule für angewandte Wissenschaften Würzburg-Schweinfurt (FHWS) tätig. Als Affiliate Publisher betreibt er zahlreiche Webseite, die er auch für seine Experimente im Bereich SEO verwendet.

Kai verfügt insgesamt bereits über 15 Jahre Erfahrung im Bereich Online-Marketing und Webentwicklung und hat sich im Jahr 2009 auf nutzerzentrierte und technische SEO spezialisiert. Seit Ende 2019 hat er sich auf die Themen Forschung und Lehre fokussiert.

2 Gedanken zu „Durchbruch bei automatisierter Textgenerierung mittels künstlicher Intelligenz“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.