Zum Inhalt springen

Nein, GPT-4 hat weder 100 Billionen Parameter noch 1 trillion Parameter

ac441cd911dc45a7890d6fd6fbcf03eb Nein, GPT-4 hat weder 100 Billionen Parameter noch 1 trillion Parameter

Wahrscheinlich hast du schon einmal diese Grafik gesehen, die die Anzahl der Parameter von GPT-4 im Vergleich zu dessen Vorgänger GPT-3 anschaulich machen soll. Für ein paar Tage war das die am häufigsten geteilte Grafik bei LinkedIn überhaupt:

GPT-4 hat nicht 100 Billionen Parameter!

Leider handelt es sich hierbei um kompletten Bullshit!

Der Twitter-Nutzer AiBreakfast erstellte diese unglaublich erfolgreiche Grafik auf Basis von falschen Informationen. An vielen Stellen wird die Anzahl der Parameter von GPT-4 mit „100 trillion“ angegeben. Die amerikanische „trillion“ entspricht dabei unserer Billion, also 100 Billionen Parameter. Eine 1 mit 12 Nullen. Also 100.000 Milliarden oder ausgeschrieben 100.000.000.000.000 Parameter.

Dabei handelt es sich um eine der populärsten Falschinformation rund um das neue GPT-4 Sprachmodell.

Diese Zahl stammt aus einem Artikel von Wired vom August 2021, in dem erstmals über die Eigenschaften eines GPT-3-Nachfolgers gemunkelt wurde. Darin sagt Andrew Feldman, der CEO von Cerebras, einem Unternehmen das Supercomputer für das Training von KI-Modellen baut, in einem Interview mit dem Magazin Wired „From talking to OpenAI, GPT-4 will be about 100 trillion parameters“.

From talking to OpenAI, GPT-4 will be about 100 trillion parameters. BUT That won’t be ready for several years

Schaut man sich jedoch den nächsten Satz im selben Interview an, wird klar, dass Feldman nicht vom selben GPT-4 sprechen kann, das OpenAI im März diesen Jahres veröffentlicht hat: „That won’t be ready for several years.”

Aber eigentlich ist es noch viel schlimmer, denn Feldman, CEO eines Startups mit einer Milliarden-Bewertung redet hier absoluten Bullshit! Niemand bei OpenAI hat jemals etwas in dieser Richtung gesagt!

In Wirklichkeit stammt die Zahl von „100 trillion“ aus einer Präsentation von Lex Fridman, in der er berechnet, was eine künftige Version von GPT mit so vielen Parameter wie das Gehirn Synapsen haben für die Trainingskosten bedeuten würde. Das menschliche Gehirn liefert dann mit seinen etwa 100 Billionen Synapsen die Vorlage für die Annahme eines zukünftigten, hypothetischen Modells mit 100 Billionen Parametern.

Das erklärte er später in seinem Interview mit dem OpenAI CEO Sam Altmann. Hier ein kurzer Ausschnitt, in dem die beiden über das Missverständnis sprechen:

Spätestens durch die Reaktion von Sam Altmann auf diese Zahl wird klar, dass auch Feldman die 100 Billionen definitiv nicht von OpenAI haben kann. Er hat wahrscheinlich das Video von Friedman gesehen und da etwas verwechselt. Vielleicht wollte er es auch so darstellen, immerhin konstruiert und vertreibt seine Firma Spezial-CPUs, die für das Training extrem komplexer Modelle benötigt werden.

Doch wie es im Journalismus so läuft, zitieren meist alle von derselben Quelle, ohne diese auf ihren Wahrheitsgehalt hin zu überprüfen.

Der erste, der diese Zahl in Frage gestellt hat, ist der KI-Experte Cobus Greyling. Dieser stellte in seinem Artikel bei Medium die Frage, ob diese Erwartung an GPT-4s Größe überhaupt realistisch sind.

Sein Beitrag sollte eigentlich den Hype rund um das nächste Sprachmodell stoppen, denn er betrachtete historische Skalierung großer Sprachmodelle und kommt zum Schluss, dass GPT-4 sehr viel wahrscheinlicher „1 Trillion“, also 1 Billion Parameter haben dürfte, als „100 Trillion“.

Diese Annahme trifft Greyling schlicht und einfach, weil die größten Konkurrenzmodelle, wie Googles PaLM und MT-NLG etwa 500 Milliarden Parameter haben und GPT-4 mit 1 Billion doppelt so groß wäre. Mit 100 Billionen Parametern wäre GPT-4 gleich 200 mal größer, als das größte Modell der Konkurrenz, was in der Tat wenig realistisch ist.

Was sind realistische GPT-4-Größenerwartungen?

Doch anstatt die genannte Anzahl der Parameter in Frage zu stellen, führte dieser Artikel zu einer weiteren Welle der Verbreitung von Fehlinformationen. So behauptet der Journalist Reed Albergotti in seinem Artikel Ende März „The latest language model, GPT-4, has 1 trillion parameters“ ohne dabei irgendeine Quelle zu nennen. Was auf Wikipedia jedoch so dargestellt wird, als hätte er behauptet, er habe mit „acht Personen, die mit der Insider-Geschichte vertraut sind“, innerhalb von OpenAI gesprochen und herausgefunden, dass GPT-4 eine Billion Parameter hätte.

So schnell wird aus einer groben Einschätzung ein Faktum. Wirklich erschreckend!

Doch wieviele Parameter hat GPT-4 denn nun?

Die Wahrheit ist, dass OpenAI bis heute keinerlei nähere Informationen zu GPT-4s Aufbau veröffentlich hat. Es ist weder bekannt, inwieweit sich die Architekt im Vergleich zu dessen Vorgänger GPT-3 verändert hat, noch wie viele Parameter genau das Modell hat.

Wir wissen noch nicht einmal, mit welchen Trainingsdaten GPT-4 trainiert wurde! Bei GPT-3 wurden diese Informationen noch in einem Forschungspapier veröffentlicht, doch die zunehmende Kommerzialisierung der Sprachmodelle und die zunehmende Konkurrenz durch Google, Meta, Aleph Alpha und Co. führt jedoch dazu, dass man bei OpenAI nicht mehr so detailliert über die neuesten Fortschritte spricht.

Es lässt sich somit nur abschätzen, wieviele Parameter GPT-4 ungefähr haben könnte!

Der technische Bericht zu GPT-4 enthält zwar keine Angaben zur Größe des Modells, zur Architektur oder zur Hardware, die beim Training oder bei der Inferenz verwendet wurde, er beschreibt jedoch, dass das Modell zunächst mit einer Kombination aus überwachtem Lernen auf einem großen Datensatz und anschließendem Verstärkungslernen unter Verwendung von menschlichem und KI-Feedback trainiert wurde. Dieses nachträgliche Fine-Tuning ist für die Leistungsfähigkeit großer Sprachmodells tatsächlich wichtiger, als die pure Anzahl der Parameter. Das konnte man bereits bei Stanfords Alpaca wunderbar sehen, das auf Metas LLaMA-Modell basiert und mittels Feedback von GPT-4 nachtrainiert wurde. Mit nur 7 Milliarden Parametern, also einem 25tel der Größe von GPT-3 erreicht Alpaca vergleichbare Leistungen bei diversen Aufgaben.

Gräbt man noch etwas tiefer findet man im WIRED Interview noch die Angabe von Sam Altman, dass die Kosten für das Training von GPT-4 mehr als 100 Millionen Dollar betrugen. Im Vergleich zu den (geschätzten) 4,6 Millionen von GPT-3 also eine verzwanzigfachung des Rechenaufwands, was wiederum nicht unmittelbar auf 20-mal so viele Parameter in GPT-4 schließen lässt.

Fazit: Wieviele Parameter hat GPT-4 denn nun?

Ich gehe davon aus, dass es sich bei GPT-4 um eine erweiterte Architektur von GPT-3 handelt, die auch mehr Parameter im Kern enthalten dürfte. Die Ein- und Ausgabeschicht wurde zwar massiv erweitert, so dass das größte GPT-4 Modell in der Lage ist bis zu 32.768 Token Text aufeinmal zu verarbeiten. Das ist 8-mal so viel, wie bei GPT-3. Das muss allerdings nicht bedeuten, dass auch die Anzahl der Parameter sich verachtfacht hat. Von 175 Milliarden auf 1 Billion wäre ein Faktor von 5,7 – also durchaus eine realistische Vergrößerung und könnte, angesichts der gestiegenen Komplexität auch zu einer verzwanzigfachung der Trainingskosten führen, insbesondere, wenn man das nachträgliche Fine-Tuning intensiviert.

Genau wissen wir es also nicht, aber ungefähr eine Billion Parameter dürfte für das aktuelle GPT-4-Modell von OpenAI jedoch durchaus realistisch sein.

4js Nein, GPT-4 hat weder 100 Billionen Parameter noch 1 trillion Parameter