GPT-3

Ein Sprachmodell erhält einen kurzen Text und soll den nächsten Satz ergänzen. Normalerweise funktioniert das passabel, aber nicht besonders gut. Ab einer bestimmten Modellgröße ändert sich das: Das Modell liefert plötzlich brauchbare Übersetzungen, Zusammenfassungen und sogar Code, obwohl es nur auf Texte trainiert wurde. Dieses Phänomen trat 2020 erstmals deutlich sichtbar bei GPT-3 auf.

Woher GPT-3 kommt und was es von seinen Vorgängern unterscheidet

OpenAI veröffentlichte GPT-3 im Juni 2020 als Nachfolger von GPT-2. GPT-2 hatte 2019 mit 1,5 Milliarden Parametern gezeigt, dass ein einzelnes Sprachmodell verschiedene Aufgaben bewältigen kann. GPT-3 skalierte diesen Ansatz um den Faktor 100 auf 175 Milliarden Parameter.

Die Architektur blieb dabei nahezu identisch: ein Decoder-only Transformer, der Token für Token vorhersagt. Der entscheidende Unterschied lag ausschließlich in der Größe des Modells, des Trainingsdatensatzes und der eingesetzten Rechenleistung.

Beispiel: GPT-2 konnte auf die Eingabe "Erkläre Photosynthese" einen grammatisch korrekten, aber oft inhaltlich flachen Text erzeugen. GPT-3 produzierte auf dieselbe Eingabe einen strukturierten Absatz mit korrekter Fachterminologie, ohne je explizit auf Biologie trainiert worden zu sein.

Das begleitende Paper "Language Models are Few-Shot Learners" erschien mit acht Autoren, darunter Tom Brown und Benjamin Mann. Es gehört zu den meistzitierten Arbeiten im Bereich Deep Learning.

Architektur und Trainingsprozess

GPT-3 verwendet einen Decoder-only Transformer mit 96 Schichten, 96 Attention-Köpfen und einer Einbettungsdimension von 12.288. Jeder Attention-Kopf arbeitet mit einer Dimension von 128. Das Kontextfenster umfasst 2.048 Token.

Beispiel: Bei einer Eingabe von 500 Token berechnet jeder der 96 Attention-Köpfe in jeder der 96 Schichten, welche bisherigen Token für die Vorhersage des nächsten Token relevant sind. Das ergibt 9.216 parallele Attention-Berechnungen pro Vorhersageschritt.

Trainiert wurde GPT-3 auf einem Datensatz von rund 570 GB bereinigtem Text. Die Quellen umfassten Common Crawl (nach Filterung), WebText2, zwei Buchkorpora und die englische Wikipedia. Common Crawl machte etwa 60% des Trainings aus, wurde aber heruntergewichtet, weil die Textqualität niedriger war als bei den kuratierten Quellen.

Beispiel: Ein Datenpunkt aus Common Crawl könnte ein Forenbeitrag mit Grammatikfehlern sein. Ein Datenpunkt aus dem Buchkorpus könnte ein Absatz aus einem Fachbuch über Thermodynamik sein. OpenAI gewichtete den Buchkorpus höher, obwohl sein Volumen geringer war.

Das Training erfolgte über mehrere Wochen auf einem Cluster mit tausenden GPUs. Die geschätzten Trainingskosten lagen bei 4,6 Millionen US-Dollar (Rechenkosten auf Cloud-Preisniveau von 2020).

Eingabe-TokenSequenz bis 2.048 Token

Embedding-Schicht12.288 Dimensionen

96 Transformer-Schichtenje 96 Attention-Köpfe

Ausgabe-SchichtWahrscheinlichkeit pro Token

Nächstes Tokenhöchste Wahrscheinlichkeit

Aufgaben lösen ohne zusätzliches Training: In-Context Learning

Die zentrale Beobachtung des GPT-3-Papers: Das Modell konnte neue Aufgaben lösen, indem es lediglich Anweisungen oder Beispiele im Prompt erhielt. Es war kein Fine-Tuning und kein Gradientenupdate nötig. Das Paper unterschied drei Varianten:

Zero-Shot: Nur eine Aufgabenbeschreibung, keine Beispiele. "Translate English to French: cheese =>"

One-Shot: Ein einzelnes Beispiel vor der eigentlichen Aufgabe. "sea otter => loutre de mer. cheese =>"

Few-Shot: Mehrere Beispiele (typischerweise 10 bis 100) im Prompt.

Beispiel: Für eine Sentiment-Analyse genügten drei Beispielpaare im Prompt ("Tolles Produkt" => positiv, "Schlechter Service" => negativ, "Lieferung war okay" => neutral), und GPT-3 klassifizierte danach weitere Sätze korrekt. Ohne jedes Beispiel (Zero-Shot) lag die Trefferquote bei etwa 65%, mit drei Beispielen bei über 80%.

Beispiel: Übersetzung vom Englischen ins Rumänische: Im Few-Shot-Setting mit 5 Beispielpaaren erreichte GPT-3 einen BLEU-Score von 21,0 auf dem WMT-16 Benchmark. Ein spezialisiertes Übersetzungsmodell erreichte 28,0. GPT-3 war also nicht state-of-the-art, aber für ein Modell ohne explizites Übersetzungstraining bemerkenswert nah dran.

Fachliche Einordnung: In-Context Learning ist kein Lernen im herkömmlichen Sinne. Die Modellgewichte verändern sich während der Inferenz nicht. Das Modell nutzt die Beispiele im Prompt als zusätzlichen Kontext für seine Vorhersage. Ob dabei eine implizite Form von Gradientenabstieg in den Aktivierungen stattfindet, ist Gegenstand aktiver Forschung (Dai et al., 2023; von Oswald et al., 2023).

Warum Größe den Unterschied machte: Skalierung

GPT-3 war nicht nur groß. Es war Teil einer systematischen Untersuchung: OpenAI trainierte acht Modelle von 125 Millionen bis 175 Milliarden Parametern und verglich deren Leistung auf denselben Aufgaben. Das Ergebnis war eindeutig: Größere Modelle schnitten bei fast allen Aufgaben besser ab, und der Vorsprung wuchs mit der Anzahl der Few-Shot-Beispiele.

Beispiel: Bei der Aufgabe "Wortanalogie lösen" ("König zu Königin wie Mann zu ???") lag das 125M-Modell bei 28% Genauigkeit. Das 1,3B-Modell erreichte 42%. GPT-3 mit 175B erreichte 65%. Jede Größenordnung brachte einen messbaren Sprung.

Diese Beobachtung passte zu den vorher von Kaplan et al. (2020) beschriebenen Scaling Laws: Die Leistung eines Sprachmodells folgt einer Potenzfunktion der Modellgröße, der Datenmenge und der eingesetzten Rechenleistung. GPT-3 demonstrierte diese Gesetzmäßigkeit in einer für die Forschungsgemeinschaft überzeugenden Größenordnung.

Beispiel: Auf dem Trivia-QA-Benchmark (faktische Wissensfragen) erreichte GPT-3 im Zero-Shot-Setting 64,3% Genauigkeit. Das übertraf das zuvor beste Modell, das speziell auf diesen Benchmark trainiert worden war (RAG, 68,0%), zwar nicht, kam aber ohne jedes aufgabenspezifische Training bemerkenswert nahe.

Zugang über API statt Open Source

Anders als bei GPT-2 veröffentlichte OpenAI weder die Modellgewichte noch den Trainingscode. Stattdessen bot OpenAI GPT-3 über eine API an. Entwickler sendeten Textanfragen an einen Endpunkt und erhielten Antworten zurück. Die Abrechnung erfolgte pro Token.

Beispiel: Ein Entwickler, der GPT-3 für einen Chatbot nutzte, sendete pro Nutzeranfrage etwa 500 Token (Prompt plus Kontext) und erhielt 200 Token zurück. Bei einem Preis von 0,06 US-Dollar pro 1.000 Token (Modell davinci) kostete eine Interaktion rund 0,04 US-Dollar.

Dieses Modell hatte Konsequenzen. Es ermöglichte OpenAI, die Nutzung zu kontrollieren und Einnahmen zu generieren. Gleichzeitig beschränkte es die wissenschaftliche Reproduzierbarkeit: Externe Forschergruppen konnten GPT-3 nicht selbst trainieren oder modifizieren. Die Kosten dafür wären ohnehin prohibitiv gewesen.

Aus diesem API-Modell entwickelte sich ein gesamtes Ökosystem. Unternehmen wie Jasper, Copy.ai und zahllose kleinere Startups bauten ihre Produkte auf der GPT-3-API auf. Als OpenAI 2022 ChatGPT auf Basis von GPT-3.5 startete, war die Infrastruktur bereits erprobt.

Wo GPT-3 stark war und wo es scheiterte

GPT-3 zeigte auf vielen Benchmarks starke Ergebnisse, hatte aber klar definierbare Schwächen.

Stärken: Textgenerierung, Few-Shot-Klassifikation, einfache Übersetzung, Zusammenfassung, Codegenerierung (in Ansätzen). Bei Aufgaben mit natürlichsprachlicher Ein- und Ausgabe war GPT-3 oft konkurrenzfähig mit spezialisierten Modellen.

Schwächen: Aufgaben, die exaktes logisches Schlussfolgern erforderten, bereiteten Probleme. Arithmetik war ab vierstelligen Zahlen unzuverlässig. Auf dem ANLI-Benchmark (Adversarial Natural Language Inference) lag GPT-3 nur knapp über dem Zufallsniveau.

Beispiel: Auf die Frage "Was ist größer: ein Nickel oder die Sonne?" antwortete GPT-3 korrekt. Auf die Frage "Wenn ich 3 Hemden und 2 Paar Schuhe habe, wie viele Kombinationen sind möglich?" lieferte es gelegentlich 5 statt 6. Einfache Rechenoperationen waren nicht zuverlässig.

Beispiel: GPT-3 konnte auf Aufforderung einen syntaktisch korrekten Python-Funktionsrumpf erzeugen. Bei komplexeren Algorithmen (z.B. Graphentraversierung) enthielt der Code häufig logische Fehler, die erst bei der Ausführung sichtbar wurden.

Das Paper dokumentierte zudem Bias-Probleme: GPT-3 reproduzierte Stereotypen aus den Trainingsdaten. Bei Religion, Geschlecht und Ethnie zeigten die generierten Texte messbare Verzerrungen. Die Autoren widmeten diesem Thema ein eigenes Kapitel, ohne eine Lösung anzubieten.

Die verschiedenen Modellvarianten

OpenAI bot GPT-3 nicht als einzelnes Modell an, sondern in vier Varianten mit unterschiedlichen Größen und Kosten:

Ada (350M Parameter): Schnellstes und günstigstes Modell. Geeignet für Embedding-Aufgaben und einfache Klassifikation.

Babbage (1,3B Parameter): Etwas leistungsfähiger, für einfache Textaufgaben.

Curie (6,7B Parameter): Gutes Verhältnis von Leistung zu Kosten, für Zusammenfassungen und Klassifikation.

Davinci (175B Parameter): Das vollständige Modell. Am leistungsfähigsten, am teuersten, am langsamsten.

Beispiel: Ein Unternehmen, das E-Mails automatisch in Kategorien einteilen wollte (Support, Verkauf, Buchhaltung), konnte Curie verwenden und zahlte etwa ein Zehntel des Davinci-Preises. Für die Generierung längerer Texte war Davinci jedoch deutlich überlegen.

GPT-3 im Kontext späterer Modelle

GPT-3 wurde in mehreren Schritten weiterentwickelt. InstructGPT (Januar 2022) nutzte Reinforcement Learning from Human Feedback (RLHF), um GPT-3 besser an menschliche Anweisungen anzupassen. GPT-3.5 kombinierte diese Verfeinerung mit zusätzlichem Training. ChatGPT (November 2022) basierte auf GPT-3.5 und erreichte innerhalb weniger Tage Millionen Nutzer.

Im Vergleich zu heute verfügbaren Modellen wirkt GPT-3 begrenzt. Sein Kontextfenster von 2.048 Token ist kurz (aktuelle Modelle unterstützen 128.000 und mehr). Es unterstützt weder Bilder noch andere Modalitäten. Seine Fähigkeit zur Befolgung komplexer Anweisungen ist gegenüber RLHF-trainierten Nachfolgern deutlich schwächer.

Beispiel: Die Anweisung "Schreibe eine Produktbeschreibung für Kopfhörer. Maximal 50 Wörter. Erwähne Geräuschunterdrückung. Kein Marketingsprech." würde GPT-3 häufig nur teilweise befolgen (z.B. die Wortgrenze ignorieren). InstructGPT und spätere Modelle halten solche Constraints zuverlässiger ein.

Fachliche Einordnung: GPT-3 war nicht das erste große Sprachmodell. Googles T5 (11B Parameter, 2019) und BERT (340M, 2018) gingen voraus. GPT-3 war jedoch das erste Modell, das die Hypothese "Skalierung führt zu qualitativen Sprüngen" in einer Größenordnung bestätigte, die für die breite Forschungsgemeinschaft überzeugend war. Die Debatte, ob GPT-3 tatsächlich "emergente" Fähigkeiten zeigt oder ob der Eindruck durch die Wahl der Metriken entsteht, dauert an (Schaeffer et al., 2023).

Grenzen und offene Fragen

GPT-3 hat strukturelle Limitationen, die nicht durch Skalierung innerhalb derselben Architektur gelöst werden können.

Kein Weltwissen-Update: Das Modell kennt nur Informationen aus seinen Trainingsdaten (Stichtag etwa Mitte 2020). Fakten danach sind ihm unbekannt. Es gibt keinen Mechanismus, einzelne Fakten nachträglich zu korrigieren, ohne das gesamte Modell neu zu trainieren oder zu ergänzen.

Keine Quellenangabe: GPT-3 generiert Text, ohne Herkunft oder Zuverlässigkeit der Informationen anzugeben. Es unterscheidet nicht zwischen gesichertem Wissen und statistisch plausiblen Halluzinationen.

Beispiel: Auf die Frage "Wer gewann die Bundestagswahl 2025?" würde GPT-3 entweder eine falsche Antwort generieren oder einen plausibel klingenden, aber erfundenen Satz produzieren.

Ressourcenverbrauch: Training und Betrieb von GPT-3 erfordern erhebliche Rechenleistung. Patterson et al. (2021) schätzten den CO2-Ausstoß des Trainings auf 552 Tonnen. Im Vergleich: Ein Transatlantikflug verursacht etwa 1,6 Tonnen pro Passagier.

Reproduzierbarkeit: Weil OpenAI weder Gewichte noch Trainingscode veröffentlichte, ist GPT-3 für die Wissenschaft nur über die API überprüfbar. Unabhängige Replikation ist praktisch nicht möglich. Projekte wie GPT-NeoX (EleutherAI, 20B Parameter) versuchten, ähnliche Modelle offen nachzubauen.

Fachliche Einordnung: Die Frage, ob ein Modell wie GPT-3 "Sprache versteht" oder lediglich statistische Muster reproduziert, bleibt offen. Bender und Koller (2020) argumentierten in "Climbing towards NLU", dass reine Textstatistik prinzipiell nicht zu Sprachverständnis führen kann. Befunde wie die erfolgreiche Zero-Shot-Leistung auf vorher ungesehenen Aufgaben widersprechen dieser Position zumindest empirisch. Eine Auflösung dieser Debatte steht aus.

Karl Kratz · 18.09.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz LLM