GPT-2

GPT-2 ist OpenAIs Transformer-Modell von 2019 mit bis zu 1.5B Parametern.

GPT-2 (Generative Pre-trained Transformer 2) ist ein Sprachmodell von OpenAI, das im Februar 2019 vorgestellt wurde. Es war eines der ersten Modelle, das überzeugende Textgenerierung in offener Domäne demonstrierte und damit breite öffentliche Aufmerksamkeit auf die Fähigkeiten großer Sprachmodelle lenkte.

Das Modell basiert auf der Transformer-Decoder-Architektur und wurde auf einem großen Webtext-Datensatz trainiert. Es erschien in vier Größen: 117M, 345M, 762M und 1,5 Milliarden Parameter. OpenAI verzögerte die Veröffentlichung des größten Modells zunächst aus Sorge vor Missbrauch - eine Entscheidung, die damals intensiv diskutiert wurde.

GPT-2 zeigte erstmals, dass ein reines Sprachmodell ohne aufgabenspezifisches Training verschiedene NLP-Aufgaben wie Zusammenfassung, Übersetzung und Frage-Beantwortung in grundlegender Form beherrscht. Dieses sogenannte Zero-Shot-Verhalten deutete auf die emergenten Fähigkeiten großer Modelle hin.

Heute ist GPT-2 frei verfügbar und dient häufig als Einstiegsmodell für Lernzwecke und Experimente. Die Architektur bildet die Grundlage der gesamten GPT-Modellfamilie.


Karl Kratz · 31.10.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm