GPT-2-Modell

GPT-2-Modell bezeichnet ein Modell mit GPT-2 Architektur.

Ein GPT-2-Modell ist ein Sprachmodell, das auf der Architektur von OpenAIs GPT-2 basiert. Der Begriff wird sowohl für das ursprüngliche Modell als auch für Varianten verwendet, die mit derselben Architektur, aber auf anderen Daten oder mit veränderten Hyperparametern trainiert wurden.

Die GPT-2-Architektur besteht aus gestapelten Transformer-Decoder-Blöcken mit kausalem Self-Attention-Mechanismus. Das Modell verarbeitet Text autoregressiv - es sagt Wort für Wort das jeweils nächste Token vorher. Die Architektur ist vergleichsweise einfach und gut dokumentiert, weshalb sie häufig als Ausgangspunkt für eigene Trainingsläufe dient.

In der Praxis begegnet man GPT-2-Modellen in verschiedenen Kontexten: als vortrainierte Modelle von Hugging Face, als fine-getunte Varianten für spezifische Aufgaben oder als selbst trainierte Modelle, die die GPT-2-Architektur als Vorlage nutzen. Die überschaubare Größe von maximal 1,5 Milliarden Parametern macht GPT-2-Modelle gut geeignet für Experimente und Prototypen auf begrenzter Hardware.

Karl Kratz · 21.05.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm