Transformer-Architektur

Jedes moderne Sprachmodell, das Du nutzt, basiert auf derselben Grundstruktur: gestapelte Blöcke aus Attention, Feed-Forward-Networks und Normalisierung. Das ist die Transformer-Architektur.

Wenn Du ChatGPT, Claude oder ein anderes Sprachmodell verwendest, arbeitet im Hintergrund immer dieselbe Grundstruktur. Sie heißt Transformer-Architektur und wurde 2017 in einem einzigen Paper vorgestellt. Seitdem hat sie praktisch alle anderen Ansätze verdrängt.

Das Prinzip ist erstaunlich überschaubar: Ein Transformer-Block besteht aus einer Multi-Head-Attention-Schicht, einer Normalisierung, einem Feed-Forward-Network und einer weiteren Normalisierung. Dazu kommen Residual Connections, also Überbrückungsverbindungen, die dafür sorgen, dass Information nicht verloren geht und der Gradient beim Training stabil durch das gesamte Netzwerk fließen kann. Diesen Block stapelst Du einfach mehrfach übereinander. Fertig.

Die ursprüngliche Architektur hatte zwei Teile: einen Encoder und einen Decoder. Der Encoder liest den gesamten Text auf einmal und versteht Zusammenhänge in beide Richtungen. Der Decoder erzeugt Text Wort für Wort und darf dabei nur auf das zugreifen, was bereits geschrieben wurde. Zwischen beiden vermittelt Cross-Attention. In der Praxis hat sich gezeigt, dass spezialisierte Varianten besser funktionieren: BERT nutzt nur den Encoder, GPT-3 und Claude nur den Decoder, T5 beides.

Was die Leistungsfähigkeit eines Transformer-Modells bestimmt, sind vier Parameter:

Anzahl der gestapelten Blöcke (Tiefe)
Dimensionalität der internen Repräsentationen (Breite)
Anzahl der Attention-Heads
Größe des Feed-Forward-Networks

Wenn Du hörst, dass ein Modell "größer" ist als ein anderes, meint das in der Regel: mehr Blöcke, breitere Repräsentationen oder beides.

Mit diesem Verständnis kannst Du einschätzen, warum manche Modelle schneller, günstiger oder besser für bestimmte Aufgaben sind. Ein Modell mit 7 Milliarden Parametern hat weniger Blöcke und schmalere Repräsentationen als eines mit 70 Milliarden. Das erklärt, warum das kleinere Modell weniger kann, aber auf Deinem eigenen Rechner laufen könnte.

Karl Kratz · 18.01.2025 (aktualisiert 16.03.2026)

Technologie Künstliche Intelligenz Deep Learning Architektur