Transformer
Ein Satz geht in ein System hinein. Statt ihn Wort für Wort abzuarbeiten, betrachtet das System alle Wörter gleichzeitig. Jedes Wort prüft, welche anderen Wörter für seine Bedeutung relevant sind. Aus diesen Beziehungen entsteht ein Verständnis des gesamten Satzes. Diese Architektur heißt Transformer.
Transformer wurde 2017 von Google-Forschern im Paper "Attention Is All You Need" vorgestellt. Die Architektur bildet die Grundlage praktisch aller modernen Sprachmodelle. GPT, Claude, Gemini, LLaMA: Sie alle basieren auf Transformer oder Varianten davon.
Der entscheidende Unterschied zu früheren Ansätzen: Transformer verarbeitet Eingaben parallel, nicht sequentiell. Frühere Architekturen wie rekurrente Netze (RNNs) mussten jedes Wort einzeln durchlaufen. Transformer sieht alle Positionen gleichzeitig. Das macht das Training auf GPU-Hardware erheblich effizienter und hat den Weg zu Modellen mit Hunderten Milliarden Parametern geöffnet.
Kernmechanismus: Self-Attention
Das Herzstück jedes Transformers ist Self-Attention. Die Idee: Jedes Token in der Eingabe berechnet, wie stark es auf jedes andere Token achten soll. Daraus entsteht eine gewichtete Zusammenfassung des gesamten Kontexts.
Beispiel 1: Im Satz "Die Katze saß auf der Matte, weil sie müde war" muss das Modell erkennen, dass "sie" sich auf "Katze" bezieht und nicht auf "Matte". Self-Attention berechnet für "sie" hohe Aufmerksamkeitswerte gegenüber "Katze" und niedrige gegenüber "Matte".
Beispiel 2: Bei der Eingabe "Die Bank am Fluss" und "Die Bank in der Stadt" erzeugt Self-Attention für das Wort "Bank" unterschiedliche Repräsentationen. Im ersten Fall fließt Kontext von "Fluss" ein, im zweiten von "Stadt".
Formal berechnet Self-Attention drei Vektoren pro Token: Query, Key und Value. Die Aufmerksamkeit zwischen zwei Tokens ergibt sich aus dem Skalarprodukt von Query und Key, normalisiert durch die Wurzel der Dimension. Die resultierende Gewichtung wird auf die Value-Vektoren angewendet.
Beispiel 3: Bei einem Eingabesatz mit 10 Tokens erzeugt Self-Attention eine 10x10-Matrix. Jeder Eintrag gibt an, wie stark Token i auf Token j achtet. Diese Matrix wird für jede Schicht und jeden Attention-Kopf separat berechnet.
Fachliche Einordnung: Self-Attention ist mathematisch eine gewichtete Summe mit lernbaren Gewichten. Die Bezeichnung "Attention" stammt aus der Analogie zur menschlichen Aufmerksamkeit, beschreibt aber einen rein numerischen Vorgang: Matrixmultiplikation mit anschließender Softmax-Normalisierung.
Multi-Head Attention
Ein einzelner Attention-Mechanismus kann immer nur eine Art von Beziehung gleichzeitig abbilden. Transformer lösen dieses Problem durch Multi-Head Attention: Sie führen mehrere Attention-Berechnungen parallel aus und kombinieren die Ergebnisse.
Beispiel 4: Ein Kopf könnte lernen, syntaktische Beziehungen zu erkennen (Subjekt-Verb-Zuordnung). Ein anderer Kopf erfasst semantische Nähe ("Arzt" achtet auf "Patient"). Ein dritter Kopf erkennt Koreferenzen ("er" bezieht sich auf "Arzt"). Diese unterschiedlichen Perspektiven werden kombiniert.
Beispiel 5: GPT-3 verwendet 96 Attention-Köpfe pro Schicht. Jeder Kopf arbeitet mit einer reduzierten Dimension (128 statt 12288), sodass die Gesamtkosten vergleichbar bleiben mit einer einzelnen Attention-Berechnung in voller Dimension.
Technisch wird die Eingabe durch unterschiedliche lineare Projektionen in verschiedene Unterräume transformiert. Jeder Kopf berechnet Attention in seinem Unterraum. Die Ergebnisse werden konkateniert und durch eine weitere lineare Projektion zusammengeführt.
Aufbau des Transformer-Blocks
Ein Transformer besteht aus gestapelten Blöcken. Jeder Block enthält dieselben Komponenten in fester Reihenfolge.
Beispiel 6: GPT-3 stapelt 96 solcher Blöcke übereinander. Jeder Block verarbeitet alle Tokens parallel, und die Ausgabe eines Blocks wird zur Eingabe des nächsten. Die frühen Schichten erfassen typischerweise Syntax und lokale Muster, die späten Schichten abstrakte Semantik und Weltwissen.
Residualverbindungen (die "Add"-Teile) sorgen dafür, dass Information auch über viele Schichten hinweg nicht verloren geht. Layer Normalization stabilisiert die Werte zwischen den Schichten. Ohne diese beiden Techniken wäre das Training tiefer Transformer instabil.
Das Feed-Forward-Netz innerhalb jedes Blocks besteht aus zwei linearen Transformationen mit einer nichtlinearen Aktivierungsfunktion dazwischen. Es verarbeitet jede Position unabhängig. Die Forschung zeigt, dass diese Schicht als eine Art Wissensspeicher fungiert: Faktenwissen wird hier in den Gewichten gespeichert.
Positionsinformation
Self-Attention hat eine Eigenschaft, die zunächst wie ein Problem aussieht: Der Mechanismus ist positionsunabhängig. Er behandelt "Hund beißt Mann" und "Mann beißt Hund" identisch, weil er nur die Beziehungen zwischen Tokens betrachtet, nicht deren Reihenfolge.
Beispiel 7: Ohne Positionsinformation wären die Sätze "Alice schickte Bob eine Nachricht" und "Bob schickte Alice eine Nachricht" für das Modell nicht unterscheidbar. Die Embeddings der einzelnen Wörter sind identisch, nur die Reihenfolge ändert sich.
Transformer lösen dieses Problem durch Positional Encoding: Zu jedem Token-Embedding wird ein Positionsvektor addiert, der die Stelle im Satz kodiert.
Das originale Paper verwendet Sinus- und Kosinusfunktionen verschiedener Frequenzen. Neuere Modelle (wie RoPE bei LLaMA) nutzen rotationsbasierte Verfahren, die sich besser auf längere Sequenzen generalisieren lassen. Absolute vs. relative Positionskodierung ist ein aktives Forschungsgebiet.
Beispiel 8: Bei einer Sequenzlänge von 2048 Tokens erzeugt das Positional Encoding 2048 verschiedene Vektoren. Jeder Vektor hat dieselbe Dimension wie das Token-Embedding (z.B. 768 bei BERT-Base). Durch Addition verschmelzen Token-Identität und Position zu einem einzigen Vektor.
Encoder, Decoder und ihre Varianten
Die ursprüngliche Transformer-Architektur aus dem 2017er-Paper besteht aus zwei Teilen: einem Encoder und einem Decoder.
Der Encoder liest die gesamte Eingabe und erzeugt eine interne Repräsentation. Jedes Token kann dabei auf alle anderen Tokens zugreifen (bidirektionale Attention). Der Decoder erzeugt die Ausgabe Token für Token. Er darf dabei nur auf bereits erzeugte Tokens und die Encoder-Repräsentation zugreifen (maskierte Attention nach rechts).
Beispiel 9: Bei einer Übersetzung von Deutsch nach Englisch liest der Encoder den deutschen Satz vollständig. Der Decoder generiert dann schrittweise den englischen Satz. Beim Erzeugen des dritten englischen Worts kann er auf alle deutschen Wörter und die ersten zwei englischen Wörter zugreifen, aber nicht auf zukünftige englische Wörter.
In der Praxis haben sich drei Varianten durchgesetzt:
- Encoder-only (BERT, RoBERTa): Bidirektionale Verarbeitung. Gut für Klassifikation, Named Entity Recognition, Satzähnlichkeit.
- Decoder-only (GPT, Claude, LLaMA): Autoregressive Textgenerierung. Ein Token nach dem anderen, wobei jedes Token nur vorherige sehen kann.
- Encoder-Decoder (T5, mBART): Kombination beider Teile. Gut für Übersetzung, Zusammenfassung, Frage-Antwort.
Beispiel 10: Claude ist ein Decoder-only-Modell. Bei einer Frage wie "Erkläre Transformer" wird die Frage tokenisiert und als Kontext in den Decoder gegeben. Der Decoder generiert dann die Antwort Token für Token, wobei jedes neue Token auf alle vorherigen Tokens (Frage + bisherige Antwort) zugreifen kann.
Training und Skalierung
Transformer werden typischerweise in zwei Phasen trainiert: Vortraining (Pre-Training) auf großen Textmengen und anschließendes Fine-Tuning auf spezifische Aufgaben.
Im Vortraining lernt ein Decoder-Modell, das nächste Token vorherzusagen. Es liest Milliarden von Textdokumenten und passt seine Parameter so an, dass die Vorhersage möglichst oft richtig ist. Dieses Verfahren heißt "Next Token Prediction" oder "Causal Language Modeling".
Beispiel 11: Während des Trainings sieht das Modell den Satz "Die Hauptstadt von Frankreich ist" und soll "Paris" vorhersagen. Über Milliarden solcher Vorhersagen lernt es Grammatik, Faktenwissen, logische Zusammenhänge und Sprachkonventionen.
Die Skalierung von Transformern folgt beobachteten Gesetzen (Scaling Laws): Mit mehr Parametern, mehr Trainingsdaten und mehr Rechenleistung verbessert sich die Leistung vorhersagbar. Diese Beobachtung von Kaplan et al. (2020) und Hoffmann et al. (2022, Chinchilla) hat die Entwicklung immer größerer Modelle motiviert.
Beispiel 12: GPT-2 (2019) hat 1,5 Milliarden Parameter. GPT-3 (2020) hat 175 Milliarden. GPT-4 (2023) liegt schätzungsweise noch deutlich darüber. Jede Vergrößerung brachte qualitative Sprünge bei komplexen Aufgaben wie Argumentation, Zusammenfassung und Codeerzeugung.
Die Trainingskosten steigen dabei überproportional. Ein GPT-3-Training kostete 2020 geschätzt 4,6 Millionen USD an Rechenleistung. Aktuelle Frontier-Modelle liegen um Größenordnungen darüber. Das macht Training zu einem Engpass, der nur von wenigen Organisationen überwunden werden kann.
Anwendungsgebiete
Transformer dominieren heute die Verarbeitung natürlicher Sprache (NLP), haben sich aber längst über Text hinaus ausgebreitet.
Beispiel 13: Vision Transformers (ViT) zerlegen ein Bild in Patches (z.B. 16x16 Pixel), behandeln jeden Patch wie ein Token und verarbeiten sie mit der Standard-Transformer-Architektur. Damit erreichen sie auf Bildklassifikation vergleichbare Ergebnisse wie spezialisierte Faltungsnetze (CNNs).
Beispiel 14: AlphaFold 2 nutzt eine Transformer-Variante zur Vorhersage von Proteinstrukturen. Die Eingabe sind Aminosäuresequenzen, die Ausgabe ist die dreidimensionale Faltung des Proteins. Das System hat die Strukturbiologie grundlegend verändert.
Weitere Anwendungsgebiete:
- Audio: Whisper (Spracherkennung), MusicGen (Musikgenerierung)
- Code: Codex, StarCoder, Code Llama (Codegenerierung und -vervollständigung)
- Multimodal: GPT-4V, Gemini (Text + Bild + Audio in einem Modell)
- Zeitreihen: Informer, PatchTST (Prognosen auf tabellarischen Daten)
Die Vielseitigkeit rührt daher, dass Transformer auf Sequenzen beliebiger Art operieren. Jede Eingabe, die sich als Folge von Tokens darstellen lässt, kann verarbeitet werden.
Grenzen und offene Fragen
Die quadratische Komplexität von Self-Attention ist das bekannteste Skalierungsproblem. Bei einer Sequenzlänge von n beträgt der Rechenaufwand O(n²). Das bedeutet: Doppelt so lange Eingaben vervierfachen den Aufwand.
Beispiel 15: Ein Dokument mit 100.000 Tokens erzeugt eine Attention-Matrix mit 10 Milliarden Einträgen. Das sprengt den Speicher handelsüblicher GPUs. Aktuelle Lösungsansätze wie FlashAttention, Sparse Attention oder Ring Attention reduzieren diesen Aufwand, allerdings mit Einschränkungen bei der Genauigkeit oder dem Kontextzugang.
Transformer haben kein explizites Gedächtnis über die Kontextlänge hinaus. Alles, was das Modell wissen soll, muss im Prompt stehen oder während des Trainings gelernt worden sein. Retrieval-Augmented Generation (RAG) adressiert diese Grenze, indem externe Dokumente zur Laufzeit in den Kontext eingebracht werden.
Beispiel 16: Fragt man ein Sprachmodell nach einem Ereignis, das nach dem Trainingszeitpunkt stattfand, kann es keine korrekte Antwort geben. Selbst mit langem Kontext (z.B. 200.000 Tokens) gehen Informationen in der Mitte des Kontexts nachweislich leichter verloren als am Anfang oder Ende ("Lost in the Middle"-Problem).
Weitere offene Fragen betreffen die Interpretierbarkeit (warum trifft das Modell eine bestimmte Entscheidung?), die Energieeffizienz (Training verbraucht erhebliche Ressourcen) und die Frage, ob Transformer tatsächlich "verstehen" oder nur statistische Muster reproduzieren.
Fachliche Einordnung: Die Forschung arbeitet aktiv an Alternativen und Erweiterungen. State Space Models (Mamba), Mixture of Experts (MoE) und hybride Architekturen kombinieren Transformer-Elemente mit anderen Ansätzen. Stand 2026 bleibt die Transformer-Architektur dominant, aber der Architekturraum wird breiter.