Decoder-Only

Stell dir einen Textgenerator vor, der immer nur das nächste Wort vorhersagt. Er liest alles, was bisher geschrieben wurde, und entscheidet auf dieser Basis, welches Wort als Nächstes folgt. Genau so arbeiten Decoder-Only-Modelle. Sie bilden die Grundlage fast aller großen Sprachmodelle, die heute im Einsatz sind.

Wie ein Modell Text Wort für Wort erzeugt

Die ursprüngliche Transformer-Architektur besteht aus zwei Teilen: einem Encoder, der eine Eingabe vollständig liest, und einem Decoder, der daraus schrittweise eine Ausgabe erzeugt. Decoder-Only-Modelle verzichten auf den Encoder und behalten nur den Decoder. Das Modell behandelt Eingabe und Ausgabe als eine einzige Sequenz und erzeugt den Text Token für Token.

Beispiel: Ein Nutzer gibt die Anweisung "Fasse diesen Absatz zusammen:" ein, gefolgt vom Absatz. Das Modell sieht diese gesamte Eingabe als Sequenz von Tokens. Es beginnt dann, die Zusammenfassung Token für Token anzufügen, wobei bei jedem Schritt die gesamte bisherige Sequenz in die Berechnung einfließt.

Beispiel: Bei der Eingabe "Die Hauptstadt von Frankreich ist" berechnet das Modell eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens. Das Token "Paris" erhält dabei die höchste Wahrscheinlichkeit und wird ausgegeben. Danach berechnet das Modell auf Basis von "Die Hauptstadt von Frankreich ist Paris" das nächste Token.

Warum das Modell nicht in die Zukunft schauen darf

Während des Trainings verarbeitet ein Decoder-Only-Modell ganze Textsequenzen auf einmal. Ohne Einschränkung könnte das Modell bei der Vorhersage eines Tokens auch auf nachfolgende Tokens zugreifen. Das würde die Aufgabe trivial machen: Das Modell könnte einfach das nächste Wort ablesen, statt es vorherzusagen.

Um das zu verhindern, kommt eine Technik namens kausale Attention zum Einsatz. Eine Dreiecksmaske sorgt dafür, dass jede Position in der Sequenz nur auf sich selbst und auf vorangehende Positionen zugreifen kann. Alle späteren Positionen werden mit dem Wert negativ unendlich maskiert, sodass sie nach der Softmax-Berechnung den Wert null erhalten.

Beispiel: Bei der Sequenz "Der Hund läuft schnell" darf das Modell bei der Vorhersage nach "Der Hund" nur die Tokens "Der" und "Hund" berücksichtigen. Die Tokens "läuft" und "schnell" sind durch die Maske blockiert. Erst bei der Vorhersage nach "läuft" werden "Der", "Hund" und "läuft" sichtbar.

Dieses Verfahren heißt auch Masked Self-Attention oder kausale Selbstaufmerksamkeit. Es stellt sicher, dass das Modell lernt, das nächste Token tatsächlich vorherzusagen, statt es aus dem Kontext abzulesen.

EingabesequenzTokens 1 bis N

Token-Embedding+ Positionsinformation

Kausale AttentionDreiecksmaske blockiert Zukunft

Feedforward + NormN Schichten gestapelt

Nächstes Token

Schichtweiser Aufbau eines Decoder-Only-Modells

Ein Decoder-Only-Modell besteht aus einem Stapel identischer Schichten. Jede Schicht enthält zwei Hauptkomponenten: einen kausalen Self-Attention-Block und ein Feedforward-Netzwerk. Zwischen diesen Komponenten liegen Normalisierungsschichten und sogenannte Residualverbindungen, die den Informationsfluss stabilisieren.

Die Eingabe wird zunächst in eine Sequenz von Tokens zerlegt (siehe Tokenisierung). Jedes Token wird in einen numerischen Vektor umgewandelt, das sogenannte Embedding. Zu diesem Embedding wird eine Positionsinformation addiert, damit das Modell die Reihenfolge der Tokens kennt.

Beispiel: GPT-3 hat 96 solcher Schichten, Claude und Llama verwenden ähnlich tiefe Stapel. In jeder Schicht berechnet der Attention-Block, welche früheren Tokens für die aktuelle Position relevant sind. Das Feedforward-Netzwerk transformiert anschließend die Repräsentation jedes Tokens unabhängig voneinander.

Beispiel: Bei der Verarbeitung des Satzes "Die Katze saß auf der Matte und leckte ihre Pfoten" muss das Modell in einer späten Schicht erkennen, dass "ihre" sich auf "Katze" bezieht. Der Attention-Mechanismus weist dem Token "Katze" an der Position von "ihre" ein hohes Gewicht zu.

Fachliche Einordnung: Die Anzahl der Schichten bestimmt maßgeblich die Kapazität des Modells. Mehr Schichten ermöglichen komplexere Repräsentationen, erhöhen aber den Rechen- und Speicherbedarf proportional. Die Wahl der Schichtenzahl ist eine Abwägung zwischen Leistungsfähigkeit und Ressourcenverbrauch.

Unterschied zu Encoder-Only und Encoder-Decoder-Modellen

Die Transformer-Familie umfasst drei Architekturvarianten, die sich in ihrem Aufbau und Einsatzzweck unterscheiden:

Encoder-Only-Modelle wie BERT lesen die gesamte Eingabe gleichzeitig in beide Richtungen. Sie setzen bidirektionale Attention ein: Jedes Token kann auf alle anderen Tokens zugreifen, auch auf nachfolgende. Das macht sie gut geeignet für Aufgaben, bei denen ein Textverständnis gefragt ist, etwa Klassifikation oder Named Entity Recognition.

Beispiel: Bei der Sentiment-Analyse des Satzes "Das Produkt ist nicht schlecht, sondern hervorragend" muss ein Encoder-Only-Modell "hervorragend" bereits bei der Verarbeitung von "nicht schlecht" berücksichtigen können, um die Negation korrekt aufzulösen.

Encoder-Decoder-Modelle wie T5 oder das ursprüngliche Transformer-Design verwenden beide Komponenten. Der Encoder liest die vollständige Eingabe. Der Decoder erzeugt daraus schrittweise die Ausgabe und greift über Cross-Attention auf die Encoder-Repräsentation zu. Diese Architektur eignet sich für Aufgaben, bei denen Eingabe und Ausgabe strukturell unterschiedlich sind, etwa Übersetzung.

Beispiel: Bei einer Übersetzung von Deutsch nach Englisch liest der Encoder den deutschen Satz vollständig. Der Decoder erzeugt den englischen Satz Wort für Wort und greift dabei auf die Encoder-Repräsentation zu, um die Bedeutung des Ausgangstextes zu berücksichtigen.

Decoder-Only-Modelle verzichten auf den Encoder und verarbeiten Eingabe und Ausgabe als eine zusammenhängende Sequenz. Durch die kausale Attention können sie nur rückwärts schauen. Trotz dieser Einschränkung haben sie sich als leistungsstärkste Variante für generative Aufgaben etabliert.

Wie Decoder-Only-Modelle lernen

Das Training folgt einem Prinzip: Vorhersage des nächsten Tokens. Das Modell erhält eine Textsequenz und soll für jede Position das jeweils nächste Token vorhersagen. Die Differenz zwischen Vorhersage und tatsächlichem Token ergibt den Verlust (Loss), der über Backpropagation zur Anpassung der Modellgewichte führt.

Beispiel: Beim Trainingstext "Transformer-Modelle verarbeiten Sprache" lernt das Modell gleichzeitig: Aus "Transformer" folgt "Modelle", aus "Transformer Modelle" folgt "verarbeiten", aus "Transformer Modelle verarbeiten" folgt "Sprache". Jede Position liefert ein eigenes Lernsignal.

Dieses Verfahren ist effizient, weil aus einer Sequenz der Länge N genau N-1 Trainingsbeispiele entstehen. Ein einziger Vorwärtsdurchlauf durch das Netzwerk liefert alle Vorhersagen gleichzeitig, weil die kausale Maske sicherstellt, dass keine Position auf zukünftige Tokens zugreift.

Beispiel: Ein Trainingsdatensatz mit einer Billion Tokens erzeugt fast eine Billion einzelne Vorhersageaufgaben. Zum Vergleich: Ein Encoder-Only-Modell wie BERT maskiert typischerweise nur 15 Prozent der Tokens pro Sequenz, wodurch pro Sequenz deutlich weniger Lernsignale entstehen.

Nach dem Vortraining auf großen Textmengen wird das Modell häufig mit Fine-Tuning auf spezifische Aufgabenformate angepasst. Dabei lernt es etwa, Anweisungen zu befolgen oder in einem Dialog-Format zu antworten.

Warum sich diese Architektur durchgesetzt hat

Decoder-Only-Modelle dominieren den Bereich der großen Sprachmodelle. Dafür gibt es mehrere technische Gründe:

Die Architektur ist vergleichsweise schlicht. Es gibt nur einen Typ von Attention-Block (kausale Self-Attention) statt drei verschiedene Typen (Encoder Self-Attention, Decoder Self-Attention, Cross-Attention). Das vereinfacht Implementierung, Optimierung und Skalierung.

Beispiel: GPT-3 wurde mit 175 Milliarden Parametern trainiert. Die gleichförmige Schichtstruktur ermöglicht es, das Modell über mehrere tausend Grafikprozessoren zu verteilen, indem aufeinanderfolgende Schichten auf verschiedene Prozessoren gelegt werden (Pipeline-Parallelismus).

Während der Textgenerierung kann ein Decoder-Only-Modell bereits berechnete Zwischenergebnisse zwischenspeichern. Dieses Verfahren heißt KV-Cache (Key-Value-Cache). Bei jedem neuen Token muss das Modell nur die Attention für das neue Token berechnen, statt die gesamte Sequenz erneut zu verarbeiten.

Beispiel: Bei einer Ausgabe von 500 Tokens berechnet ein Modell ohne KV-Cache bei jedem Schritt die Attention über die gesamte bisherige Sequenz neu. Mit KV-Cache werden die Key- und Value-Vektoren aller vorherigen Tokens gespeichert. Der Rechenaufwand pro Token sinkt dadurch erheblich.

Die Vielseitigkeit ist ein weiterer Faktor. Obwohl Decoder-Only-Modelle auf Next-Token-Prediction trainiert werden, können sie durch geeignetes Prompt Engineering oder Fine-Tuning Aufgaben lösen, die traditionell Encoder-Modellen vorbehalten waren, etwa Textklassifikation oder Informationsextraktion.

Grenzen und Einschränkungen

Die kausale Attention-Maske bedeutet, dass ein Decoder-Only-Modell bei der Verarbeitung eines Tokens keinen Zugriff auf spätere Tokens hat. Bei Aufgaben, die ein vollständiges Verständnis der gesamten Eingabe erfordern, ist das ein struktureller Nachteil gegenüber bidirektionalen Modellen.

Beispiel: Bei der semantischen Ähnlichkeitsberechnung zweier Sätze muss ein Encoder-Only-Modell wie BERT jeden Satz vollständig lesen, bevor es eine Repräsentation erzeugt. Ein Decoder-Only-Modell verarbeitet die Sätze sequenziell, wobei spätere Tokens in der Repräsentation früherer Tokens nicht berücksichtigt werden.

Der Speicherbedarf wächst mit der Sequenzlänge. Die Attention-Berechnung hat eine quadratische Komplexität in Bezug auf die Sequenzlänge: Verdoppelt sich die Eingabelänge, vervierfacht sich der Rechenaufwand für die Attention-Schicht. Der KV-Cache wachst linear mit der Sequenzlänge und kann bei langen Kontexten mehrere Gigabyte Speicher beanspruchen.

Beispiel: Ein Modell mit einem Kontextfenster von 128.000 Tokens benötigt für den KV-Cache bei 32-Bit-Präzision und 96 Schichten mit je 128 Attention-Köpfen mehrere Dutzend Gigabyte GPU-Speicher. In der Praxis werden deshalb Techniken wie Quantisierung oder GQA (Grouped-Query Attention) eingesetzt, um den Speicherbedarf zu reduzieren.

Die autoregressive Generierung ist sequenziell: Jedes Token hängt vom vorherigen ab. Daher kann die Ausgabe nicht parallelisiert werden. Bei langen Ausgaben führt das zu spürbarer Latenz, die proportional zur Ausgabelänge wächst.

Fachliche Einordnung: Aktuelle Forschung arbeitet an Ansätzen, die Decoder-Only-Modelle mit bidirektionaler Verarbeitung kombinieren. Prefix-Tuning etwa erlaubt bidirektionale Attention über einen festen Präfix-Teil der Eingabe, während der generative Teil weiterhin kausale Attention verwendet. Spekulatives Decoding versucht, die sequenzielle Generierung durch parallele Kandidatenerzeugung mit einem kleineren Modell zu beschleunigen.

Karl Kratz · 29.03.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm