Transformer-Modell
Wenn ein Sprachassistent einen Satz vervollständigt, eine Übersetzung liefert oder eine Frage beantwortet, arbeitet im Hintergrund häufig ein Transformer-Modell. Es handelt sich um ein neuronales Netz, das auf der Transformer-Architektur aufbaut und gelernt hat, Sprache statistisch zu verarbeiten.
Was ein Transformer-Modell von früheren Ansätzen unterscheidet
Vor dem Transformer basierten Sprachmodelle auf rekurrenten Netzen (RNN, LSTM). Diese verarbeiteten Wörter nacheinander, eines nach dem anderen. Bei langen Sätzen ging dabei oft der Bezug zum Satzanfang verloren. Die Verarbeitung war langsam, weil jeder Schritt auf das Ergebnis des vorherigen warten musste.
Ein Transformer-Modell arbeitet anders: Es betrachtet alle Wörter eines Eingabetextes gleichzeitig und berechnet für jedes Wort, wie stark es mit jedem anderen Wort zusammenhängt. Diesen Mechanismus nennt man Self-Attention. Die parallele Verarbeitung beschleunigt das Training erheblich und ermöglicht es, Modelle auf sehr großen Textmengen zu trainieren.
Beispiel: Im Satz "Die Bank am Flussufer war frisch gestrichen" muss das Modell erkennen, dass "Bank" hier eine Sitzgelegenheit bezeichnet. Über den Attention-Mechanismus gewichtet das Modell den Zusammenhang zwischen "Bank" und "Flussufer" hoch, zwischen "Bank" und "gestrichen" ebenfalls. Ohne diese gleichzeitige Analyse aller Wortbeziehungen wäre die Disambiguierung deutlich fehleranfälliger.
Beispiel: Bei der maschinellen Übersetzung von "The cat sat on the mat" ins Deutsche muss das Modell wissen, dass "cat" feminin ist, um "Die Katze saß auf der Matte" korrekt zu generieren. Self-Attention ermöglicht es, diese grammatische Abhängigkeit über mehrere Positionen hinweg zu erfassen.
Drei Architekturvarianten und ihre Einsatzgebiete
Transformer-Modelle lassen sich in drei Grundvarianten einteilen. Jede Variante verwendet die Transformer-Architektur, unterscheidet sich aber darin, welche Teile des ursprünglichen Encoder-Decoder-Aufbaus genutzt werden.
Encoder-Modelle
Encoder-Modelle lesen den gesamten Eingabetext gleichzeitig in beide Richtungen. Sie erzeugen eine interne Repräsentation (ein sogenanntes Embedding), die den Bedeutungsgehalt jedes Wortes im Kontext aller anderen Wörter abbildet. BERT ist das bekannteste Beispiel. Encoder-Modelle eignen sich für Aufgaben, bei denen es darum geht, einen bestehenden Text zu verstehen: Klassifikation, Sentimentanalyse, Named Entity Recognition, semantische Suche.
Beispiel: Ein Encoder-Modell analysiert Kundenbewertungen eines Online-Shops. Die Bewertung "Das Gerät funktioniert einwandfrei, aber der Kundenservice war katastrophal" wird korrekt als gemischt eingestuft, weil das Modell die gegensätzlichen Signale in "einwandfrei" und "katastrophal" gleichzeitig erfasst.
Decoder-Modelle
Decoder-Modelle erzeugen Text Wort für Wort, wobei jedes neue Wort nur auf die bereits generierten Wörter und die Eingabe zugreifen kann. Dieses Prinzip heißt autoregressive Generierung. GPT, Claude und Llama gehören zu dieser Kategorie. Sie beherrschen Textgenerierung, Dialog, Zusammenfassung, Codeerzeugung und komplexes Schlussfolgern.
Beispiel: Wenn ein Decoder-Modell den Satz "Die Hauptstadt von Frankreich ist" vervollständigt, berechnet es für jedes Wort im Vokabular eine Wahrscheinlichkeit. "Paris" erhält die höchste Wahrscheinlichkeit, weil das Modell dieses Muster in den Trainingsdaten vielfach gesehen hat.
Encoder-Decoder-Modelle
Encoder-Decoder-Modelle kombinieren beide Teile. Der Encoder liest die Eingabe, der Decoder erzeugt daraus eine Ausgabe. T5 und mBART sind Vertreter dieser Architektur. Sie werden häufig für Übersetzung, Textzusammenfassung und Aufgaben eingesetzt, bei denen Eingabe und Ausgabe unterschiedliche Längen haben.
Beispiel: Ein Encoder-Decoder-Modell fasst einen wissenschaftlichen Artikel von 5000 Wörtern auf 200 Wörter zusammen. Der Encoder erfasst die Gesamtstruktur des Artikels, der Decoder generiert daraus eine kohärente Kurzfassung, die Kernaussagen und Methodik enthält.
Wie ein Transformer-Modell entsteht
Die Erstellung eines Transformer-Modells verläuft typischerweise in mehreren Phasen. Jede Phase hat ein eigenes Ziel und eigene Datenanforderungen.
Pretraining
In der ersten Phase lernt das Modell auf großen, ungelabelten Textmengen allgemeine Sprachmuster. Decoder-Modelle werden dabei trainiert, das nächste Wort vorherzusagen (Next-Token-Prediction). Encoder-Modelle lernen, maskierte Wörter im Satz zu ergänzen (Masked Language Modeling). Die Datenmenge umfasst oft mehrere Billionen Tokens aus Büchern, Webseiten, Fachartikeln und Code.
Beispiel: Während des Pretrainings sieht ein Decoder-Modell den Satz "Der Strom fließt durch den ___" und lernt, dass "Leiter" oder "Draht" wahrscheinliche Fortsetzungen sind. Nach Milliarden solcher Vorhersagen hat das Modell ein statistisches Abbild von Sprache, Grammatik und Weltwissen aufgebaut.
Fine-Tuning und Ausrichtung
Nach dem Pretraining wird das Modell für spezifische Aufgaben angepasst. Instruction Tuning trainiert das Modell darauf, Anweisungen zu befolgen. Reinforcement Learning from Human Feedback (RLHF) richtet die Ausgaben an menschlichen Präferenzen aus. Dabei bewerten menschliche Annotator:innen Modellausgaben, und das Modell lernt, höher bewertete Antworten zu bevorzugen.
Beispiel: Ein Basismodell antwortet auf die Frage "Erkläre Photosynthese" möglicherweise mit einer Fortsetzung des Satzes oder einer zufälligen Assoziation. Nach Instruction Tuning und RLHF liefert dasselbe Modell eine strukturierte, verständliche Erklärung, weil es gelernt hat, dass Antworten in diesem Format höher bewertet werden.
Skalierung: Parameter, Daten und Rechenleistung
Die Leistungsfähigkeit von Transformer-Modellen hängt von drei Faktoren ab, die in einem engen Zusammenhang stehen: der Anzahl der Parameter (Gewichte im neuronalen Netz), der Menge der Trainingsdaten und der eingesetzten Rechenleistung. Sogenannte Skalierungsgesetze (Scaling Laws) beschreiben, dass die Modellqualität vorhersagbar steigt, wenn alle drei Faktoren proportional erhöht werden.
Aktuelle Spitzenmodelle verfügen über Hunderte Milliarden Parameter. Das Training solcher Modelle erfordert Tausende spezialisierter Grafikprozessoren (GPUs oder TPUs) über Wochen bis Monate. Die Kosten für ein einzelnes Pretraining liegen im zweistelligen bis dreistelligen Millionenbereich (US-Dollar).
Beispiel: GPT-3 wurde 2020 mit 175 Milliarden Parametern auf 300 Milliarden Tokens trainiert. Nachfolgemodelle wie GPT-4 und Claude verwenden deutlich mehr Parameter und Trainingsdaten. Die Qualitätsverbesserung von GPT-3 zu GPT-4 folgt den vorhergesagten Skalierungsgesetzen.
Fachliche Einordnung: Die Scaling Laws nach Kaplan et al. (2020) und Hoffmann et al. (2022, "Chinchilla") zeigen, dass optimale Skalierung ein festes Verhältnis zwischen Parameterzahl und Trainingstoken erfordert. Chinchilla zeigte, dass viele frühe Modelle überparametrisiert und untertrainiert waren. Seitdem verschiebt sich der Fokus stärker auf Datenqualität und Datenmenge.
Vom Text zur Zahl: Tokenisierung und Eingabeverarbeitung
Bevor ein Transformer-Modell Text verarbeiten kann, muss dieser in numerische Repräsentationen umgewandelt werden. Der erste Schritt ist die Tokenisierung: Ein Tokenizer zerlegt den Eingabetext in Teilwörter (Subwords). Jedes Subword erhält eine numerische ID. Diese IDs werden in Vektoren umgewandelt (Embeddings), die das Modell verarbeiten kann.
Zusätzlich zu den Wort-Embeddings erhält jede Position im Text eine Positionskodierung (Positional Encoding). Da Self-Attention keine inhärente Reihenfolge kennt, liefert die Positionskodierung die Information, welches Wort an welcher Stelle steht.
Beispiel: Der Satz "Transformer-Modelle verarbeiten Text" wird vom Tokenizer möglicherweise in ["Transform", "er", "-", "Modell", "e", "verarbeiten", "Text"] zerlegt. Jedes dieser sieben Tokens erhält eine ID (z.B. [4521, 312, 28, 1893, 68, 7744, 2891]) und wird in einen hochdimensionalen Vektor umgewandelt.
Self-Attention: Der zentrale Mechanismus
Der Attention-Mechanismus ist das Herzstück jedes Transformer-Modells. Für jedes Wort in der Eingabe berechnet Self-Attention drei Vektoren: Query ("Was suche ich?"), Key ("Was biete ich an?") und Value ("Welche Information trage ich?"). Die Aufmerksamkeitsgewichte ergeben sich aus dem Skalarprodukt von Query und Key, normalisiert durch die Wurzel der Vektordimension und eine Softmax-Funktion.
In der Praxis verwendet ein Transformer-Modell nicht eine einzelne Attention-Berechnung, sondern mehrere parallele Attention-Köpfe (Multi-Head Attention). Jeder Kopf kann unterschiedliche Aspekte der Beziehung zwischen Wörtern erfassen: syntaktische Abhängigkeiten, semantische Ähnlichkeit, Koreferenz oder Negation.
Beispiel: Im Satz "Der Entwickler, der den Bug gestern im Produktivsystem gefunden hat, schrieb einen Patch" muss das Modell über sechs Zwischenwörter hinweg erkennen, dass "schrieb" sich auf "Entwickler" bezieht. Ein Attention-Kopf spezialisiert sich auf Subjekt-Verb-Beziehungen und gewichtet genau diese Verbindung hoch.
Beispiel: In einem Encoder-Modell für semantische Suche vergleicht ein Attention-Kopf die Suchanfrage "Python Webframework mit ORM" mit einem Dokument über Django. Der Kopf erkennt, dass "ORM" im Dokument als "Object-Relational Mapping" erscheint und gewichtet die Übereinstimmung hoch, obwohl die Wortwahl unterschiedlich ist.
Einsatzgebiete in der Praxis
Transformer-Modelle sind in zahlreichen Anwendungsfeldern im Einsatz. Die folgende Übersicht zeigt typische Einsatzgebiete, geordnet nach Architekturvariante.
Encoder-Modelle werden eingesetzt für: semantische Suche in Dokumentenarchiven, automatische Klassifikation von Support-Tickets, Spam-Erkennung, Sentimentanalyse in Produktbewertungen, Named Entity Recognition in juristischen Texten und Duplikaterkennung in Datenbanken.
Decoder-Modelle werden eingesetzt für: Chatbots und Dialogsysteme, Codegenerierung und Code-Review, Zusammenfassung langer Dokumente, kreatives Schreiben, Datenextraktion aus unstrukturiertem Text und Prompt-basierte Aufgaben wie Reasoning und Planung.
Encoder-Decoder-Modelle werden eingesetzt für: maschinelle Übersetzung, Textzusammenfassung bei stark unterschiedlicher Ein- und Ausgabelänge, Konvertierung zwischen Formaten (z.B. Tabelle zu Text) und Fragebeantwortung auf Basis eines Kontextdokuments.
Beispiel: Ein Versicherungsunternehmen setzt ein Encoder-Modell ein, um eingehende Schadensmeldungen automatisch nach Schadensart (Haftpflicht, Kasko, Hausrat) zu klassifizieren. Das Modell verarbeitet pro Tag mehrere tausend Meldungen und erreicht eine Klassifikationsgenauigkeit von über 90 Prozent.
Beispiel: Ein Softwareteam nutzt ein Decoder-Modell zur Codegenerierung. Der Prompt "Schreibe eine Python-Funktion, die eine CSV-Datei einliest und Duplikate entfernt" erzeugt funktionierenden Code. Das Modell kennt die Syntax und gängige Bibliotheken aus den Trainingsdaten.
Grenzen und Einordnung
Transformer-Modelle haben systematische Grenzen, die aus ihrer Architektur und Trainingsmethode folgen.
Das Kontextfenster begrenzt die Textmenge, die ein Modell gleichzeitig verarbeiten kann. Ältere Modelle waren auf 512 oder 2048 Tokens beschränkt. Aktuelle Modelle verarbeiten 128.000 bis über 1.000.000 Tokens. Dennoch bleibt die Begrenzung bestehen: Informationen außerhalb des Kontextfensters sind für das Modell nicht zugänglich.
Halluzinationen bezeichnen das Phänomen, dass ein Modell Aussagen generiert, die faktisch falsch sind, aber sprachlich korrekt und überzeugend klingen. Dies folgt aus dem statistischen Prinzip der Textgenerierung: Das Modell wählt wahrscheinliche Wortfolgen, nicht notwendigerweise wahre Aussagen.
Der Rechenaufwand von Self-Attention skaliert quadratisch mit der Eingabelänge. Bei einem Text mit 1000 Tokens berechnet das Modell 1.000.000 Aufmerksamkeitsgewichte pro Attention-Kopf und Schicht. Verschiedene Forschungsansätze (Sparse Attention, Linear Attention, Flash Attention) versuchen, diesen Aufwand zu reduzieren.
Beispiel: Ein Decoder-Modell wird nach dem Gründungsdatum eines fiktiven Unternehmens gefragt und antwortet mit einem plausibel klingenden Datum. Die Antwort ist eine Halluzination, weil das Unternehmen in den Trainingsdaten nicht vorkommt. Das Modell erkennt nicht, dass es die Antwort nicht kennt.
Transformer-Modelle haben keinen Zugriff auf aktuelle Informationen nach dem Trainingsabschluss. Sie können nicht eigenständig im Internet suchen, auf Datenbanken zugreifen oder ihren Wissensstand aktualisieren. Werkzeuge wie Retrieval-Augmented Generation (RAG) oder Tool-Use-Frameworks ergänzen Modelle um diese Fähigkeiten, sind aber nicht Teil des Modells selbst.
Fachliche Einordnung: Transformer-Modelle dominieren seit 2018 die Sprachverarbeitung (NLP) und haben ältere Architekturen wie LSTM und GRU weitgehend verdrängt. Die Architektur wird zunehmend auch außerhalb der Sprachverarbeitung eingesetzt: in der Bildverarbeitung (Vision Transformer, ViT), der Proteinstrukturvorhersage (AlphaFold 2), der Musikgenerierung und der Zeitreihenprognose. Ob Transformer-Modelle in ihrer aktuellen Form ausreichen, um allgemeine künstliche Intelligenz (AGI) zu erreichen, ist in der Forschung umstritten. Die Grenzen bei logischem Schlussfolgern, Planung und kausaler Analyse deuten darauf hin, dass zusätzliche Architekturen oder Trainingsmethoden erforderlich sein werden.