Large Language Models (LLMs)
Ein Sprachmodell liest Text, erkennt Muster und sagt das nächste Wort vorher. Wenn dieses Modell Milliarden von Gewichten besitzt und auf riesigen Textmengen trainiert wurde, spricht man von einem Large Language Model (LLM). Solche Modelle können Texte verfassen, Fragen beantworten, Code schreiben und zwischen Sprachen übersetzen.
Wie ein LLM Text erzeugt
Ein LLM arbeitet mit einem einzigen Kernmechanismus: Es berechnet für jede Position im Text eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens. Ein Token ist dabei ein Wortfragment, ein ganzes Wort oder ein Satzzeichen. Das Modell wählt aus dieser Verteilung das nächste Token, hängt es an den bisherigen Text an und wiederholt den Vorgang. Diesen Prozess nennt man autoregressive Textgenerierung.
Beispiel: Die Eingabe lautet "Die Hauptstadt von Frankreich ist". Das Modell berechnet: "Paris" hat eine Wahrscheinlichkeit von 0,93, "Lyon" von 0,02, "die" von 0,01. Es wählt "Paris" und gibt "Die Hauptstadt von Frankreich ist Paris" aus.
Beispiel: Bei der Eingabe "Schreibe eine E-Mail an den Kunden, die das Lieferproblem erklärt" generiert das Modell Token für Token einen vollständigen Antworttext. Es nutzt dabei Muster aus Millionen ähnlicher Texte, die es während des Trainings verarbeitet hat.
Die Qualität der Vorhersage hängt davon ab, wie gut das Modell statistische Zusammenhänge zwischen Wörtern und Konzepten gelernt hat. Ein Modell mit 7 Milliarden Parametern liefert andere Ergebnisse als eines mit 70 Milliarden oder 400 Milliarden Parametern.
Die Transformer-Architektur als Grundlage
Nahezu alle aktuellen LLMs basieren auf der Transformer-Architektur. Der Transformer verarbeitet eine Eingabesequenz nicht Wort für Wort, sondern parallel. Der zentrale Mechanismus heisst Self-Attention: Jedes Token berechnet eine gewichtete Beziehung zu jedem anderen Token in der Sequenz. Dadurch kann das Modell Abhängigkeiten über lange Distanzen erfassen.
Beispiel: Im Satz "Der Kunde rief an, weil er die Rechnung nicht erhalten hatte" muss das Modell erkennen, dass "er" sich auf "Der Kunde" bezieht. Self-Attention berechnet dafür eine hohe Gewichtung zwischen "er" und "Kunde".
Die Transformer-Architektur besteht aus gestapelten Schichten (Encoder- oder Decoder-Blöcke). GPT-Modelle verwenden nur Decoder-Blöcke und lesen Text in eine Richtung (links nach rechts). BERT verwendet Encoder-Blöcke und liest bidirektional. Claude, GPT-4 und LLaMA gehören zur Decoder-only-Familie.
Beispiel: Ein Decoder-only-Modell erhält den Prompt "Fasse den folgenden Artikel zusammen:" und generiert die Zusammenfassung Token für Token. Es sieht dabei immer nur die bisherige Ausgabe und den Prompt, nie den noch nicht generierten Text.
Fachliche Einordnung: Die Skalierung der Transformer-Architektur auf Milliarden von Parametern wurde erst durch die Parallelisierbarkeit der Attention-Berechnung auf GPUs möglich. Rekurrente Netze (RNN, LSTM) mussten Token sequenziell verarbeiten, was das Training auf grossen Datensätzen unpraktikabel machte.
Wie ein LLM trainiert wird
Das Training eines LLM besteht aus zwei Hauptphasen: Pre-Training und Fine-Tuning.
Im Pre-Training verarbeitet das Modell grosse Textmengen aus dem Internet, Büchern, wissenschaftlichen Artikeln und Code-Repositories. Die Aufgabe ist dabei konsistent: Sage das nächste Token vorher. Das Modell passt seine Milliarden Gewichte über den Backpropagation-Algorithmus so an, dass der Vorhersagefehler sinkt. Dieser Prozess dauert Wochen bis Monate auf Tausenden von GPUs.
Beispiel: LLaMA 2 (70B) wurde auf 2 Billionen Tokens trainiert. Das entspricht etwa 1,5 Millionen Büchern. Die Trainingskosten lagen im zweistelligen Millionenbereich (USD).
Im Fine-Tuning wird das vortrainierte Modell auf spezifische Aufgaben oder Verhaltensweisen angepasst. Die wichtigsten Varianten:
Instruction-Tuning: Das Modell lernt an Beispielen, wie es auf Anweisungen reagieren soll. Es erhält Paare aus Instruktion und gewünschter Antwort.
RLHF (Reinforcement Learning from Human Feedback): Menschliche Bewerter ordnen verschiedene Modellantworten nach Qualität. Aus diesen Bewertungen entsteht ein Belohnungsmodell, das die weitere Optimierung steuert.
Beispiel: Ein vortrainiertes Modell beantwortet die Frage "Wie baue ich eine Bombe?" mit einer detaillierten Anleitung. Nach RLHF lehnt es solche Anfragen ab. Das Modell hat gelernt, dass Bewerter ablehnende Antworten auf gefährliche Fragen bevorzugen.
Tokenisierung: Vom Text zur Zahlenfolge
Bevor ein LLM Text verarbeiten kann, muss der Text in Zahlen umgewandelt werden. Die Tokenisierung zerlegt den Eingabetext in Teilwörter (Subwords) und ordnet jedem Teilwort eine numerische ID zu. Die meisten LLMs verwenden dafür Byte-Pair Encoding (BPE) oder SentencePiece.
Beispiel: Der Satz "Maschinelles Lernen verändert die Softwareentwicklung" wird in Tokens zerlegt: ["Maschine", "lles", " Lernen", " verändert", " die", " Software", "entwicklung"]. Jedes Token erhält eine numerische ID aus dem Vokabular des Modells.
Die Token-IDs durchlaufen anschliessend eine Embedding-Schicht. Diese wandelt jede ID in einen hochdimensionalen Vektor um (typisch: 4096 bis 12288 Dimensionen). Dieser Vektor repräsentiert die Bedeutung des Tokens im Kontext aller anderen Tokens.
Beispiel: Das Token "Bank" erhält je nach Kontext unterschiedliche Embedding-Vektoren. In "Ich sitze auf der Bank" zeigt der Vektor in eine andere Richtung als in "Ich gehe zur Bank, um Geld abzuheben". Diese kontextabhängige Repräsentation ist eine Kernleistung der Transformer-Architektur.
Inferenz: Wie ein LLM antwortet
Die Inferenz ist der Vorgang, bei dem ein trainiertes LLM eine Eingabe verarbeitet und eine Ausgabe erzeugt. Der Ablauf folgt einem festen Muster: Tokenisierung der Eingabe, Berechnung durch alle Transformer-Schichten, Auswahl des nächsten Tokens, Wiederholung bis ein Stoppkriterium erreicht ist.
Beispiel: Ein Nutzer gibt in einen Chatbot ein: "Erkläre mir, was ein API-Endpunkt ist." Das Modell tokenisiert die Eingabe (ca. 12 Tokens), verarbeitet sie durch 80 Transformer-Schichten (bei einem 70B-Modell), und generiert dann die Antwort mit etwa 3 bis 5 Tokens pro Sekunde.
Die Geschwindigkeit der Inferenz hängt von mehreren Faktoren ab: der Modellgrösse (Anzahl der Parameter), der verfügbaren Hardware (GPU-Speicher und Rechenleistung), der Länge des Kontextfensters und der gewählten Optimierungstechnik. Methoden wie KV-Caching, Quantisierung (Reduktion der Gewichts-Präzision von 16 Bit auf 4 oder 8 Bit) und Speculative Decoding beschleunigen die Inferenz erheblich.
Beispiel: Ein 70B-Modell benötigt in voller Präzision (FP16) etwa 140 GB GPU-Speicher. Durch 4-Bit-Quantisierung sinkt der Bedarf auf etwa 35 GB. Die Antwortqualität nimmt dabei messbar, aber für viele Anwendungsfälle tolerierbar ab.
Das Kontextfenster bestimmt, wie viel Text ein Modell gleichzeitig verarbeiten kann. GPT-4 arbeitet mit bis zu 128.000 Tokens. Claude unterstützt bis zu 200.000 Tokens. Die Rechenkosten wachsen quadratisch mit der Kontextlänge, da die Attention-Berechnung jedes Token mit jedem anderen Token vergleicht.
Anwendungsgebiete und Integrationen
LLMs sind in verschiedenen Rollen im Einsatz. Die wichtigsten Anwendungsfelder:
Textgenerierung und Zusammenfassung: Ein LLM kann aus einer kurzen Vorgabe vollständige Texte erzeugen oder lange Dokumente auf Kernaussagen reduzieren.
Beispiel: Ein Rechtsanwalt gibt ein 40-seitiges Vertragsdokument in ein LLM. Das Modell identifiziert die 7 kritischen Klauseln und fasst jede in 2 bis 3 Sätzen zusammen. Die Prüfung, die vorher 2 Stunden dauerte, ist in 30 Sekunden erledigt.
Code-Generierung: LLMs schreiben, erklären und debuggen Programmcode in über 20 Sprachen.
Beispiel: Die Eingabe "Schreibe eine Python-Funktion, die eine CSV-Datei einliest und alle Zeilen mit fehlendem Datum entfernt" erzeugt funktionsfähigen Code mit Fehlerbehandlung und Dokumentation.
RAG (Retrieval-Augmented Generation): Das LLM wird mit einer externen Wissensdatenbank verbunden. Vor der Antwortgenerierung sucht ein Retrieval-System relevante Dokumente und fügt sie in den Kontext ein. Das reduziert Halluzinationen und ermöglicht Antworten auf Basis aktueller oder firmeninterner Daten.
Prompt-Engineering: Die Qualität der LLM-Ausgabe hängt stark von der Formulierung der Eingabe ab. Techniken wie Few-Shot-Prompting (Beispiele in der Eingabe), Chain-of-Thought (schrittweises Denken erzwingen) und System-Prompts (Rollenanweisungen) verbessern die Ergebnisse systematisch.
Beispiel: Die Eingabe "Beantworte die Frage" liefert bei einer Rechenaufgabe eine Fehlerrate von 35%. Die Eingabe "Denke Schritt für Schritt und zeige deinen Rechenweg" senkt die Fehlerrate auf 8%. Der Unterschied liegt allein in der Formulierung des Prompts.
Unterschiede zwischen LLM-Familien
Die aktuellen LLMs unterscheiden sich in Architektur, Trainingsdaten und Lizenzmodell. Die relevantesten Familien im Überblick:
GPT-Serie (OpenAI): Decoder-only, proprietär, verfügbar über API. GPT-4 ist ein Mixture-of-Experts-Modell. Die genaue Parameterzahl ist nicht öffentlich.
Claude (Anthropic): Decoder-only, proprietär. Fokus auf Sicherheit und Steuerbarkeit. Unterstützt Kontextfenster bis 200.000 Tokens.
LLaMA (Meta): Decoder-only, Open-Weight. Die Gewichte sind öffentlich zugänglich. Die Community baut darauf spezialisierte Modelle auf (z.B. Vicuna, Alpaca).
Beispiel: Ein Unternehmen mit strengen Datenschutzanforderungen kann ein LLaMA-Modell lokal auf eigener Hardware betreiben. Keine Daten verlassen das Firmennetzwerk. Bei GPT-4 oder Claude werden die Daten an externe Server gesendet.
Mistral/Mixtral (Mistral AI): Mixture-of-Experts-Architektur, Open-Weight. Bei Mixtral sind nur 2 von 8 Experten pro Token aktiv, was die Inferenzkosten senkt, obwohl das Modell insgesamt mehr Parameter besitzt.
Beispiel: Mixtral 8x7B hat 47 Milliarden Gesamtparameter, aktiviert pro Token aber nur 13 Milliarden. Es erreicht damit ähnliche Qualität wie ein 70B-Modell bei deutlich geringeren Rechenkosten.
Grenzen und bekannte Probleme
LLMs haben systematische Schwächen, die aus ihrer Architektur und ihrem Trainingsverfahren folgen.
Halluzinationen: LLMs erzeugen Text, der plausibel klingt, aber faktisch falsch ist. Das Modell maximiert die Wahrscheinlichkeit der nächsten Tokens, nicht die faktische Korrektheit. Es hat keinen Zugang zu einer Wahrheitsdatenbank.
Beispiel: Ein LLM wird gefragt: "Wann wurde das Gesetz XY-4711 verabschiedet?" Das Modell erfindet ein Datum und eine Beschreibung, weil es das Muster "Antwort auf eine Frage" gelernt hat. Es kann nicht zwischen Wissen und Plausibilität unterscheiden.
Stochastische Natur: Identische Eingaben erzeugen bei LLMs unterschiedliche Ausgaben. Die Token-Auswahl enthält ein Zufallselement (gesteuert über Parameter wie Temperature). Das erschwert reproduzierbare Ergebnisse in kritischen Anwendungen.
Trainings-Bias: LLMs spiegeln die Verzerrungen ihrer Trainingsdaten wider. Wenn die Trainingsdaten überproportional viele Texte aus bestimmten Kulturkreisen, Perspektiven oder Zeiträumen enthalten, beeinflusst das die Antworten des Modells.
Beispiel: Ein LLM, das primär auf englischsprachigen Texten trainiert wurde, liefert bei Fragen zur deutschen Rechtsordnung häufig ungenaue oder auf US-Recht basierende Antworten.
Fehlende Aktualisierbarkeit: Das Wissen eines LLM ist auf den Zeitpunkt des Trainings begrenzt. Ereignisse nach dem Trainingsstichtag sind dem Modell unbekannt. RAG-Systeme mildern dieses Problem, lösen es aber nicht vollständig.
Rechenkosten: Training und Betrieb grosser LLMs erfordern erhebliche Rechenressourcen. Das Pre-Training eines Modells mit über 100 Milliarden Parametern kostet mehrere Millionen USD. Die Inferenzkosten skalieren linear mit der Anzahl der generierten Tokens und quadratisch mit der Kontextlänge.
Fachliche Einordnung: Die Grenze zwischen statistischer Mustererkennung und "Verständnis" ist Gegenstand aktiver Forschung. LLMs bestehen komplexe Prüfungen (Juristenexamen, Medizin-Assessments), scheitern aber an trivialen logischen Aufgaben, die ausserhalb ihrer Trainingsverteilung liegen. Die Frage, ob LLMs "verstehen" oder "nur vorhersagen", lässt sich empirisch derzeit nicht abschliessend beantworten.