Basis-Modell

Statt ein KI-System von Grund auf zu trainieren, gibt es vortrainierte Modelle, die bereits Sprache, Logik und Zusammenhänge aus Milliarden von Texten gelernt haben. Ein solches vortrainiertes System heißt Basis-Modell (auch: Foundation Model). Es lässt sich mit vergleichsweise geringem Aufwand für konkrete Aufgaben anpassen.

Was ein Basis-Modell leistet

Ein Basis-Modell durchläuft zunächst ein aufwendiges Pre-Training. In dieser Phase verarbeitet es große Mengen an Text aus Büchern, Webseiten, wissenschaftlichen Artikeln und anderen Quellen. Das Modell lernt dabei statistische Muster: Welche Wörter folgen typischerweise aufeinander, wie hängen Sätze zusammen, welche logischen Beziehungen bestehen zwischen Konzepten.

Nach dem Pre-Training verfügt das Modell über breite Fähigkeiten. Es kann Texte zusammenfassen, Fragen beantworten, Übersetzungen anfertigen oder Code schreiben. Keine dieser Fähigkeiten wurde explizit trainiert. Sie entstehen als Nebenprodukt des Trainings auf großen Textmengen.

Beispiel: Ein Basis-Modell wie LLaMA 3 wurde auf circa 15 Billionen Token trainiert. Ohne jede Spezialisierung kann es nach dem Pre-Training Texte in mehreren Sprachen erzeugen, mathematische Aufgaben lösen und Programmcode generieren.

Beispiel: Mistral 7B erreicht nach dem Pre-Training auf allgemeinen Benchmarks Ergebnisse, die mit deutlich größeren Modellen vergleichbar sind. Das zeigt, dass die Qualität der Trainingsdaten oft wichtiger ist als die reine Modellgröße.

Technische Grundlage: Transformer-Architektur

Die meisten aktuellen Basis-Modelle basieren auf der Transformer-Architektur. Transformer verarbeiten Eingaben nicht sequenziell (Wort für Wort), sondern parallel. Der zentrale Mechanismus dabei ist Self-Attention: Jedes Wort wird in Beziehung zu allen anderen Wörtern der Eingabe gesetzt.

Die Architektur besteht aus gestapelten Schichten (Layers). Jede Schicht enthält einen Attention-Block und ein Feedforward-Netzwerk. Die Anzahl der Schichten, die Breite der Attention-Köpfe und die Dimension der Embeddings bestimmen die Kapazität des Modells. Diese Werte heißen Hyperparameter.

Beispiel: GPT-4 verwendet geschätzt über 1 Billion Parameter, verteilt auf mehrere Experten-Netzwerke (Mixture of Experts). BERT-Base hat 110 Millionen Parameter in 12 Transformer-Schichten. Beide sind Basis-Modelle, unterscheiden sich aber fundamental in Größe und Einsatzzweck.

Beispiel: Ein Attention-Kopf in einer frühen Schicht lernt häufig syntaktische Muster (Subjekt-Verb-Beziehungen). Ein Attention-Kopf in einer späteren Schicht erfasst eher semantische Beziehungen (Synonym-Erkennung, thematische Zuordnung). Die gestapelte Struktur ermöglicht zunehmend abstrakte Repräsentationen.

EingabetextRohdaten

TokenisierungText → Token-IDs

EmbeddingToken → Vektoren

Transformer-SchichtenAttention + FFN

AusgabeNächstes Token / Repräsentation

Varianten von Basis-Modellen

Basis-Modelle lassen sich nach ihrem Trainingsziel in drei Hauptkategorien einteilen. Diese Unterscheidung bestimmt, wofür ein Modell geeignet ist.

Autoregressive Modelle (Decoder-only)

Diese Modelle sagen das jeweils nächste Wort vorher. Sie verarbeiten Text von links nach rechts und erzeugen Ausgaben Wort für Wort. GPT-Modelle, LLaMA und Mistral gehören in diese Kategorie. Autoregressive Modelle eignen sich besonders für Textgenerierung, Dialog und Code-Erzeugung.

Beispiel: Bei der Eingabe "Die Hauptstadt von Frankreich ist" berechnet ein autoregressives Modell die Wahrscheinlichkeit für jedes mögliche nächste Token. "Paris" erhält eine hohe Wahrscheinlichkeit, "Banane" eine sehr niedrige. Das Modell wählt basierend auf diesen Wahrscheinlichkeiten aus.

Bidirektionale Modelle (Encoder-only)

Diese Modelle lesen Text in beide Richtungen gleichzeitig. Sie erfassen den Kontext eines Wortes sowohl aus dem vorhergehenden als auch aus dem nachfolgenden Text. BERT ist das bekannteste Beispiel. Bidirektionale Modelle eignen sich für Textklassifikation, Named Entity Recognition und semantische Suche.

Beispiel: Im Satz "Er ging zur Bank, um Geld abzuheben" erkennt ein bidirektionales Modell durch den nachfolgenden Kontext ("Geld abzuheben"), dass "Bank" ein Finanzinstitut bezeichnet. Ein rein autoregressives Modell müsste die Bedeutung allein aus "Er ging zur" ableiten.

Encoder-Decoder-Modelle

Diese Modelle kombinieren beide Ansätze: Ein Encoder verarbeitet die Eingabe bidirektional, ein Decoder erzeugt die Ausgabe autoregressiv. T5 und BART gehören in diese Kategorie. Sie eignen sich besonders für Übersetzung, Zusammenfassung und Frage-Antwort-Systeme.

Beispiel: Bei einer Übersetzungsaufgabe liest der Encoder den deutschen Satz vollständig und erzeugt eine interne Repräsentation. Der Decoder generiert daraus Wort für Wort die englische Übersetzung, wobei er sowohl die Encoder-Repräsentation als auch die bereits erzeugten englischen Wörter berücksichtigt.

Vom Basis-Modell zur Anwendung

Ein Basis-Modell ist nach dem Pre-Training vielseitig, aber unpräzise. Es folgt nicht zuverlässig Anweisungen, produziert gelegentlich unerwünschte Inhalte und kennt keine domänenspezifischen Details. Die Anpassung an konkrete Anforderungen erfolgt über mehrere Wege.

Fine-Tuning

Beim Fine-Tuning werden die Gewichte des Modells mit aufgabenspezifischen Daten weiter trainiert. Das Modell spezialisiert sich auf eine bestimmte Domäne oder Aufgabe. Der Rechenaufwand ist deutlich geringer als beim Pre-Training, da nur eine Teilmenge der Parameter angepasst wird (bei Methoden wie LoRA).

Beispiel: Ein Basis-Modell wird mit 50.000 medizinischen Frage-Antwort-Paaren feingetunt. Danach beantwortet es medizinische Fragen präziser als das Ausgangsmodell, weil es fachspezifische Terminologie und Zusammenhänge verstärkt gelernt hat.

RAG (Retrieval-Augmented Generation)

RAG ergänzt das Basis-Modell zur Laufzeit um externe Informationen. Bei jeder Anfrage werden relevante Dokumente aus einer Wissensbasis abgerufen und dem Modell als Kontext mitgegeben. Die Gewichte des Modells bleiben unverändert.

Beispiel: Ein Kundenservice-System nutzt ein Basis-Modell mit RAG-Anbindung an die interne Produktdokumentation. Bei der Frage "Wie setze ich mein Passwort zurück?" durchsucht das System die Dokumentation, findet die relevante Anleitung und formuliert eine Antwort auf Basis des gefundenen Textes.

Prompt-basierte Steuerung

Die einfachste Form der Anpassung erfolgt über den Prompt. Durch präzise Anweisungen, Kontextinformationen und Beispiele im Prompt lässt sich das Verhalten eines Basis-Modells steuern, ohne Gewichte zu verändern oder externe Systeme einzubinden.

Beispiel: Der Prompt "Du bist ein juristischer Assistent. Beantworte die folgende Frage auf Basis des deutschen Bürgerlichen Gesetzbuches. Frage: ..." lenkt ein Basis-Modell in eine juristische Domäne, ohne dass Fine-Tuning oder RAG erforderlich sind.

Skalierungsgesetze und Modellgröße

Die Leistungsfähigkeit von Basis-Modellen folgt empirisch beobachteten Skalierungsgesetzen (Scaling Laws). Kaplan et al. (2020) und Hoffmann et al. (2022, "Chinchilla") zeigten: Die Leistung eines Modells hängt von drei Faktoren ab: Anzahl der Parameter, Menge der Trainingsdaten und verfügbare Rechenleistung.

Diese drei Faktoren stehen in einem bestimmten Verhältnis zueinander. Ein Modell mit 70 Milliarden Parametern, das auf zu wenig Daten trainiert wird, erreicht schlechtere Ergebnisse als ein 7-Milliarden-Modell, das auf der optimalen Datenmenge trainiert wurde.

Beispiel: Chinchilla (70 Milliarden Parameter, trainiert auf 1,4 Billionen Token) übertraf Gopher (280 Milliarden Parameter, trainiert auf 300 Milliarden Token) auf den meisten Benchmarks. Das kleinere Modell mit mehr Daten war dem größeren Modell mit weniger Daten überlegen.

Beispiel: LLaMA 2 70B erreicht auf dem MMLU-Benchmark einen Score von 68,9 %. LLaMA 2 7B erreicht 45,3 %. Die zehnfache Parameterzahl führt zu einer deutlichen, aber nicht proportionalen Leistungssteigerung.

Fachliche Einordnung: Die Chinchilla-Scaling-Laws legen nahe, dass viele aktuelle Modelle "undertrained" sind: Sie haben mehr Parameter als für ihre Trainingsmenge optimal wäre. In der Praxis wird dieser theoretische Nachteil häufig in Kauf genommen, weil ein größeres Modell bei späterem Fine-Tuning mehr Kapazität bietet. Die optimale Balance zwischen Parameterzahl und Trainingsmenge hängt vom konkreten Anwendungsziel ab.

Offene und geschlossene Basis-Modelle

Basis-Modelle unterscheiden sich fundamental in ihrer Verfügbarkeit. Geschlossene Modelle (GPT-4, Claude, Gemini) sind nur über APIs zugänglich. Die Gewichte bleiben unter Kontrolle des Anbieters. Offene Modelle (LLaMA, Mistral, Falcon) stellen ihre Gewichte zum Download bereit.

Diese Unterscheidung hat praktische Konsequenzen: Offene Modelle erlauben Fine-Tuning, lokalen Betrieb und vollständige Kontrolle über die Datenverarbeitung. Geschlossene Modelle bieten oft höhere Leistung, erfordern aber eine Abhängigkeit vom Anbieter und die Übertragung von Daten an externe Server.

Beispiel: Ein Unternehmen im Gesundheitswesen, das Patientendaten verarbeiten muss, wählt ein offenes Basis-Modell für den lokalen Betrieb. Die Daten verlassen nie die eigene Infrastruktur. Ein Marketing-Team ohne besondere Datenschutzanforderungen nutzt dagegen ein geschlossenes Modell über eine API, weil die Einrichtung weniger Aufwand erfordert.

Beispiel: Mistral 7B lässt sich auf einem einzelnen Server mit einer Grafikkarte betreiben. LLaMA 3 70B erfordert mehrere Grafikkarten oder Quantisierung (Reduktion der Rechenpräzision), um auf üblicher Hardware zu laufen. Die Modellgröße bestimmt die Infrastrukturanforderungen direkt.

Grenzen und Einschränkungen

Basis-Modelle haben systematische Grenzen, die auch durch Skalierung nicht vollständig überwunden werden.

Stichtag des Wissens: Das Wissen eines Basis-Modells endet mit dem Trainingsdatensatz. Ereignisse nach dem Stichtag sind dem Modell unbekannt. RAG-Systeme können diese Lücke teilweise schließen.

Halluzination: Basis-Modelle erzeugen gelegentlich sachlich falsche, aber plausibel klingende Texte. Dieses Verhalten folgt direkt aus dem Trainingsziel: Das Modell maximiert die Wahrscheinlichkeit des nächsten Tokens, nicht die faktische Korrektheit.

Beispiel: Bei der Frage nach einem spezifischen Gerichtsurteil kann ein Basis-Modell ein Aktenzeichen generieren, das dem Format echter Aktenzeichen entspricht, aber nicht existiert. Das Modell hat gelernt, wie Aktenzeichen aussehen, nicht welche tatsächlich existieren.

Bias und Repräsentation: Die Trainingsdaten enthalten gesellschaftliche Vorurteile, die das Modell reproduziert. Ein Basis-Modell, das überwiegend auf englischsprachigen Texten trainiert wurde, repräsentiert andere Sprachen und Kulturen schlechter.

Beispiel: Wird ein Basis-Modell gebeten, Lebensleauf-Bewertungen zu erstellen, können sich Muster aus den Trainingsdaten zeigen, die bestimmte Namen oder Herkunftsländer systematisch anders bewerten. Solche Verzerrungen erfordern gezielte Gegenmaßnahmen beim Fine-Tuning oder durch Filter-Systeme.

Rechenkosten: Sowohl das Training als auch der Betrieb (Inferenz) großer Basis-Modelle erfordern erhebliche Rechenressourcen. Das Training von GPT-4 kostete geschätzt über 100 Millionen US-Dollar. Auch die Inferenz auf einem 70-Milliarden-Parameter-Modell erfordert spezialisierte Hardware.

Fachliche Einordnung: Die Frage, ob Skalierung allein ausreicht, um die genannten Grenzen zu überwinden, ist in der Forschung umstritten. Die "Scaling-Hypothese" postuliert, dass größere Modelle mit mehr Daten diese Probleme sukzessive lösen. Kritiker verweisen darauf, dass bestimmte Fähigkeiten (kausales Schließen, zuverlässige Faktengenauigkeit) möglicherweise architektonische Änderungen erfordern, nicht nur mehr Skalierung.

Karl Kratz · 04.06.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz LLM