Trainingsdaten

Wenn ein Sprachmodell einen Satz vervollständigt, eine Frage beantwortet oder Code schreibt, greift es auf Muster zurück, die es aus Milliarden von Textbeispielen extrahiert hat. Diese Textbeispiele sind seine Trainingsdaten. Sie legen fest, was das Modell kann, wo es versagt und welche Verzerrungen es reproduziert.

Die Rolle der Trainingsdaten im Lernprozess

Ein Sprachmodell startet mit zufällig initialisierten Gewichten. Während des Trainings liest es Textpassagen, versucht das nächste Wort (oder ein maskiertes Wort) vorherzusagen und passt seine Gewichte anhand der Abweichung zwischen Vorhersage und tatsächlichem Wort an. Dieser Vorgang wiederholt sich über mehrere Epochen hinweg über den gesamten Datensatz.

Beispiel: Ein Modell sieht den Satz "Die Hauptstadt von Frankreich ist" und sagt "London" vorher. Der tatsächliche nächste Token lautet "Paris". Die Differenz zwischen den beiden erzeugt ein Fehlersignal, das über Backpropagation die Gewichte so verändert, dass "Paris" beim nächsten Mal wahrscheinlicher wird.

Beispiel: Enthält der Trainingsdatensatz zehntausend medizinische Fachpublikationen, aber nur dreihundert juristische Texte, wird das Modell medizinische Fachsprache deutlich besser beherrschen als juristische Terminologie. Die Verteilung der Trainingsdaten bestimmt die Domänenkompetenz.

Das Modell speichert dabei keine einzelnen Sätze ab. Es lernt statistische Zusammenhänge: Welche Wörter treten in welchem Kontext gemeinsam auf? Welche Satzstrukturen sind in welcher Domäne typisch? Diese Zusammenhänge sind in den Milliarden von Parametern des Modells als Gewichtswerte kodiert.

Fachliche Einordnung: Beim Self-Supervised Pre-Training wird kein manuelles Label benötigt. Der Text selbst liefert das Trainingssignal (das nächste Token bei autoregressiven Modellen, das maskierte Token bei Transformer-Encoder-Modellen). Dieses Verfahren ermöglicht Training auf Datensätzen mit Billionen von Token, weil keine menschliche Annotation notwendig ist.

Woraus Trainingsdaten bestehen

Ein typischer Trainingsdatensatz für ein großes Sprachmodell setzt sich aus mehreren Quellkategorien zusammen. Die Mischung dieser Quellen beeinflusst, welche Fähigkeiten das Modell entwickelt.

Beispiel: Der Common-Crawl-Datensatz umfasst Petabytes an Webseiten und stellt für viele Modelle den Hauptanteil der Trainingsdaten. Er enthält Nachrichtenartikel, Foren, Blogbeiträge, Produktbeschreibungen und Spam. Ohne Filterung würde das Modell die Qualitätsverteilung des Internets übernehmen.

Beispiel: Kuratierte Buchdatensätze wie Books3 oder BookCorpus enthalten lange, zusammenhängende Texte mit konsistenter Grammatik. Modelle, die einen hohen Anteil solcher Daten sehen, entwickeln eine stärkere Fähigkeit zur Verarbeitung langer Zusammenhänge.

Weitere typische Quellen sind Wikipedia-Artikel (enyklopädisches Wissen, strukturierte Sprache), wissenschaftliche Paper (Fachvokabular, formale Argumentation), Code-Repositories (Programmiersprachen, Kommentare), Dialogdatensätze (Frage-Antwort-Muster, Umgangssprache) und mehrsprachige Parallelkorpora (Übersetzungspaare).

Beispiel: GPT-3 wurde auf einem Mix aus Common Crawl (60%), WebText2 (22%), Books (8%) und Wikipedia (3%) trainiert. Die restlichen 7% stammten aus anderen kuratierten Quellen. Dieses Mischungsverhältnis war das Ergebnis systematischer Experimente zur Textqualität.

Qualitätskriterien und Filterung

Die Qualität der Trainingsdaten hat einen stärkeren Einfluss auf die Modellleistung als die reine Menge. Ein kleinerer, sauber kuratierter Datensatz kann ein Modell hervorbringen, das einem größeren Modell mit verrauschten Daten überlegen ist.

Beispiel: Das Phi-2-Modell von Microsoft wurde gezielt auf "textbook-quality" Daten trainiert. Mit 2,7 Milliarden Parametern erreichte es auf mehreren Benchmarks Ergebnisse, die mit deutlich größeren Modellen vergleichbar waren. Die Datenqualität kompensierte die geringere Modellgröße teilweise.

Typische Filterschritte bei der Aufbereitung von Webdaten:

Spracherkennung: Nur Texte in den Zielsprachen behalten
Duplikat-Entfernung: Exakte und unscharfe Duplikate identifizieren und entfernen
Qualitätsfilter: Perplexity-basierte Filter sortieren Texte mit untypischer Sprachstruktur aus (Spam, automatisch generierter Text, Keyword-Stuffing)
Toxizitätsfilter: Klassifikatoren entfernen Texte mit Hassrede, Gewaltverherrlichung oder anderen unerwünschten Inhalten
Persönliche Daten: E-Mail-Adressen, Telefonnummern und andere personenbezogene Daten werden entfernt oder maskiert

Beispiel: Bei der Erstellung des C4-Datensatzes (Colossal Clean Crawled Corpus) wurde Common Crawl durch mehrere Filterstufen verarbeitet. Seiten mit weniger als drei Sätzen, Seiten mit hohem Anteil an Schimpfwörtern und Duplikate wurden entfernt. Aus 20 Terabyte Rohtext blieben 750 Gigabyte bereinigter Text.

Von Rohtext zu Trainingsbeispielen

Bevor ein Text dem Modell als Trainingsbeispiel vorgelegt wird, durchläuft er mehrere Verarbeitungsschritte. Jeder Schritt verändert, was das Modell letztlich sieht.

RohtextWebseiten, Bücher, Code

FilterungQualität, Duplikate, Toxizität

DeduplikationMinHash, Exact Match

TokenisierungText zu Token-IDs

SequenzbildungPacking, Padding, Truncation

Der erste Schritt ist die Tokenisierung. Ein Tokenizer zerlegt den Text in Subword-Einheiten und ordnet jeder Einheit eine numerische ID zu. Der Satz "Trainingsdaten bestimmen die Modellqualität" wird dabei je nach Tokenizer-Typ in sechs bis zehn Token aufgeteilt.

Beispiel: Der BPE-Tokenizer von GPT-4 zerlegt das Wort "Trainingsdaten" in die Token ["Training", "s", "daten"]. Jedes Token erhält eine numerische ID. Das Modell sieht nicht den Klartext, sondern eine Folge solcher IDs.

Nach der Tokenisierung werden die Token-Sequenzen in Blöcke fester Länge aufgeteilt (beispielsweise 2048 oder 4096 Token). Texte, die kürzer als die Blocklänge sind, werden entweder aufgefüllt (Padding) oder mit anderen Texten zusammengefügt (Packing). Texte, die länger sind, werden abgeschnitten.

Beispiel: Ein Wikipedia-Artikel mit 800 Token und ein Forenbeitrag mit 1200 Token werden beim Packing zu einer 2000-Token-Sequenz zusammengefügt. Ein Separator-Token markiert die Grenze zwischen beiden Texten, damit das Modell lernt, dass die Texte nicht zusammengehören.

Datenmenge und Skalierungsgesetze

Die Frage, wie viele Trainingsdaten ein Modell benötigt, hängt von der Modellgröße ab. Zu wenige Daten führen zu Overfitting (das Modell memoriert statt zu generalisieren), zu viele Trainingsschritte bei gleichen Daten führen zu Degradierung.

Chinchilla-Skalierungsgesetze (Hoffmann et al., 2022) legen nahe, dass die optimale Tokenanzahl ungefähr das 20-Fache der Parameteranzahl betragen sollte. Ein Modell mit 10 Milliarden Parametern benötigt demnach etwa 200 Milliarden Token.

Beispiel: LLaMA (Meta, 2023) wurde mit 1,4 Billionen Token trainiert, obwohl das größte Modell der Reihe 65 Milliarden Parameter hatte. Das entspricht deutlich mehr als dem Chinchilla-Optimum. Meta entschied sich bewusst dafür, weil ein länger trainiertes, kleineres Modell bei der Inferenz günstiger im Betrieb ist als ein größeres Modell am Chinchilla-Punkt.

In der Praxis stoßen aktuelle Modelle an die Grenze verfügbarer hochwertiger Textdaten. Schätzungen gehen davon aus, dass das frei zugängliche Internet insgesamt zwischen 5 und 15 Billionen Token hochwertigen Texts enthält. Modelle mit mehreren hundert Milliarden Parametern nähern sich dieser Grenze.

Beispiel: Llama 3 (Meta, 2024) wurde auf 15 Billionen Token trainiert. Um diese Menge zu erreichen, mussten die Datenteams multilingualen Text einbeziehen, synthetische Daten generieren und die Filterpipeline mehrfach anpassen.

Fachliche Einordnung: Die Chinchilla-Skalierungsgesetze gelten streng genommen nur für compute-optimales Training, bei dem Trainingskosten und Modellqualität gemeinsam optimiert werden. Für inference-optimierte Szenarien (kleines Modell, lange trainieren) gelten andere Tradeoffs. Neuere Arbeiten (z.B. Muennighoff et al., 2023, "Scaling Data-Constrained Language Models") untersuchen, wie sich mehrfaches Wiederholen von Daten auswirkt.

Verzerrungen und Repräsentationsprobleme

Trainingsdaten spiegeln die Texte wider, die Menschen verfasst und online gestellt haben. Dadurch übernimmt das Modell systematische Verzerrungen seiner Datenquellen.

Beispiel: Modelle, die überwiegend auf englischsprachigen Texten trainiert wurden, erzeugen bei Prompts auf Deutsch häufig grammatikalisch korrekte, aber semantisch fragwürdige Antworten. Die Trainingsdaten enthalten weniger deutschsprachige Texte, und die statistische Basis für deutsche Sprachmuster ist dünner.

Beispiel: In einem Experiment generierten mehrere Sprachmodelle zu dem Prompt "The CEO walked into the room" überwiegend männlich kodierte Fortsetzungen ("he sat down", "his briefcase"). Das Modell reproduzierte die Geschlechterverteilung seiner Trainingsdaten, in denen CEO-Beschreibungen überwiegend männliche Pronomen enthielten.

Verzerrungen treten auf mehreren Ebenen auf:

Repräsentationsverzerrung: Bestimmte Sprachen, Kulturen oder Perspektiven sind unterrepräsentiert
Stereotyp-Verstärkung: Das Modell überträgt statistische Korrelationen in seinen Daten auf seine Ausgaben
Zeitliche Verzerrung: Das Modell kennt nur den Zeitraum seiner Trainingsdaten und behandelt veraltete Informationen als aktuell
Qualitätsverzerrung: Überrepräsentation bestimmter Textgattungen (z.B. Nachrichtenartikel) verzerrt den Schreibstil des Modells

Beispiel: Ein Modell, das bis Ende 2023 trainiert wurde, beantwortet die Frage "Wer ist der aktuelle Bundeskanzler?" korrekt mit "Olaf Scholz". Wird dasselbe Modell 2026 gefragt, gibt es weiterhin dieselbe Antwort, selbst wenn die politische Lage sich verändert hat. Das Modell hat keine Möglichkeit, Änderungen nach seinem Trainingsdatum zu berücksichtigen.

Synthetische Trainingsdaten

Bei synthetischen Trainingsdaten generiert ein bestehendes Modell Texte, die als Trainingsmaterial für ein anderes (oder dasselbe) Modell dienen. Dieses Verfahren gewinnt an Bedeutung, weil hochwertige natürliche Texte zunehmend knapp werden.

Beispiel: Beim Alpaca-Projekt (Stanford, 2023) generierte GPT-3.5 auf Basis von 175 Seed-Instruktionen insgesamt 52.000 Instruktion-Antwort-Paare. Diese dienten als Fine-Tuning-Daten für ein kleineres Modell (LLaMA 7B), das anschließend Instruktionen besser befolgen konnte.

Beispiel: Microsoft nutzte für das Training von Phi-1 synthetisch generierte "Textbook"-Daten: ein größeres Modell schrieb lehrbuchartige Erklärungen zu Programmierkonzepten. Das resultierende 1,3-Milliarden-Parameter-Modell zeigte auf Code-Benchmarks starke Ergebnisse.

Synthetische Daten bringen spezifische Risiken mit sich. Wenn ein Modell auf seinen eigenen Ausgaben oder den Ausgaben eines ähnlichen Modells trainiert wird, kann es zu "Model Collapse" kommen: Die Verteilung der generierten Texte verengt sich mit jeder Generation. Seltene, aber wichtige Sprachmuster verschwinden schrittweise.

Fachliche Einordnung: Shumailov et al. (2023) zeigten in "The Curse of Recursion", dass iteratives Training auf modellgenerierten Daten die Varianz der Ausgaben reduziert und die Verteilung in Richtung der häufigsten Muster verschiebt. Praktische Gegenßnahmen sind die Beimischung natürlicher Daten in jeder Trainingsrunde und explizite Diversitätsmetriken bei der Datengenerierung.

Menschliches Feedback als Trainingssignal

Nach dem Vortraining auf großen Textmengen folgt bei vielen aktuellen Modellen eine Phase, in der menschliches Feedback die Ausgabequalität steuert. Die Trainingsdaten in dieser Phase sind keine Texte im klassischen Sinne, sondern Bewertungen.

Im RLHF-Verfahren (Reinforcement Learning from Human Feedback) sehen menschliche Bewerter zwei oder mehr Modellantworten auf dieselbe Eingabe und wählen die bessere. Aus diesen Präferenzpaaren lernt ein Reward-Modell, menschliche Qualitätseinschätzungen vorherzusagen. Das Sprachmodell wird anschließend mit Reinforcement Learning so angepasst, dass es höhere Reward-Scores erzielt.

Beispiel: Für InstructGPT erstellte OpenAI einen Datensatz aus 33.000 menschlichen Demonstrationen (Annotator schrieb die gewünschte Antwort selbst) und 75.000 Vergleichspaaren (Annotator wählte die bessere von zwei Modellantworten). Dieser Datensatz war um Größenordnungen kleiner als die Vortrainingsdaten, veränderte aber das Modellverhalten deutlich.

Beispiel: Anthropic veröffentlichte Teile seines RLHF-Datensatzes ("HH-RLHF"). Jeder Eintrag besteht aus einem Prompt, einer bevorzugten Antwort und einer abgelehnten Antwort. Das Modell lernt aus diesen Paaren, welche Antworteigenschaften (Hilfreichkeit, Harmlosigkeit) bevorzugt werden.

Die Qualität dieser Bewertungsdaten hängt stark von den Annotationsrichtlinien und der Schulung der Bewerter ab. Unterschiedliche Annotatorengruppen können bei derselben Modellantwort zu unterschiedlichen Präferenzen kommen.

Grenzen und offene Probleme

Trainingsdaten setzen harte Grenzen für die Fähigkeiten eines Modells. Einige dieser Grenzen sind prinzipieller Natur, andere praktisch bedingt.

Das Wissen eines Modells endet mit seinem Trainingsschnitt. Ereignisse nach diesem Datum sind ihm unbekannt. Fine-Tuning auf neueren Daten kann dieses Problem teilweise lösen, erfordert aber erneuten Rechenaufwand und Datenaufbereitung.

Die Herkunft von Trainingsdaten ist häufig unklar. Viele Modellhersteller dokumentieren die Zusammensetzung ihrer Datensätze nicht vollständig. Das erschwert die Analyse von Modellfehlern: Wenn ein Modell bei juristischen Fragen systematisch falsche Antworten gibt, kann die Ursache in fehlenden juristischen Trainingsdaten liegen, in falscher Filterung oder in widersprüchlichen Quellen.

Beispiel: Die New York Times verklagte OpenAI mit der Begründung, dass Trainingsdaten urheberrechtlich geschützte Artikel enthielten und das Modell in der Lage sei, diese nahezu wörtlich zu reproduzieren. Die rechtliche Einordnung von Trainingsdaten ist international ungeklärt.

Beispiel: Carlini et al. (2021) zeigten, dass GPT-2 in der Lage war, einzelne Trainingsdatenpunkte wörtlich wiederzugeben. Betroffen waren vor allem Texte, die häufig in den Daten vorkamen (z.B. Lizenztexte, Impressum-Vorlagen). Dieses Phänomen wird als "Memorization" bezeichnet.

Weitere offene Probleme:

Datenvergiftung (Data Poisoning): Ein Angreifer kann gezielt manipulierte Texte in öffentlich zugängliche Quellen einschleusen, die beim nächsten Crawl in die Trainingsdaten gelangen
Datenlizenzierung: Die Nutzung urheberrechtlich geschützter Texte für das Training ist juristisch umstritten
Datenknappheit: Für viele Sprachen und Fachgebiete existieren nicht genügend hochwertige Texte
Auditierbarkeit: Ohne vollständige Dokumentation der Trainingsdaten ist eine unabhängige Prüfung des Modellverhaltens erschwert

Fachliche Einordnung: Die EU-KI-Verordnung (AI Act) verlangt für Hochrisiko-KI-Systeme eine Dokumentation der Trainingsdaten. Für General-Purpose-Modelle (GPAI) gelten Transparenzpflichten, deren Umsetzung in der Praxis noch nicht vollständig geklärt ist. Die Frage, ob das Training auf öffentlich zugänglichen Daten eine "zulässige Nutzung" darstellt, wird in der EU, den USA und Japan unterschiedlich bewertet.

Karl Kratz · 24.02.2025

Technologie Künstliche Intelligenz Training