Fine-Tuning

Ein bereits trainiertes Sprachmodell wird mit eigenen Daten nachtrainiert, damit es eine bestimmte Aufgabe besser löst. Das Modell behält sein breites Vorwissen, lernt aber zusätzlich die Muster und Formulierungen aus den bereitgestellten Beispieldaten. Diesen Vorgang nennt man Fine-Tuning.

Vom allgemeinen Modell zur spezifischen Aufgabe

Große Sprachmodelle durchlaufen ein umfangreiches Vortraining. Sie lesen Milliarden von Textfragmenten und entwickeln dabei ein statistisches Verständnis von Sprache, Grammatik und Zusammenhängen. Nach diesem Vortraining kann ein Basis-Modell Texte vervollständigen, Fragen beantworten und Zusammenhänge herstellen. Es ist allerdings ein Generalist: Es kennt vieles oberflächlich, aber nichts besonders gründlich.

Fine-Tuning setzt an diesem Punkt an. Das vortrainierte Modell erhält einen Datensatz mit Beispielen, die exakt die gewünschte Aufgabe abbilden. Es durchläuft diese Daten mehrfach und passt seine internen Gewichte an. Die Änderungen sind vergleichsweise klein: typisch werden weniger als 5% der Modellgewichte signifikant verändert. Das breite Vorwissen bleibt erhalten, während sich das Verhalten in der Zielaufgabe messbar verbessert.

Beispiel: Ein Sprachmodell mit 7 Milliarden Parametern wird mit 10.000 medizinischen Arzt-Patienten-Dialogen nachtrainiert. Vor dem Fine-Tuning antwortet es auf die Frage "Was deutet auf eine Appendizitis hin?" mit allgemeinsprachlichen Formulierungen. Danach verwendet es korrekte Fachterminologie, nennt typische Symptomkonstellationen und formuliert im Stil einer klinischen Einschätzung.

Beispiel: Ein Basis-Modell generiert E-Mails in neutralem Standardton. Nach Fine-Tuning mit 5.000 firmeninternen E-Mails übernimmt es den spezifischen Kommunikationsstil, verwendet die internen Abkürzungen korrekt und hält sich an die übliche Anrede- und Grußformel des Unternehmens.

Trainingsformate und Datenstruktur

Fine-Tuning-Datensätze bestehen aus strukturierten Eingabe-Ausgabe-Paaren. Das Modell lernt, bei einer gegebenen Eingabe die gewünschte Ausgabe zu produzieren. Die Trainingsdaten müssen das gewünschte Verhalten korrekt und konsistent abbilden.

Die drei gängigen Datenformate:

Instruction-Format: Jedes Beispiel besteht aus einer Anweisung (instruction), optional einer zusätzlichen Eingabe (input) und der gewünschten Antwort (output). Dieses Format eignet sich besonders, wenn das Modell verschiedenartige Aufgaben innerhalb einer Domäne lösen soll.

Chat-Format: Jedes Beispiel ist ein mehrstufiger Dialog mit Rollen (system, user, assistant). Das Modell lernt, auf Nutzeranfragen im Kontext einer Konversation zu reagieren. Besonders relevant bei Chatbot-Anwendungen und interaktiven Assistenten.

Completion-Format: Jedes Beispiel ist ein zusammenhängender Text, bei dem das Modell lernt, nach einem Prompt passend fortzusetzen. Dieses Format wird bei reinen Textgenerierungs-Aufgaben verwendet.

Beispiel: Ein Datensatz im Instruction-Format für juristische Zusammenfassungen enthält als instruction: "Fasse das folgende Urteil in drei Sätzen zusammen." Als input folgt der Urteilstext, als output die menschlich verfasste Zusammenfassung. 2.000 solcher Paare reichen typischerweise für eine messbare Verbesserung.

Beispiel: Ein Chat-Datensatz für einen technischen Support-Bot enthält als system-Nachricht: "Du bist ein technischer Support-Mitarbeiter für Netzwerkgeräte." Jeder Dialog umfasst 4 bis 8 Nachrichten mit realistischen Fehlerbeschreibungen und schrittweisen Lösungsanleitungen.

Methoden: Vollständiges und selektives Fine-Tuning

Beim vollständigen Fine-Tuning (Full Fine-Tuning) werden alle Gewichte des Modells angepasst. Das erfordert mindestens so viel GPU-Speicher wie das Modell selbst benötigt, zuzüglich Speicher für Gradienten und Optimizer-Zustände. Bei einem 7-Milliarden-Parameter-Modell sind das ca. 28 GB allein für die Modellgewichte in 32-Bit-Präzision, plus 56 GB für den Adam-Optimizer.

Selektive Methoden reduzieren diesen Aufwand erheblich. Die bekannteste ist LoRA (Low-Rank Adaptation). Statt alle Gewichte zu ändern, fügt LoRA kleine zusätzliche Matrizen in bestimmte Schichten des Modells ein. Nur diese Matrizen werden trainiert. Die Originalgewichte bleiben eingefroren. Bei einem 7-Milliarden-Parameter-Modell trainiert LoRA typischerweise 0,1% bis 1% der Gesamtparameter.

QLoRA kombiniert LoRA mit 4-Bit-Quantisierung der Originalgewichte. Das Modell wird in stark komprimierter Form in den Speicher geladen, während die LoRA-Matrizen in höherer Präzision trainiert werden. Dadurch lässt sich ein 65-Milliarden-Parameter-Modell auf einer einzigen GPU mit 48 GB Speicher fine-tunen.

Beispiel: Ein 13-Milliarden-Parameter-Modell soll für die Klassifikation von Supportanfragen angepasst werden. Full Fine-Tuning würde mindestens 120 GB GPU-Speicher erfordern (4 x A100 40GB). Mit QLoRA sinkt der Bedarf auf 24 GB (1 x A100 40GB), bei einer Qualitätseinbuße von unter 2% auf dem internen Benchmark.

Fachliche Einordnung: LoRA basiert auf der Beobachtung, dass die Gewichtsänderungen beim Fine-Tuning eine niedrige intrinsische Dimensionalität aufweisen. Hu et al. (2021) zeigten, dass eine Rang-16-Approximation der Update-Matrizen in vielen Aufgaben ausreicht, um die Leistung eines Full Fine-Tuning zu erreichen. Diese Eigenschaft ermöglicht eine Reduktion der trainierbaren Parameter um den Faktor 100 bis 1.000.

Basis-ModellVortrainierte Gewichte

TrainingsdatenEingabe-Ausgabe-Paare

Fine-Tuning-MethodeFull / LoRA / QLoRA

HyperparameterLernrate, Epochen, Rang

TrainingsschleifeForward + Backpropagation

Angepasstes ModellSpezialisiert auf Aufgabe

Steuerung über `Hyperparameter`

Das Verhalten des Fine-Tuning-Prozesses wird über Hyperparameter gesteuert. Die wichtigsten sind die Lernrate, die Anzahl der Epochen und die Batchgröße.

Die Lernrate bestimmt, wie stark die Gewichte pro Trainingsschritt angepasst werden. Beim Fine-Tuning liegt sie typisch zwischen 1e-5 und 5e-5. Das ist 10 bis 100 Mal kleiner als beim Vortraining. Eine zu hohe Lernrate zerstört das Vorwissen (Catastrophic Forgetting), eine zu niedrige führt zu keiner messbaren Anpassung.

Die Epochenzahl gibt an, wie oft der Datensatz durchlaufen wird. Bei Fine-Tuning reichen typisch 1 bis 5 Epochen. Mehr Epochen erhöhen das Risiko, dass das Modell die Trainingsdaten auswendig lernt statt zu generalisieren.

Die Batchgröße beeinflusst die Stabilität des Trainings. Kleine Batches (4 bis 16 Beispiele) führen zu mehr Rauschen in den Gradientenschätzungen, was bei kleinen Datensätzen als Regularisierungseffekt wirken kann.

Beispiel: Ein Experiment mit identischem Datensatz und Modell zeigt: Lernrate 5e-5 erreicht nach 3 Epochen 89% Genauigkeit auf dem Testset. Lernrate 2e-4 (vierfach höher) erreicht 91% nach 1 Epoche, fällt aber auf 72% nach 3 Epochen. Die Trainings-Genauigkeit steigt dabei auf 99,8%, ein klares Zeichen von Overfitting.

Beispiel: Bei einem Datensatz von nur 500 Beispielen bringt eine Epochenzahl von 10 zwar eine Trainingsgenauigkeit von 99,5%, aber die Testgenauigkeit sinkt von 84% (nach 3 Epochen) auf 71% (nach 10 Epochen). Das Modell hat die Trainingsbeispiele memorisiert.

Fine-Tuning im Vergleich zu anderen Anpassungsmethoden

Fine-Tuning ist eine von mehreren Methoden, um ein Sprachmodell an eine Aufgabe anzupassen. Die Alternativen unterscheiden sich in Aufwand, Flexibilität und Qualität der Ergebnisse.

Prompt-Engineering ändert keine Modellgewichte. Stattdessen wird die Eingabe so formuliert, dass das Modell das gewünschte Verhalten zeigt. Der Aufwand ist minimal, die Ergebnisse hängen stark von der Formulierung ab. Bei komplexen Aufgaben mit spezifischen Formatvorgaben stößt Prompt-Engineering an seine Grenzen.

RAG (Retrieval-Augmented Generation) ergänzt die Eingabe um relevante Dokumente aus einer Wissensdatenbank. Das Modell bleibt unverändert, erhält aber zusätzlichen Kontext. RAG eignet sich besonders, wenn das Modell auf aktuelle oder firmenspezifische Informationen zugreifen soll, die sich häufig ändern.

Training from Scratch trainiert ein Modell ohne Vorwissen von Grund auf. Das erfordert erheblich mehr Daten (Milliarden von Tokens statt Tausende von Beispielen) und Rechenleistung. Sinnvoll nur, wenn ein völlig neues Sprachverständnis aufgebaut werden muss.

Beispiel: Ein Unternehmen möchte einen Chatbot einsetzen, der Kundenanfragen zu 15 Produktkategorien beantwortet. Prompt-Engineering erreicht eine Klassifikationsgenauigkeit von 73%. RAG mit Produktdokumentation verbessert auf 81%. Fine-Tuning mit 3.000 annotierten Kundenanfragen erreicht 94%. Die Kombination aus Fine-Tuning und RAG bringt 96%.

Praktischer Ablauf eines Fine-Tuning-Projekts

Ein Fine-Tuning-Projekt folgt einer wiederkehrenden Struktur: Datenaufbereitung, Trainingsexperiment, Evaluation, Iteration.

Die Datenaufbereitung umfasst das Sammeln, Bereinigen und Formatieren der Trainingsdaten. Typische Probleme sind inkonsistente Formate, fehlerhafte Labels und ungleichmäßige Verteilung der Kategorien. Die Datenqualität bestimmt die Obergrenze der erreichbaren Modellqualität.

Im Trainingsexperiment werden Modell, Methode und Hyperparameter gewählt. Ein erster Lauf mit Standardparametern dient als Baseline. Anschließend werden systematisch einzelne Parameter variiert, um die Auswirkungen zu messen.

Die Evaluation vergleicht das fine-getunte Modell gegen die Baseline auf einem separaten Testdatensatz, den das Modell während des Trainings nicht gesehen hat. Relevante Metriken hängen von der Aufgabe ab: Genauigkeit bei Klassifikation, BLEU oder ROUGE bei Textgenerierung, F1-Score bei Informationsextraktion.

Beispiel: Ein Team bereitet 8.000 Support-Tickets als Trainingsdaten auf. 6.400 dienen als Trainingsset, 800 als Validierungsset (zur Hyperparameter-Optimierung), 800 als Testset (zur finalen Evaluation). Nach 4 Iterationen mit unterschiedlichen Lernraten und LoRA-Rängen erreicht das Modell einen F1-Score von 0,91 auf dem Testset.

Häufige Fehlerquellen und Risiken

Catastrophic Forgetting tritt auf, wenn das Fine-Tuning das Vorwissen des Modells überschreibt. Das passiert bei zu hohen Lernraten, zu vielen Epochen oder zu einseitigen Trainingsdaten. Das Modell wird in der Zielaufgabe besser, verliert aber allgemeine Fähigkeiten wie Zusammenfassung oder Übersetzung.

Daten-Leakage entsteht, wenn Informationen aus dem Testset in den Trainingsdaten enthalten sind. Die Metriken sehen gut aus, das Modell versagt aber bei neuen Eingaben. Besonders tückisch bei Datensätzen, die aus einer gemeinsamen Quelle stammen (z.B. wenn ein Kundendialog in mehrere Trainingsbeispiele aufgeteilt wird, aber Teile desselben Dialogs in Train und Test landen).

Bias-Verstärkung entsteht, wenn die Trainingsdaten systematische Verzerrungen enthalten. Ein Modell, das mit Lebensläufen einer Branche trainiert wird, in der 90% der Führungskräfte männlich sind, lernt diese Verzerrung als Muster. Fine-Tuning verstärkt bestehende Biases aus den Trainingsdaten, es mildert sie nicht.

Beispiel: Ein auf juristische Texte fine-getuntes Modell wurde mit Vertragstexten trainiert, die überwiegend deutsches Recht abbilden. Bei Fragen zum Schweizer Obligationenrecht gibt es Antworten, die auf deutschen Paragraphen basieren. Die Fehler sind subtil und für Nicht-Juristen schwer erkennbar.

Grenzen und offene Fragen

Fine-Tuning verschiebt das Verhalten eines Modells, es erweitert nicht grundlegend seine Fähigkeiten. Ein Modell, das bei einer bestimmten Art von logischem Schluss versagt, wird durch Fine-Tuning nicht plötzlich logisch schlussfähig. Es lernt Muster aus den Trainingsdaten, nicht die Fähigkeit zu abstraktem Denken.

Die Datenqualität setzt eine harte Obergrenze. Kein Hyperparameter-Tuning und keine Methodenwahl kompensiert fehlerhafte oder einseitige Trainingsdaten. Die häufig zitierte Faustregel "Garbage in, garbage out" trifft auf Fine-Tuning uneingeschränkt zu.

Die Evaluierung bleibt schwierig. Standardmetriken wie Genauigkeit oder F1-Score erfassen nur Teilaspekte. Ob ein fine-getuntes Modell in der Praxis zuverlässig arbeitet, zeigt sich erst im produktiven Einsatz mit realen Nutzern und realen Eingaben. Die Diskrepanz zwischen Benchmark-Ergebnissen und Praxistauglichkeit ist ein bekanntes Problem.

Der Aufwand für Datenerstellung wird systematisch unterschätzt. Das Erstellen hochwertiger Trainingspaare erfordert Fachexpertise und ist zeitintensiv. 2.000 sauber annotierte Beispiele können mehrere Personenmonate kosten.

Fachliche Einordnung: Die Forschung an parametereffizienten Methoden (PEFT) entwickelt sich schnell weiter. Adapter, Prefix-Tuning und LoRA sind nur der Anfang. Die offene Frage ist, ob diese Methoden bei zunehmender Modellgröße weiterhin konkurrenzfähig bleiben oder ob Full Fine-Tuning bei bestimmten Aufgabenklassen überlegen bleibt. Erste Ergebnisse bei Modellen mit über 100 Milliarden Parametern deuten darauf hin, dass der Qualitätsunterschied mit zunehmender Modellgröße kleiner wird.

Karl Kratz · 21.04.2025 (aktualisiert 20.01.2026)

Technologie Künstliche Intelligenz Machine Learning