Fine-Tunen

Ein Sprachmodell lernt zunächst allgemeine Zusammenhänge aus großen Textmengen. Anschließend wird es mit einem kleineren, spezialisierten Datensatz weitertrainiert, damit es eine bestimmte Aufgabe besser löst. Diesen zweiten Schritt nennt man Fine-Tunen.

Vorhandenes Wissen gezielt erweitern

Große Sprachmodelle durchlaufen während ihres Vortrainings Milliarden von Textdokumenten. Dabei erwerben sie ein breites Verständnis von Sprache, Grammatik und Weltwissen. Dieses allgemeine Wissen bildet die Grundlage für spezialisierte Anwendungen.

Fine-Tunen setzt genau hier an: Statt ein Modell von Grund auf zu trainieren, wird das vorhandene Basiswissen als Ausgangspunkt verwendet. Das Modell wird mit einem aufgabenspezifischen Datensatz weitertrainiert. Die Gewichte im neuronalen Netz verändern sich dabei nur geringfügig, aber gezielt in Richtung der neuen Aufgabe.

Beispiel: Ein allgemeines Sprachmodell hat gelernt, grammatisch korrekte Sätze zu erzeugen. Durch Fine-Tunen auf medizinische Fachartikel lernt es zusätzlich, klinische Befunde korrekt zusammenzufassen.

Beispiel: Ein vortrainiertes Modell wird mit 5.000 annotierten Kundenbewertungen weitertrainiert. Danach erkennt es die Stimmung in neuen Bewertungen mit höherer Trefferquote als das Basismodell.

Das Prinzip dahinter heißt Transfer Learning: Einmal erlerntes Wissen wird auf eine neue Aufgabe übertragen. Fine-Tunen ist die gebräuchlichste Form dieses Transfers bei Deep-Learning-Modellen.

Wie eine Feinabstimmung abläuft

Der typische Ablauf beginnt mit einem vortrainierten Basismodell. Dieses Modell hat seine Gewichte im Vortraining auf allgemeine Sprachaufgaben optimiert. Beim Fine-Tunen werden dieselben Gewichte mit neuen Trainingsdaten aktualisiert.

Die Trainingsschleife entspricht im Prinzip dem Vortraining: Das Modell verarbeitet Eingaben, vergleicht seine Ausgabe mit der erwarteten Antwort, berechnet den Fehler über eine Verlustfunktion und passt seine Gewichte über Backpropagation an. Der entscheidende Unterschied: Die Lernrate ist deutlich niedriger als im Vortraining.

Beispiel: Ein Vortraining verwendet eine Lernrate von 1e-4. Beim Fine-Tunen liegt sie typischerweise bei 1e-5 oder 2e-5. Diese niedrige Rate verhindert, dass das allgemeine Sprachverständnis überschrieben wird.

Beispiel: Ein Modell wird auf einem Datensatz aus 10.000 Frage-Antwort-Paaren aus dem technischen Support fine-getuned. Nach drei Epochen (drei vollständige Durchläufe durch den Datensatz) stabilisiert sich die Leistung auf dem Validierungsset.

Die Anzahl der Trainingsschritte ist beim Fine-Tunen erheblich geringer als beim Vortraining. Während ein Vortraining Wochen auf Hunderten von GPUs dauert, benötigt Fine-Tunen oft nur Stunden auf einer einzigen GPU.

Varianten der Feinabstimmung

Es gibt verschiedene Ansätze, wie stark ein Modell beim Fine-Tunen verändert wird. Die Wahl hängt von der verfügbaren Rechenleistung, der Datenmenge und der gewünschten Spezialisierung ab.

Alle Parameter anpassen

Beim vollständigen Fine-Tunen (Full Fine-Tuning) werden sämtliche Modellparameter aktualisiert. Das Modell verändert sich über alle Schichten hinweg. Dieser Ansatz liefert die stärkste Anpassung, benötigt aber den meisten Speicher und die meiste Rechenzeit.

Beispiel: Ein Modell mit 7 Milliarden Parametern wird vollständig auf juristische Dokumente fine-getuned. Dafür werden mehrere GPUs mit jeweils 80 GB Speicher benötigt, weil sämtliche Gradienten im Speicher gehalten werden müssen.

Nur einen Teil der Parameter anpassen

Parametereffiziente Methoden (Parameter-Efficient Fine-Tuning, PEFT) verändern nur einen Bruchteil der Gewichte. Die wichtigste Methode in dieser Kategorie ist LoRA (Low-Rank Adaptation). LoRA fügt kleine Adapter-Matrizen in bestimmte Schichten ein und trainiert nur diese zusätzlichen Parameter.

Beispiel: Mit LoRA werden bei einem 7-Milliarden-Parameter-Modell nur etwa 0,1 bis 1 Prozent zusätzliche Parameter trainiert. Das reduziert den Speicherbedarf so weit, dass eine einzelne GPU mit 24 GB ausreicht.

Weitere parametereffiziente Methoden sind Prefix Tuning (trainiert gelernte Prompt-Vektoren), Adapter Layers (fügt kleine Zwischenschichten ein) und QLoRA (kombiniert LoRA mit Quantisierung des Basismodells auf 4 Bit).

Fachliche Einordnung: LoRA hat sich seit 2023 als Standard für parametereffizientes Fine-Tunen etabliert. Die Methode wurde von Hu et al. (2021) vorgestellt. QLoRA (Dettmers et al., 2023) erweiterte den Ansatz so, dass Fine-Tunen von Modellen mit 65 Milliarden Parametern auf einer einzigen 48-GB-GPU möglich wurde. Beide Methoden sind in der Bibliothek PEFT von Hugging Face verfügbar.

Vortrainiertes ModellAllgemeines Sprachverständnis

Full Fine-TuningAlle Parameter

LoRA / QLoRAAdapter-Matrizen

Prefix TuningPrompt-Vektoren

Spezialisiertes ModellAufgabenspezifisch

Wenn ein Modell sein Basiswissen verliert

Ein zentrales Risiko beim Fine-Tunen ist Catastrophic Forgetting. Das Modell passt sich so stark an die neuen Trainingsdaten an, dass es zuvor gelerntes Wissen verliert. Dieses Problem tritt besonders bei kleinen, einseitigen Datensätzen auf.

Beispiel: Ein allgemeines Sprachmodell wird ausschließlich auf Rechtstexte fine-getuned. Nach dem Training beantwortet es juristische Fragen gut, kann aber keine alltäglichen Fragen mehr kohärent beantworten.

Gegen Catastrophic Forgetting gibt es mehrere Strategien. Niedrige Lernraten verlangsamen die Veränderung der Gewichte. Ein gemischter Datensatz (aufgabenspezifische Daten plus allgemeine Texte) hält das Basiswissen aktiv. Regularisierung bestraft zu große Abweichungen von den ursprünglichen Gewichten. Parametereffiziente Methoden wie LoRA umgehen das Problem teilweise, weil sie nur zusätzliche Parameter trainieren und die Basisgewichte einfrieren.

Warum die Qualität der Daten entscheidend ist

Die Qualität des Fine-Tuning-Datensatzes bestimmt das Ergebnis stärker als dessen Größe. Wenige Tausend sorgfältig kuratierte Beispiele übertreffen in der Praxis häufig Zehntausende ungeprüfte Datenpunkte.

Beispiel: Ein Modell wird mit 2.000 manuell geprüften Frage-Antwort-Paaren aus dem Kundenservice fine-getuned. Es erreicht eine höhere Antwortqualität als ein Modell, das mit 50.000 automatisch generierten Paaren trainiert wurde, die Fehler und Widersprüche enthalten.

Typische Qualitätsprobleme in Fine-Tuning-Datensätzen sind: widersprüchliche Labels (dieselbe Eingabe hat unterschiedliche Zielausgaben), ungleichmäßige Klassenverteilung (eine Kategorie dominiert), fehlende Varianz (alle Beispiele folgen demselben Muster) und Datenlecks (Testdaten sind in den Trainingsdaten enthalten).

Beispiel: Ein Klassifikationsmodell wird auf Kundenbewertungen trainiert, von denen 90 Prozent positiv sind. Das Modell lernt, fast immer "positiv" vorherzusagen, und versagt bei negativen Bewertungen. Eine ausgewogene Stichprobe mit gleich vielen positiven und negativen Beispielen vermeidet dieses Problem.

Typische Anwendungsbereiche

Fine-Tunen wird überall dort eingesetzt, wo ein allgemeines Modell für eine spezifische Aufgabe nicht ausreicht. Die häufigsten Anwendungen lassen sich in drei Kategorien einteilen.

Spezialisierung auf eine Domäne

Das Modell lernt die Fachsprache und Konventionen eines bestimmten Bereichs. Medizinische, juristische und technische Texte verwenden Begriffe, die im allgemeinen Sprachgebrauch selten vorkommen oder eine andere Bedeutung tragen.

Beispiel: Ein allgemeines Modell kennt das Wort "Stamm" als Baumteil. Ein auf linguistische Texte fine-getunedes Modell ordnet "Stamm" korrekt als Wortstamm in der Morphologie ein.

Anpassung des Ausgabeformats

Fine-Tunen legt fest, in welcher Form das Modell antwortet. Das betrifft Länge, Struktur, Tonalität und Format der Ausgaben.

Beispiel: Ein Chatbot-Modell wird so fine-getuned, dass es Antworten in maximal drei Sätzen gibt und immer mit einer Rückfrage endet. Das Basismodell hätte ohne dieses Training längere, unstrukturierte Antworten erzeugt.

Instruktionsbefolgung

Instruction Tuning ist eine spezielle Form des Fine-Tunens. Das Modell wird mit Paaren aus Anweisung und gewünschter Antwort trainiert. Dadurch lernt es, auf Prompts in natürlicher Sprache zuverlässig zu reagieren. Die meisten aktuellen Sprachmodelle (GPT-4, Claude, Llama) durchlaufen diesen Schritt nach dem Vortraining.

Feinabstimmung durch menschliches Feedback

Reinforcement Learning from Human Feedback (RLHF) erweitert das Fine-Tunen um eine zusätzliche Trainingsphase. Menschen bewerten mehrere Modellantworten auf dieselbe Frage. Aus diesen Bewertungen wird ein Belohnungsmodell (Reward Model) trainiert, das vorhersagt, welche Antworten Menschen bevorzugen. Das eigentliche Modell wird anschließend so optimiert, dass es höhere Bewertungen vom Belohnungsmodell erhält.

Beispiel: Ein Sprachmodell erzeugt drei verschiedene Antworten auf die Frage "Erkläre Photosynthese". Menschliche Bewerter stufen die verständlichste und korrekteste Antwort als beste ein. Nach dem RLHF-Training erzeugt das Modell Antworten, die diesem bevorzugten Stil ähneln.

RLHF ist rechenintensiv und erfordert sorgfältig geschulte Bewerter. Direct Preference Optimization (DPO) ist eine neuere Alternative, die ohne separates Belohnungsmodell auskommt. DPO optimiert die Modellgewichte direkt anhand von Präferenzpaaren ("Antwort A ist besser als Antwort B").

Grenzen und häufige Fehlannahmen

Fine-Tunen ist kein Allheilmittel. Es gibt klare Grenzen, die in der Praxis häufig unterschätzt werden.

Fine-Tunen fügt dem Modell kein neues Faktenwissen zuverlässig hinzu. Es verändert, wie das Modell antwortet, nicht primär, was es weiß. Für zuverlässiges Einbinden neuer Fakten ist Retrieval-Augmented Generation (RAG) besser geeignet, bei der das Modell zur Laufzeit auf eine externe Wissensdatenbank zugreift.

Beispiel: Ein Unternehmen möchte, dass ein Sprachmodell aktuelle Produktpreise nennt. Fine-Tunen mit einer Preisliste würde das Modell nicht zuverlässig korrekte Preise ausgeben lassen, weil sich die Gewichte nicht deterministisch auf einzelne Fakten abbilden. Eine RAG-Lösung, die zur Laufzeit die aktuelle Preisdatenbank abfragt, ist zuverlässiger.

Weitere Grenzen:

Das fine-getunede Modell kann nur so gut sein wie sein Basismodell. Schwachstellen des Vortrainings (Verzerrungen, Lücken) bleiben erhalten.
Zu wenig Trainingsdaten führen zu Overfitting: Das Modell merkt sich die Trainingsbeispiele auswendig, statt zu generalisieren.
Fine-Tunen auf eine Aufgabe kann die Leistung auf anderen Aufgaben verschlechtern (Catastrophic Forgetting).
Die Evaluierung ist aufwändig. Automatische Metriken (wie BLEU oder ROUGE) erfassen Qualität nur unvollständig. Menschliche Bewertung bleibt für viele Aufgaben notwendig.

Fachliche Einordnung: Die Frage, ob Fine-Tunen oder Prompt Engineering (mit In-Context Learning) der bessere Ansatz ist, hängt vom konkreten Anwendungsfall ab. Prompt Engineering erfordert keine Trainingsinfrastruktur und ist sofort einsetzbar. Fine-Tunen liefert bei ausreichend Daten konsistentere Ergebnisse, erfordert aber GPU-Zugang, Datenaufbereitung und laufende Evaluation. In der Praxis werden beide Ansätze oft kombiniert: Ein fine-getunedes Modell wird mit durchdachten Prompts angesteuert.

Karl Kratz · 08.09.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz Training