Loss-Kurven
Beim Training eines Modells entsteht in jedem Schritt ein Fehlerwert. Trägt man diesen Wert über die Zeit auf, ergibt sich eine Kurve. Diese Kurve zeigt, ob das Training vorankommt, stagniert oder in eine Sackgasse läuft. In der Fachsprache heißt dieses Diagramm Loss-Kurve.
Was Loss-Kurven abbilden
Eine Loss-Kurve ist ein Diagramm mit zwei Achsen. Auf der horizontalen Achse stehen die Trainingsschritte oder Epochen. Auf der vertikalen Achse steht der Loss-Wert. Jeder Punkt auf der Kurve repräsentiert den Fehler des Modells zu einem bestimmten Zeitpunkt im Training.
Beispiel: Ein Sprachmodell wird auf 100.000 Sätzen trainiert. Nach den ersten 500 Schritten liegt der Loss bei 4,2. Nach 5.000 Schritten bei 1,8. Nach 20.000 Schritten bei 0,9. Diese drei Punkte ergeben einen fallenden Kurvenverlauf.
Beispiel: Ein Bildklassifikator lernt, Hunde von Katzen zu unterscheiden. Zu Beginn rät das Modell zufällig und der Loss liegt nahe bei ln(2) ≈ 0,693 (für binäre Klassifikation). Nach einigen Epochen sinkt der Loss auf 0,15. Die Loss-Kurve dokumentiert diesen Fortschritt visuell.
Die Kurve wird in der Regel nicht aus einzelnen Datenpunkten gezeichnet, sondern über gleitende Mittelwerte geglättet. Ohne Glättung zeigt die Rohkurve starkes Rauschen, weil der Loss pro Batch stark schwankt.
Training-Loss und Validation-Loss im Vergleich
In der Praxis werden zwei Kurven gleichzeitig dargestellt: der Training-Loss und der Validation-Loss. Der Training-Loss misst den Fehler auf den Daten, mit denen das Modell lernt. Der Validation-Loss misst den Fehler auf einem separaten Datensatz, den das Modell während des Trainings nie sieht.
Beispiel: Ein Transformer-Modell wird auf Nachrichtenartikeln trainiert. Der Training-Loss sinkt gleichmäßig auf 0,3. Der Validation-Loss sinkt bis Epoche 12 auf 0,5, steigt danach aber an. Die Divergenz zwischen beiden Kurven signalisiert, dass das Modell beginnt, die Trainingsdaten auswendig zu lernen, statt allgemeine Muster zu extrahieren.
Drei typische Muster ergeben sich aus dem Vergleich:
Beide Kurven sinken parallel und bleiben nah beieinander. Das Modell generalisiert gut. Das Training kann fortgesetzt werden.
Training-Loss sinkt, Validation-Loss stagniert oder steigt. Das Modell überanpasst sich an die Trainingsdaten. Dieser Zustand heißt Overfitting.
Beide Kurven bleiben hoch. Das Modell kann die Struktur der Daten nicht erfassen. Dieser Zustand heißt Underfitting.
Beispiel: Ein Sentimentanalyse-Modell erreicht nach 5 Epochen einen Training-Loss von 0,1 und einen Validation-Loss von 0,8. Die große Lücke zeigt: Das Modell hat die 10.000 Trainingsbeispiele praktisch auswendig gelernt. Auf neuen Bewertungstexten versagt es.
Fachliche Einordnung: Die Divergenz zwischen Training-Loss und Validation-Loss ist ein Standardindikator in der Modelldiagnostik. Sie bildet die Bias-Varianz-Abwägung visuell ab. Ein Modell mit hohem Bias (Underfitting) zeigt zwei hohe Kurven. Ein Modell mit hoher Varianz (Overfitting) zeigt eine große Lücke. Der Punkt, an dem der Validation-Loss sein Minimum erreicht, markiert häufig den optimalen Trainingszeitpunkt.
Typische Kurvenverläufe und ihre Ursachen
Loss-Kurven folgen keinem einheitlichen Muster. Ihr Verlauf hängt von der Modellarchitektur, den Daten, der Lernrate und der Initialisierung ab.
Beispiel: Ein Modell zeigt nach 1.000 Schritten wilde Auschschläge im Loss. Die Werte springen zwischen 0,5 und 3,2 hin und her. Die Ursache: Die Lernrate ist mit 0,01 für diese Architektur zu hoch. Nach Reduktion auf 0,001 glättet sich die Kurve und fällt gleichmäßig.
Beispiel: Der Loss eines Bildklassifikators sinkt in den ersten 3 Epochen auf 1,5 und bewegt sich danach kaum noch. Das frühe Plateau entsteht, weil das Modell nur 2 Hidden Layers mit je 32 Neuronen hat. Die Kapazität reicht nicht aus, um die Komplexität der Daten abzubilden.
Einfluss der Hyperparameter auf den Kurvenverlauf
Mehrere Hyperparameter beeinflussen direkt, wie eine Loss-Kurve aussieht.
Lernrate
Die Lernrate bestimmt die Schrittgröße bei der Gewichtsaktualisierung. Eine zu hohe Lernrate führt zu Oszillationen oder Divergenz. Eine zu niedrige Lernrate verursacht langsame Konvergenz und frühe Plateaus. Adaptive Verfahren wie der Adam-Optimizer passen die effektive Lernrate pro Parameter an.
Beispiel: Drei identische Modelle werden mit Lernraten 0,1, 0,001 und 0,00001 trainiert. Bei 0,1 divergiert der Loss nach wenigen Schritten (NaN). Bei 0,001 sinkt er gleichmäßig und erreicht nach 50 Epochen ein Minimum. Bei 0,00001 sinkt er so langsam, dass nach 50 Epochen erst 10% des möglichen Fortschritts erreicht sind.
Batch-Größe
Kleine Batches erzeugen verrauschte Gradienten. Die Loss-Kurve zeigt mehr Streuung, konvergiert aber manchmal zu besseren Minima. Große Batches liefern stabilere Gradienten und glattere Kurven, können aber in schlechteren lokalen Minima steckenbleiben.
Beispiel: Ein Modell wird einmal mit Batch-Size 16 und einmal mit Batch-Size 512 trainiert. Die Kurve bei Batch-Size 16 zeigt starkes Zittern, der Trend ist aber klar fallend. Die Kurve bei Batch-Size 512 verläuft glatt, erreicht aber nach gleicher Trainingsdauer einen höheren finalen Loss.
Modellkapazität
Ein Modell mit zu wenigen Parametern erreicht schnell ein Plateau auf hohem Niveau. Ein Modell mit zu vielen Parametern neigt dazu, den Training-Loss auf nahe Null zu drücken, während der Validation-Loss ansteigt.
Werkzeuge zur Visualisierung
Loss-Kurven werden selten manuell geplottet. Spezialisierte Tools übernehmen das Logging, die Speicherung und die Darstellung.
TensorBoard ist das Standardwerkzeug im TensorFlow-Ökosystem. Es liest Event-Dateien, die während des Trainings geschrieben werden, und stellt Loss-Kurven als interaktive Graphen dar. Glättung, Zoom und Vergleich mehrerer Trainingsexperimente sind integriert.
Weights & Biases bietet cloudbasiertes Experiment-Tracking. Es loggt nicht nur den Loss, sondern auch Lernraten, Gradientennormen und Systemmetriken. Der Vergleich hunderter Experimente in einer Ansicht ist die Kernfunktion.
Beispiel: Ein Team trainiert 20 Varianten eines Empfehlungsmodells mit unterschiedlichen Architekturen und Lernraten. In Weights & Biases lassen sich alle 20 Loss-Kurven übereinanderlegen. Die Variante mit der niedrigsten Validation-Loss-Kurve wird für weitere Tests ausgewählt.
Matplotlib reicht für einfache Fälle. Zwei Zeilen Python genügen, um eine Loss-Kurve aus einer CSV-Datei zu erzeugen. Für Debugging einzelner Trainingsexperimente ist das ausreichend, für systematische Vergleiche nicht.
Diagnostik in der Praxis
Loss-Kurven dienen nicht nur der Überwachung, sondern der aktiven Fehlersuche. Ein auffälliger Kurvenverlauf ist ein Symptom. Die Aufgabe besteht darin, die Ursache zu identifizieren.
Beispiel: Der Loss springt nach Epoche 7 plötzlich von 0,4 auf 15,3 und bleibt dort. Ursache: Ein fehlerhafter Datensatz-Batch mit beschädigten Labels wurde ab Epoche 7 erstmals durchlaufen. Nach Bereinigung der Daten verläuft das Training normal.
Beispiel: Zwei Teammitglieder trainieren dasselbe Modell auf denselben Daten. Person A erreicht einen Loss von 0,3, Person B stagniert bei 1,2. Der Unterschied liegt in der zufälligen Gewichtsinitialisierung. Person B hat mit einem ungünstigen Seed begonnen, der in ein schlechtes lokales Minimum führt.
Typische Diagnose-Schritte bei auffälligen Kurven:
Loss steigt plötzlich: Datenqualität prüfen. Gradienten auf NaN oder Inf untersuchen. Lernrate reduzieren.
Loss oszilliert stark: Lernrate senken. Batch-Size erhöhen. Gradient-Clipping einführen.
Loss sinkt nicht unter Schwellenwert: Modellkapazität erhöhen. Datenqualität und Labelkonsistenz prüfen. Anderes Optimierungsverfahren testen.
Validation-Loss steigt während Training-Loss sinkt: Dropout oder andere Regularisierungstechniken einsetzen. Datenmenge erhöhen. Training früher stoppen.
Loss-Kurven bei großen Sprachmodellen
Beim Training großer Sprachmodelle zeigen Loss-Kurven spezifische Eigenschaften, die bei kleineren Modellen seltener auftreten.
Die Kurven verlaufen über Millionen von Schritten. Ein typisches Training eines Modells mit mehreren Milliarden Parametern läuft über 300.000 bis 1.000.000 Schritte. Der Loss sinkt dabei über Wochen kontinuierlich, mit gelegentlichen Loss-Spikes.
Beispiel: Beim Training von GPT-3 (175 Milliarden Parameter) wurde der Loss über etwa 300.000 Schritte geloggt. Die Kurve zeigt einen stetigen Abfall von ca. 3,5 auf ca. 1,7 (Perplexität auf dem Validierungsset), mit wenigen kurzen Spikes, die sich jeweils innerhalb weniger hundert Schritte von selbst korrigieren.
Loss-Spikes sind bei großen Modellen häufig. Sie entstehen durch instabile Gradienten in einzelnen Batches oder durch Datenanomalien. In vielen Fällen erholt sich das Training automatisch. Bleiben die Spikes bestehen, wird der Trainingslauf häufig ab einem früheren Checkpoint neu gestartet.
Beispiel: Ein Deep-Learning-Team beobachtet während des Trainings eines 7B-Parameter-Modells drei Loss-Spikes innerhalb von 500.000 Schritten. Jeder Spike korrigiert sich nach 200 bis 400 Schritten. Beim vierten Spike erholt sich der Loss nicht. Das Team setzt das Training ab dem letzten stabilen Checkpoint fort und überspringt den problematischen Datenbereich.
Scaling Laws, wie sie von Kaplan et al. (2020) beschrieben wurden, nutzen Loss-Kurven systematisch. Sie zeigen, dass der finale Loss als Potenzfunktion von Modellgröße, Datenmenge und Rechenbudget sinkt. Diese Beziehungen ermöglichen es, den erwarteten Loss eines größeren Modells vorherzusagen, ohne es vollständig zu trainieren.
Grenzen und Einordnung
Loss-Kurven sind ein notwendiges, aber kein hinreichendes Diagnosewerkzeug.
Ein niedriger Loss garantiert keine gute Leistung auf der Zielaufgabe. Der Loss misst die Passung zwischen Modellausgabe und Label gemäß einer mathematischen Funktion. Ob diese Funktion das eigentliche Ziel korrekt abbildet, ist eine separate Frage.
Beispiel: Ein Modell für medizinische Diagnosen erreicht einen Cross-Entropy-Loss von 0,05. Der Loss ist niedrig, aber das Modell klassifiziert seltene Krankheiten systematisch falsch, weil sie in den Trainingsdaten unterrepräsentiert sind. Die Gesamt-Precision ist hoch, die klassenspezifische Trefferquote für seltene Diagnosen jedoch nahe Null.
Loss-Kurven zeigen keine Kausalität. Ein Knick in der Kurve bei Schritt 10.000 kann durch Daten, Lernrate, Hardware-Fehler oder Zufallsinitialisierung verursacht worden sein. Ohne zusätzliche Metriken (Gradientennormen, Aktivierungsstatistiken, Daten-Inspektion) bleibt die Ursache unklar.
Die Güte einer Loss-Kurve hängt von der gewählten Loss-Funktion ab. Zwei identische Modelle, trainiert mit unterschiedlichen Loss-Funktionen, erzeugen unterschiedliche Kurven. Ein Vergleich von Loss-Werten ist nur innerhalb derselben Loss-Funktion sinnvoll.
Fachliche Einordnung: Loss-Kurven stehen am Anfang der Trainingsdiagnostik, nicht an deren Ende. Sie liefern ein erstes Signal, das durch aufgabenspezifische Metriken, manuelle Fehleranalyse und statistische Tests ergänzt werden muss. Die Interpretation von Loss-Kurven erfordert Erfahrung: Dieselbe Kurvenform kann je nach Aufgabe, Datensatz und Architektur unterschiedliche Ursachen haben.