AdamW
Beim Training eines Sprachmodells passt ein Algorithmus die Gewichte in kleinen Schritten an. AdamW ist ein solcher Algorithmus. Er kombiniert zwei bewährte Techniken: ein Gedächtnis für die Richtung vergangener Anpassungen und eine automatische Skalierung der Schrittweite pro Gewicht. Zusätzlich hält er große Gewichte systematisch klein, ohne dass sich diese Regularisierung und die Skalierung gegenseitig stören.
Das Problem mit der ursprünglichen Adam-Implementierung
Der Optimizer Adam (Adaptive Moment Estimation) wurde 2014 von Kingma und Ba vorgestellt. Er kombiniert zwei Ideen: einen gleitenden Durchschnitt der Gradienten (erstes Moment, vergleichbar mit Momentum) und einen gleitenden Durchschnitt der quadrierten Gradienten (zweites Moment, für die adaptive Skalierung). Beide Momente zusammen ermöglichen schnelle und stabile Konvergenz.
Große Gewichte können ein Modell anfällig für Rauschen in den Trainingsdaten machen. Eine gängige Gegenmaßnahme ist Weight Decay: In jedem Trainingsschritt werden alle Gewichte um einen kleinen Faktor verkleinert. Das zwingt das Modell, nur die wirklich notwendigen Gewichte hoch zu halten.
In der ursprünglichen Adam-Implementierung wurde Weight Decay als L2-Regularisierung umgesetzt. Das bedeutet: Ein Strafterm proportional zum Quadrat der Gewichte wird zum Loss addiert. Der resultierende Gradient enthält dann sowohl den eigentlichen Trainingsgradienten als auch den Regularisierungsanteil. Das Problem: Adams adaptive Skalierung verarbeitet beide Anteile gemeinsam. Gewichte mit kleinen Gradienten erhalten eine stärkere Skalierung, was den Regularisierungsanteil für diese Gewichte verstärkt. Gewichte mit großen Gradienten erhalten eine schwächere Skalierung, was die Regularisierung dort abschwächt.
Beispiel: Ein Transformer-Modell hat Attention-Gewichte, die regelmäßig große Gradienten erhalten, und Bias-Gewichte mit sehr kleinen Gradienten. Bei Adam mit L2-Regularisierung wirkt der Weight Decay auf die Bias-Gewichte stärker als auf die Attention-Gewichte. Das Modell entwickelt ein ungleichmäßiges Regularisierungsprofil.
Beispiel: In einem Sprachmodell mit 500 Millionen Gewichten betrifft die Verzerrung nicht einzelne Parameter, sondern ganze Schichten. Embedding-Schichten haben typischerweise ein anderes Gradientenprofil als die oberen Attention-Schichten. L2-Regularisierung über Adam behandelt diese Schichten mit unterschiedlicher Intensität, obwohl die Regularisierung einheitlich wirken soll.
Entkoppelter Weight Decay als Lösung
Loshchilov und Hutter veröffentlichten 2017 die Arbeit "Decoupled Weight Decay Regularization". Ihre Lösung ist konzeptionell einfach: Weight Decay wird nicht mehr in den Loss integriert, sondern als separater Schritt nach dem Gradientenupdate ausgeführt. Das Verfahren heißt AdamW.
Konkret: In jedem Trainingsschritt berechnet AdamW zunächst das Gradientenupdate wie der Standard-Adam (mit erstem und zweitem Moment). Danach, in einem getrennten Schritt, multipliziert er jedes Gewicht mit dem Faktor (1 - learning_rate * weight_decay). Weil dieser Schritt nach und unabhängig von der adaptiven Skalierung stattfindet, wirkt die Regularisierung gleichmäßig auf alle Parameter.
Beispiel: Zwei Parameter A und B haben denselben Wert 0.5, aber Parameter A hat einen Gradienten von 10.0 und Parameter B einen Gradienten von 0.001. Bei Adam mit L2 erhalten beide verschiedene effektive Regularisierungsstärken, weil der L2-Anteil durch die adaptive Skalierung unterschiedlich behandelt wird. Bei AdamW werden beide nach dem Gradientenupdate mit demselben Faktor (z.B. 0.9999) multipliziert. Die Regularisierung ist identisch.
Fachliche Einordnung: Die Unterscheidung zwischen L2-Regularisierung und echtem Weight Decay ist nur bei adaptiven Optimierern relevant. Bei SGD ohne Momentum sind beide Formulierungen mathematisch äquivalent. Der Effekt wird erst sichtbar, wenn die adaptive Skalierung (zweites Moment) ins Spiel kommt. Loshchilov und Hutter zeigten, dass die Entkopplung die Hyperparameter-Suche vereinfacht, weil Learning Rate und Weight Decay unabhängig voneinander optimiert werden können.
Der Algorithmus im Detail
AdamW führt pro Trainingsschritt folgende Operationen aus. Für jeden Parameter θ mit Gradient g:
1. Erstes Moment aktualisieren: m = β1 * m + (1 - β1) * g
2. Zweites Moment aktualisieren: v = β2 * v + (1 - β2) * g²
3. Bias-Korrektur: m̂ = m / (1 - β1ᵗ) und v̂ = v / (1 - β2ᵗ)
4. Gradientenupdate: θ = θ - α * m̂ / (√v̂ + ε)
5. Weight Decay (entkoppelt): θ = θ - α * λ * θ
Der entscheidende Punkt ist Schritt 5. Er findet separat statt und nutzt den Originalwert von θ nach dem Gradientenupdate. Die adaptive Skalierung aus Schritt 4 beeinflusst den Weight Decay in Schritt 5 nicht.
Beispiel: Bei β1 = 0.9, β2 = 0.999 und ε = 1e-8 (typische Standardwerte) vergisst das erste Moment 10% pro Schritt und das zweite Moment 0.1% pro Schritt. Das zweite Moment ist dadurch stabiler und reagiert langsamer auf einzelne Ausreißer in den Gradienten.
Beispiel: Die Bias-Korrektur in Schritt 3 ist in den ersten Trainingsschritten relevant. Ohne sie startet das erste Moment bei 0 und der Durchschnitt ist systematisch zu niedrig. Nach etwa 1000 Schritten ist der Korrekturfaktor nahe 1 und hat keinen praktischen Effekt mehr.
BackpropagationTypische Hyperparameter und ihre Wirkung
AdamW hat fünf zentrale Hyperparameter: Learning Rate (α), β1, β2, ε und den Weight-Decay-Koeffizienten (λ). Jeder beeinflusst das Trainingsverhalten auf spezifische Weise.
Die Learning Rate bestimmt die Schrittweite. Bei Transformer-Modellen liegt sie typischerweise zwischen 1e-4 und 1e-3 für das Pre-Training. Für Fine-Tuning werden kleinere Werte verwendet (1e-5 bis 5e-5).
Beispiel: GPT-3 wurde mit einer maximalen Learning Rate von 6e-4 trainiert, BERT mit 1e-4. Beide verwenden ein Warmup-Schema, bei dem die Learning Rate in den ersten Trainingsschritten von einem kleinen Wert linear ansteigt und danach gemäß einem Cosine-Schedule abfällt.
Der Weight-Decay-Koeffizient λ steuert die Stärke der Regularisierung. Werte zwischen 0.01 und 0.1 sind gebräuchlich. Höhere Werte drängen die Gewichte stärker Richtung Null. Bei zu hohem Weight Decay verliert das Modell Kapazität, bei zu niedrigem wird die Regularisierung wirkungslos.
Beispiel: Ein Modell mit 7 Milliarden Parametern wird mit λ = 0.1 und einer Learning Rate von 3e-4 trainiert. Bei einem Datensatz von 1 Billion Token reicht diese Konfiguration aus, um die Gewichte kompakt zu halten, ohne die Modellkapazität zu beschneiden. Für einen kleineren Datensatz (z.B. 10 Milliarden Token) wäre ein höherer Weight Decay sinnvoll, weil das Risiko der Überanpassung steigt.
Die β-Werte steuern die Verfallsrate der gleitenden Durchschnitte. β1 = 0.9 ist fast universell. β2 liegt je nach Aufgabe bei 0.95 (für instabile Trainings mit Ausreißern) bis 0.999 (Standardwert). Ein niedrigerer β2-Wert reagiert schneller auf Änderungen in der Gradientenverteilung.
AdamW in der Praxis großer Sprachmodelle
AdamW ist der Standard-Optimizer für das Training von Transformer-Modellen. Die Modelle der GPT-Serie, BERT, LLaMA, PaLM und die meisten weiteren publizierten großen Sprachmodelle verwenden AdamW oder eine eng verwandte Variante.
Ein zentraler Aspekt beim Einsatz von AdamW ist der Speicherverbrauch. Der Optimizer speichert für jeden Parameter zwei zusätzliche Werte: das erste und das zweite Moment. Bei einem Modell mit N Parametern in FP32 belegt der Optimizer-State 2N * 4 Bytes = 8N Bytes zusätzlich zum Modellspeicher. Für ein Modell mit 70 Milliarden Parametern sind das rund 560 GB allein für den Optimizer-State.
Beispiel: Ein Modell mit 13 Milliarden Parametern in FP16 belegt 26 GB. Die Gewichte in FP32 (Master Weights) belegen 52 GB. Der AdamW-Optimizer-State belegt weitere 104 GB. Insgesamt werden 182 GB GPU-Speicher allein für Modell und Optimizer benötigt, bevor Aktivierungsspeicher und Gradienten hinzukommen.
Deshalb wurden speichereffiziente Varianten entwickelt. 8-Bit-AdamW (z.B. in bitsandbytes) quantisiert den Optimizer-State auf 8 Bit pro Wert, was den Speicherbedarf halbiert. Adafactor verzichtet auf das vollständige zweite Moment und approximiert es durch Zeilen- und Spaltenstatistiken.
Ein weiterer praktischer Faktor ist die Interaktion von AdamW mit Learning-Rate-Schedules. Fast alle großen Trainingslufe kombinieren AdamW mit einem Warmup (z.B. 2000 Schritte linearer Anstieg) gefolgt von einem Cosine Decay bis nahe Null. Der Weight Decay in AdamW bleibt dabei konstant. Die effektive Regularisierung ändert sich trotzdem über das Training, weil sie proportional zum Produkt aus Learning Rate und Weight-Decay-Koeffizient ist.
Vergleich mit anderen Optimierern
SGD mit Momentum ist der einfachste Baseline-Optimizer. Er hat keinen adaptiven Mechanismus und benötigt sorgfältiges Tuning der Learning Rate, oft mit einem aufwendigen Schedule. Bei konvexen oder gut konditionierten Problemen kann SGD mit Momentum zu gleich guten oder besseren Ergebnissen führen als Adam-Varianten, besonders in der Bildklassifikation.
Beispiel: In der Bildklassifikation mit ResNet-50 auf ImageNet erreichen sowohl SGD mit Momentum als auch AdamW vergleichbare Top-1-Accuracy. SGD benötigt allerdings einen sorgfältig abgestimmten Step-Decay-Schedule, während AdamW mit einem Cosine-Schedule und weniger Tuning funktioniert.
Adam (ohne entkoppelten Weight Decay) bleibt weit verbreitet, besonders in älteren Codebases und bei Aufgaben ohne starke Regularisierungsanforderungen. Für das Training großer Sprachmodelle hat sich AdamW aber als überlegen erwiesen, weil die korrekte Regularisierung bei langen Trainingszeiten und großen Modellen signifikant bessere Generalisierung ergibt.
LAMB (Layer-wise Adaptive Moments optimizer for Batch training) erweitert AdamW um eine schichtweise Skalierung. LAMB wurde für sehr große Batch Sizes entwickelt (z.B. 64.000 Beispiele) und skaliert die Learning Rate pro Schicht basierend auf dem Verhältnis von Gewichtsnorm zu Update-Norm. Für Standard-Batch-Sizes bietet LAMB keinen Vorteil gegenüber AdamW.
Neuere Alternativen wie Lion (EvoLved Sign Momentum) und Sophia (Second-order Clipped Stochastic Optimization) versuchen, den Speicherverbrauch zu senken oder die Konvergenz zu beschleunigen. Lion speichert nur ein Moment und verwendet das Vorzeichen für Updates. Sophia schätzt Krümmungsinformation mit geringem Overhead. Beide zeigen vielversprechende Ergebnisse, sind aber noch nicht so breit validiert wie AdamW.
Grenzen und Einschränkungen
AdamW hat praktische Grenzen, die bei der Wahl des Optimizers berücksichtigt werden müssen.
Speicherverbrauch: Der doppelte Zustandsspeicher (erstes und zweites Moment) macht AdamW bei sehr großen Modellen zum Engpass. Für Modelle ab 70 Milliarden Parametern wird der Optimizer-State oft über mehrere GPUs verteilt (ZeRO Stage 1 oder Stage 2 in DeepSpeed). Das erhöht die Komplexität der Trainingsinfrastruktur.
Beispiel: Ein Training mit LLaMA-65B auf 8 A100-GPUs (jeweils 80 GB) erfordert ZeRO Stage 3, um Modell und Optimizer-State über alle GPUs zu partitionieren. Allein der Optimizer-State belegt in FP32 rund 520 GB. Ohne Verteilung übersteigt das die Kapazität jeder einzelnen GPU um ein Vielfaches.
Keine Garantie für Konvergenz: Wie alle adaptiven Optimierer kann Adam(W) in bestimmten Szenarien nicht konvergieren. Reddi, Kale und Kumar (2018) zeigten, dass Adam(W) bei bestimmten konvexen Problemen divergiert, wenn β2 nicht nah genug an 1 liegt. In der Praxis tritt dieses Problem bei Sprachmodellen selten auf, bei anderen Aufgaben (z.B. bestimmte Reinforcement-Learning-Settings) ist es aber dokumentiert.
Weight Decay ist kein Allheilmittel: Auch entkoppelter Weight Decay reguliert nur die Größe der Gewichte. Er verhindert nicht alle Formen von Überanpassung. Modelle können trotz Weight Decay memorieren, insbesondere bei kleinen Datensätzen und hoher Modellkapazität. Zusätzliche Regularisierungsmethoden wie Dropout, Data Augmentation oder Label Smoothing bleiben notwendig.
Beispiel: Ein Sprachmodell mit 1 Milliarde Parametern wird auf einem Datensatz von 1 Million Sätzen trainiert. Trotz λ = 0.1 beginnt der Validierungsloss nach wenigen Epochen zu steigen. Weight Decay allein reicht nicht aus. Erst die Kombination mit Dropout (0.1) und einem frühzeitigen Trainingsabbruch (Early Stopping) stabilisiert das Training.
Hyperparameter-Interaktion: Die Entkopplung von Learning Rate und Weight Decay vereinfacht die Suche, eliminiert sie aber nicht. Die optimale Kombination hängt von der Modellarchitektur, dem Datensatz und der Trainingsdauer ab. Es gibt keine universell gültigen Standardwerte.
Fachliche Einordnung: AdamW hat sich als robuster Standard-Optimizer für Transformer-basierte Modelle etabliert. Seine Dominanz rührt weniger von theoretischer Überlegenheit als von praktischer Zuverlässigkeit: gut verstandenes Verhalten, breite Framework-Unterstützung (PyTorch, JAX, TensorFlow) und eine große Menge publizierter Hyperparameter-Referenzwerte. Ob neuere Optimierer wie Lion oder Sophia AdamW langfristig ablösen, ist Stand Anfang 2026 offen. Die bisherigen Vergleichsstudien zeigen marginale Verbesserungen, keine qualitativen Sprünge.