Weight Decay
Weight Decay ist eine Regularisierungstechnik, die große Gewichte bestraft und Overfitting reduziert.
Weight Decay ist eine Regularisierungstechnik, die große Gewichtswerte während des Trainings bestraft und so Overfitting entgegenwirkt. Bei jeder Gewichtsaktualisierung wird jedes Gewicht um einen kleinen Bruchteil seiner selbst reduziert - es "zerfällt" (decays) in Richtung null.
Mathematisch wird bei jedem Trainingsschritt ein Term λ·w vom Gewicht w abgezogen, wobei λ der Weight-Decay-Koeffizient ist (typischerweise zwischen 0.01 und 0.1). Dieser Mechanismus bevorzugt Modelle mit kleineren Gewichten, was in der Regel zu glatteren Entscheidungsgrenzen und besserer Generalisierung führt.
Es gibt einen wichtigen Unterschied zwischen Weight Decay und L2-Regularisierung, obwohl beide bei einfachem SGD mathematisch äquivalent sind. Bei adaptiven Optimizern wie Adam unterscheiden sie sich: L2-Regularisierung wird in den Gradienten eingerechnet und durch die adaptive Skalierung verzerrt, während echtes Weight Decay direkt auf die Gewichte wirkt. AdamW implementiert den korrekten, entkoppelten Weight Decay.
Nicht alle Parameter eines Netzwerks werden üblicherweise mit Weight Decay belegt. Biases und LayerNorm-Parameter werden häufig ausgenommen, da Weight Decay auf diese Parameter keinen nachgewiesenen Nutzen hat und die Optimierung sogar erschweren kann. In Trainingsframeworks konfiguriert man daher oft separate Parametergruppen mit und ohne Weight Decay.