Optimizer

Optimizer ist der Algorithmus, der die Modellparameter während des Trainings anpasst, um den Loss zu minimieren.

Ein Optimizer ist der Algorithmus, der die trainierbaren Parameter eines Modells - Gewichte und Biases - während des Trainings systematisch anpasst, um den Loss zu minimieren. Er nimmt die von der Backpropagation berechneten Gradienten entgegen und entscheidet, wie die Parameter aktualisiert werden.

Der einfachste Optimizer ist Stochastic Gradient Descent (SGD): Jedes Gewicht wird um einen festen Anteil (die Learning Rate) in Richtung des negativen Gradienten verschoben. In der Praxis kommt SGD selten ohne Erweiterungen zum Einsatz. Varianten wie SGD mit Momentum oder Nesterov-Momentum beschleunigen die Konvergenz, indem sie die Richtung vorheriger Aktualisierungen berücksichtigen.

Adaptive Optimizer wie Adam, AdamW oder Adagrad gehen einen Schritt weiter: Sie passen die Learning Rate für jeden Parameter individuell an, basierend auf der Historie der Gradienten. Dadurch können Parameter, die selten aktualisiert werden, größere Schritte machen, während häufig aktualisierte Parameter kleinere Schritte nehmen.

Die Wahl des Optimizers hat erheblichen Einfluss auf Trainingsgeschwindigkeit, Stabilität und Endqualität des Modells. In modernen Deep-Learning-Projekten ist AdamW der am häufigsten verwendete Optimizer, insbesondere bei Transformer-Architekturen. Für bestimmte Aufgaben wie das Training von CNNs oder in der letzten Feinabstimmungsphase kann SGD mit Momentum jedoch bessere Ergebnisse liefern.

Karl Kratz · 24.01.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Training