Hyperparameter

Hyperparameter sind Konfigurationswerte, die vor dem Training festgelegt werden (Learning Rate, Batch Size).

Hyperparameter sind alle Konfigurationswerte eines Machine-Learning-Systems, die nicht durch das Training selbst gelernt, sondern vorab festgelegt werden. Sie steuern, wie das Modell trainiert wird, im Gegensatz zu den Parametern (Gewichte, Biases), die durch das Training bestimmt werden.

Zu den wichtigsten Hyperparametern gehören die Learning Rate, die Batch-Size, die Anzahl der Trainingsschritte oder Epochen, der Weight Decay, die Dropout-Rate und die Wahl des Optimizers. Bei Transformer-Modellen kommen architekturelle Hyperparameter hinzu: die Anzahl der Schichten, die Dimension des Hidden State, die Anzahl der Attention-Heads und die Vokabulargröße.

Die Suche nach guten Hyperparametern (Hyperparameter Tuning) ist ein wesentlicher Teil der Modellentwicklung. Verbreitete Methoden sind Grid Search (systematisches Durchprobieren), Random Search (zufällige Kombinationen) und Bayesian Optimization (intelligente Suche basierend auf vorherigen Ergebnissen). Bei großen Modellen, wo jeder Trainingslauf Tage oder Wochen dauert, ist umfangreiches Tuning oft nicht praktikabel - man orientiert sich dann an bewährten Konfigurationen aus der Literatur.

Die Empfindlichkeit gegenüber Hyperparametern variiert stark. Die Learning Rate ist typischerweise der kritischste Hyperparameter: Ein um den Faktor 10 zu großer Wert kann das Training zum Divergieren bringen, während ein zu kleiner Wert die Konvergenz extrem verlangsamt.



[Karl Kratz](/karl-kratz) · 23.11.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Training