Weight
Weight bezeichnet ein einzelnes trainierbares Gewicht in einem Netzwerk.
Ein Weight (Gewicht) ist ein einzelner trainierbarer numerischer Parameter innerhalb eines neuronalen Netzwerks. Weights bestimmen, wie stark das Signal einer Eingabe oder eines Neurons an nachfolgende Neuronen weitergegeben wird.
In einem typischen neuronalen Netzwerk sind die Weights in Matrizen organisiert. Bei einer vollständig verbundenen Schicht (Dense Layer) mit 768 Eingabe- und 3072 Ausgabe-Neuronen gibt es 768 × 3072 = 2.359.296 einzelne Weights. Bei einem Transformer kommen Weights in den Attention-Matrizen (Query, Key, Value, Output), den Feed-Forward-Schichten und den Embedding-Tabellen vor.
Zu Beginn des Trainings werden Weights mit kleinen Zufallswerten initialisiert - die Initialisierungsstrategie (z.B. Xavier, Kaiming) beeinflusst, wie gut das Training startet. Während des Trainings werden die Weights schrittweise durch den Optimizer angepasst, sodass das Netzwerk die gewünschte Aufgabe immer besser löst.
Die Gesamtzahl der Weights definiert die Modellgröße: Ein Modell mit 7 Milliarden Parametern hat ungefähr 7 Milliarden Weights (plus eine vergleichsweise kleine Anzahl von Biases). Der Speicherbedarf hängt von der numerischen Präzision ab - in FP32 belegt jedes Weight 4 Bytes, in FP16 oder BF16 nur 2 Bytes, und bei 4-Bit-Quantisierung nur 0.5 Bytes.