Precision
Precision bezeichnet die numerische Genauigkeit der Modellgewichte (FP32, FP16, INT8).
Precision (numerische Genauigkeit) bezeichnet in Machine Learning das Zahlenformat, in dem Modellgewichte, Aktivierungen und Gradienten gespeichert und verarbeitet werden. Gängige Formate sind FP32 (32-Bit-Gleitkomma), FP16 (16-Bit), BF16 (Brain Float 16), INT8 und INT4.
Höhere Precision bedeutet genauere Berechnungen, aber auch mehr Speicherverbrauch und langsamere Verarbeitung. FP32 war lange der Standard, ist aber für viele Aufgaben unnötig genau. FP16 und BF16 haben sich beim Training als guter Kompromiss bewährt - sie halbieren den Speicherbedarf bei minimalem Qualitätsverlust. BF16 bietet dabei einen größeren Wertebereich als FP16 und ist dadurch numerisch stabiler.
Für Inferenz kommen zunehmend niedrigere Precisions zum Einsatz. INT8 und INT4 reduzieren den Speicherbedarf drastisch und erlauben den Betrieb großer Modelle auf kleinerer Hardware. Der Qualitätsverlust hängt vom Modell, der Aufgabe und dem Quantisierungsverfahren ab.
Die Wahl der Precision ist eine zentrale Entscheidung bei jedem ML-Projekt. Sie beeinflusst, welche Hardware benötigt wird, wie schnell Training und Inferenz ablaufen und wie groß das Modell sein darf.