INT8
INT8 ist 8-Bit Integer-Quantisierung für effiziente Inferenz mit geringem Qualitätsverlust.
INT8 ist eine Quantisierungsmethode, bei der Modellgewichte und teilweise auch Aktivierungen als 8-Bit-Ganzzahlen dargestellt werden. Im Vergleich zu FP16 halbiert sich der Speicherbedarf, gegenüber FP32 reduziert er sich auf ein Viertel.
Der Qualitätsverlust durch INT8-Quantisierung ist in den meisten Fällen gering. Studien zeigen, dass die Leistung großer Sprachmodelle nach INT8-Quantisierung nur minimal abnimmt, solange geeignete Kalibrierungsverfahren eingesetzt werden. Methoden wie LLM.int8() erkennen besonders sensitive Gewichte (sogenannte Outlier) und verarbeiten diese weiterhin in höherer Precision.
INT8 hat sich als praktikabler Kompromiss zwischen Speichereffizienz und Modellqualität etabliert. Ein 7B-Parameter-Modell belegt in INT8 etwa 7 GB VRAM und lässt sich damit auf vielen Consumer-Grafikkarten betreiben. Gleichzeitig bleibt die Ausgabequalität nah am FP16-Original.
Viele Inference-Frameworks unterstützen INT8 nativ, und moderne GPUs bieten hardwareseitige Beschleunigung für INT8-Berechnungen. Das macht INT8 zu einer häufig gewählten Option für den produktiven Einsatz von Sprachmodellen.