Quantisierung
Stell dir vor, du beschreibst eine Farbe: Statt den exakten Farbwert mit zehn Nachkommastellen zu speichern, sagst du "dunkelblau". Die Information wird ungenauer, aber brauchbar. Nach diesem Prinzip funktioniert Quantisierung bei KI-Modellen: Die gelernten Zahlenwerte werden in ein gröberes Raster überführt, damit das Modell weniger Speicher braucht und schneller rechnet.
Was bei der Quantisierung passiert
Ein neuronales Netz besteht aus Millionen bis Milliarden von Zahlenwerten. Diese Werte, auch Gewichte genannt, bestimmen, wie das Modell auf Eingaben reagiert. Im Normalfall speichert ein Modell jedes Gewicht als 32-Bit-Gleitkommazahl (FP32). Das bedeutet: Jeder einzelne Wert belegt 32 Bit Speicher und kann extrem feine Unterschiede abbilden.
Quantisierung ersetzt dieses feine Raster durch ein gröberes. Die Gewichte werden in ein Format mit weniger Bits überführt. Verbreitete Zielformate sind 16-Bit (FP16, BF16), 8-Bit (INT8) und 4-Bit (INT4, NF4). Je weniger Bits, desto weniger Speicher, aber auch desto größer der Präzisionsverlust.
Beispiel: Ein Gewichtswert von 0.314159265 in FP32 wird bei INT8-Quantisierung auf einen von 256 möglichen Werten gerundet. Der gespeicherte Wert ist dann vielleicht 0.3137. Die Abweichung ist gering, aber sie existiert. Über Milliarden von Gewichten summieren sich solche Abweichungen.
Beispiel: Ein Transformer-Modell mit 70 Milliarden Parametern belegt in FP32 rund 280 Gigabyte Speicher. In FP16 halbiert sich der Bedarf auf 140 GB. Bei 4-Bit-Quantisierung schrumpft er auf etwa 35 GB. Das Modell passt dann auf eine einzige Grafikkarte mit 48 GB VRAM.
Verfahren der Quantisierung
Es gibt zwei grundlegende Ansätze: Die Quantisierung nach dem Training (Post-Training Quantization, PTQ) und das Training mit eingebauter Quantisierung (Quantization-Aware Training, QAT).
Post-Training Quantization (PTQ)
Bei PTQ wird ein bereits fertig trainiertes Modell genommen und dessen Gewichte werden nachträglich in ein kleineres Format konvertiert. Das Training selbst bleibt unberührt. Der Vorteil: PTQ ist schnell und braucht keine Trainingsdaten. Der Nachteil: Das Modell kann sich nicht an die reduzierte Präzision anpassen.
Beispiel: Ein Unternehmen lädt ein Open-Source-Modell mit 13 Milliarden Parametern herunter und quantisiert es mit dem Werkzeug llama.cpp auf 4 Bit im GGUF-Format. Innerhalb weniger Minuten entsteht eine Datei, die auf einem Laptop mit 16 GB RAM läuft.
Quantization-Aware Training (QAT)
Bei QAT wird die Quantisierung bereits während des Trainings simuliert. Das Modell lernt, mit der reduzierten Präzision umzugehen, und passt seine Gewichte entsprechend an. Das Ergebnis: geringerer Qualitätsverlust als bei PTQ, aber deutlich höherer Rechenaufwand.
Beispiel: Ein Forschungsteam trainiert ein Sprachmodell und aktiviert dabei QAT für INT8. Während des Trainings werden Gewichte in jedem Vorwärtsdurchlauf auf 8 Bit gerundet und beim Rückwärtsdurchlauf mit voller Präzision aktualisiert. Das fertige Modell erreicht in Benchmark-Tests 98 Prozent der Qualität des nicht-quantisierten Originals.
Bit-Formate und ihre Eigenschaften
Die Wahl des Zielformats bestimmt das Verhältnis von Kompression zu Qualität. Die gängigen Formate unterscheiden sich in Wertebereich, Genauigkeit und Hardwareunterstützung.
FP32 (32 Bit Gleitkomma): Das Standardformat beim Training. Bietet rund 7 Dezimalstellen Genauigkeit und einen enormen Wertebereich. Jedes Gewicht belegt 4 Byte.
FP16 und BF16 (16 Bit): FP16 bietet etwa 3 bis 4 Dezimalstellen Genauigkeit. BF16 (Brain Float 16) opfert Genauigkeit zugunsten eines größeren Wertebereichs und ist bei Sprachmodellen oft stabiler. Beide halbieren den Speicherbedarf gegenüber FP32.
INT8 (8 Bit Ganzzahl): Bildet Gewichte auf 256 diskrete Stufen ab. Der Speicherbedarf sinkt auf ein Viertel von FP32. Viele moderne Grafikkarten und Beschleuniger haben dedizierte INT8-Recheneinheiten.
INT4 und NF4 (4 Bit): Nur 16 verschiedene Werte pro Gewicht. NF4 (Normal Float 4) verteilt die 16 Stufen nicht gleichmäßig, sondern an der typischen Verteilung von Modellgewichten ausgerichtet. Dadurch ist der Qualitätsverlust geringer als bei uniformer 4-Bit-Quantisierung.
Beispiel: Ein Gewicht mit dem FP32-Wert 0.0823 wird bei INT8 auf einen von 256 Stufen gerundet. Bei INT4 steht nur eine von 16 Stufen zur Verfügung. Der INT4-Wert weicht stärker vom Original ab, aber die Struktur des Modells bleibt erhalten.
Fortgeschrittene Quantisierungstechniken
Die Forschung hat Methoden entwickelt, die den Qualitätsverlust bei starker Kompression minimieren. Drei davon sind besonders verbreitet.
GPTQ
GPTQ (GPT-Quantization) ist ein PTQ-Verfahren, das Gewichte schichtweise quantisiert. Es nutzt dabei eine kleine Menge Kalibrierungsdaten, um den Quantisierungsfehler jeder Schicht zu minimieren. Die Methode berücksichtigt, wie sich der Fehler einer Schicht auf nachfolgende Schichten auswirkt, und kompensiert ihn durch Anpassung der verbleibenden Gewichte.
Beispiel: Bei der Quantisierung eines Attention-Layers misst GPTQ, wie stark sich die Ausgabe durch die Rundung jedes einzelnen Gewichts verändert. Gewichte mit hohem Einfluss werden präziser behandelt als solche mit geringem Einfluss.
AWQ (Activation-Aware Weight Quantization)
AWQ beobachtet, welche Gewichte bei der Verarbeitung realer Eingaben besonders hohe Aktivierungen erzeugen. Diese "wichtigen" Gewichte erhalten mehr Präzision, während weniger relevante stärker komprimiert werden. Der Ansatz schützt gezielt die Gewichte, die den größten Einfluss auf die Modellausgabe haben.
Beispiel: In einem Sprachmodell sind bestimmte Gewichte in den ersten Schichten für die Erkennung grundlegender syntaktischer Muster zuständig. AWQ identifiziert diese Gewichte anhand ihrer Aktivierungswerte und behält sie in höherer Präzision bei. Seltener aktivierte Gewichte in späteren Schichten werden stärker komprimiert.
QLoRA
QLoRA kombiniert Quantisierung mit Fine-Tuning. Das Basismodell wird auf 4 Bit quantisiert (NF4), und zusätzliche kleine Adapter-Gewichte werden in voller Präzision trainiert. Dadurch lässt sich ein 65-Milliarden-Parameter-Modell auf einer einzelnen 48-GB-Grafikkarte feinabstimmen.
Beispiel: Ein Team will ein quantisiertes 70B-Modell auf medizinische Texte spezialisieren. Mit QLoRA lädt es das 4-Bit-Modell in den Speicher und trainiert nur die kleinen Adapter-Matrizen (typisch: 0,1 bis 1 Prozent der Gesamtparameter). Das Ergebnis ist ein fachspezifisches Modell, das auf einer einzigen Grafikkarte trainiert und betrieben werden kann.
Auswirkungen auf die Modellqualität
Quantisierung ist kein verlustfreier Vorgang. Der Grad des Qualitätsverlusts hängt vom Ausgangsmodell, dem Zielformat und der Quantisierungsmethode ab.
Größere Modelle vertragen stärkere Quantisierung besser als kleine. Ein 70B-Modell in 4-Bit liefert in der Regel bessere Ergebnisse als ein 7B-Modell in 4-Bit. Der Grund: Die höhere Redundanz in größeren Modellen fängt Rundungsfehler besser auf.
Beispiel: Ein 70B-Modell in 4-Bit-Quantisierung erreicht auf dem MMLU-Benchmark häufig 90 bis 95 Prozent der Qualität des nicht-quantisierten Originals. Bei einem 7B-Modell in 4-Bit kann der Wert auf 80 bis 85 Prozent sinken.
Bestimmte Fähigkeiten leiden stärker als andere. Mathematische Berechnungen, formale Logik und das Befolgen komplexer Anweisungen sind besonders anfällig für Quantisierungsfehler. Allgemeine Textgenerierung und Zusammenfassungen bleiben stabiler.
Beispiel: Ein nicht-quantisiertes Modell löst eine mehrstufige Rechenaufgabe korrekt. Die 8-Bit-Variante macht gelegentlich Rundungsfehler im Ergebnis. Die 4-Bit-Variante scheitert an der gleichen Aufgabe, weil akkumulierte Ungenauigkeiten die Zwischenergebnisse verfälschen. Freitextaufgaben beantwortet sie weiterhin flüssig.
Fachliche Einordnung: Die Auswirkungen der Quantisierung sind nicht linear. Der Sprung von FP32 auf FP16 verursacht bei den meisten Modellen nahezu keinen messbaren Qualitätsverlust, weil die zusätzliche Präzision von FP32 beim Inferieren selten genutzt wird. Der Sprung von 8-Bit auf 4-Bit hingegen kann je nach Modellarchitektur und Aufgabentyp signifikant sein. Entscheidend ist, ob die Quantisierungsmethode die Gewichtsverteilung der jeweiligen Schicht berücksichtigt (wie NF4 und AWQ) oder uniforme Rasterung anwendet.
Quantisierung in der Praxis
Die Verbreitung quantisierter Modelle hat sich durch Werkzeuge wie llama.cpp, GGUF, AutoGPTQ und bitsandbytes stark beschleunigt. Diese Werkzeuge machen Quantisierung auch ohne tiefes Fachwissen zugänglich.
Auf Plattformen wie HuggingFace finden sich zu den meisten Open-Source-Modellen fertig quantisierte Varianten. Die Benennung folgt dabei einem Muster: "Q4_K_M" steht für 4-Bit-Quantisierung mit K-Quants und mittlerer Qualität. "Q5_K_S" bedeutet 5 Bit mit kleinem Speicherprofil.
Beispiel: In einem HuggingFace-Repository eines 13B-Modells stehen Varianten wie Q2_K, Q3_K_S, Q4_0, Q4_K_M, Q5_K_M und Q8_0 zur Auswahl. Ein Nutzer mit 8 GB VRAM wählt Q4_K_M als Kompromiss zwischen Qualität und Speicherbedarf. Ein Nutzer mit 24 GB VRAM greift zu Q8_0 für maximale Qualität bei trotzdem halbiertem Speicher gegenüber FP16.
Die Laufzeitgeschwindigkeit profitiert ebenfalls von der Quantisierung. Weniger Daten müssen zwischen Speicher und Prozessor transportiert werden. Dieser Engpass, als Memory Bandwidth bezeichnet, ist bei großen Modellen oft der limitierende Faktor. 4-Bit-Modelle können dadurch deutlich mehr Token pro Sekunde erzeugen als ihre FP16-Gegenstücke.
Beispiel: Ein 13B-Modell in FP16 erzeugt auf einer Grafikkarte mit 24 GB VRAM etwa 15 Token pro Sekunde. Die Q4_K_M-Variante desselben Modells erreicht auf der gleichen Hardware 35 bis 40 Token pro Sekunde, weil die geringere Datenmenge den Speicherdurchsatz besser ausnutzt.
Grenzen und Limitationen
Quantisierung ist kein universelles Werkzeug. Es gibt klare Grenzen, die bei der Entscheidung für oder gegen eine bestimmte Quantisierungsstufe berücksichtigt werden müssen.
Kleine Modelle (unter 3 Milliarden Parametern) verlieren bei aggressiver Quantisierung überproportional an Qualität. Die Gewichtsredundanz reicht nicht aus, um Rundungsfehler aufzufangen. Für diese Modelle ist INT8 oft die niedrigste sinnvolle Stufe.
Aufgaben mit hohen Anforderungen an numerische Genauigkeit (Mathematik, Codegenerierung, strukturierte Datenextraktion) reagieren empfindlicher auf Quantisierung als allgemeine Textaufgaben. Wer ein quantisiertes Modell für solche Aufgaben einsetzt, muss die Ausgaben sorgfältiger validieren.
Die Bewertung quantisierter Modelle mit Standard-Benchmarks bildet nicht immer die reale Nutzung ab. Ein Modell kann auf einem Benchmark gut abschneiden, aber bei spezifischen Anwendungsfällen deutlich schlechter. Eigene Evaluierungen mit repräsentativen Testdaten sind daher unverzichtbar.
Extreme Quantisierung (2-Bit, 1-Bit) ist Gegenstand aktiver Forschung. Verfahren wie BitNet zeigen, dass binäre oder ternäre Gewichte bei speziell darauf ausgelegten Architekturen funktionieren können. Für bestehende Modelle, die in voller Präzision trainiert wurden, führt 2-Bit-Quantisierung in der Regel zu erheblichem Qualitätsverlust.
Fachliche Einordnung: Die Forschung verschiebt die Grenzen der Quantisierung kontinuierlich. Verfahren wie SqueezeLLM, SpQR und AQLM erreichen bei 2 bis 3 Bit Kompression Qualitätswerte, die vor zwei Jahren nur bei 4 Bit möglich waren. Gleichzeitig zeigt die Erfahrung, dass die letzten Prozentpunkte an Qualität bei vielen praktischen Anwendungen weniger relevant sind als die gewonnene Geschwindigkeit und Hardwareeffizienz. Die Wahl der Quantisierungsstufe ist eine ingenieurmäßige Abwägung, keine rein akademische Frage.