INT4-Quantisierung

Große Sprachmodelle belegen oft mehr Speicher als eine einzelne Grafikkarte bietet. Eine Möglichkeit, den Speicherbedarf drastisch zu senken, besteht darin, die Gewichte des Modells mit nur 4 Bit pro Wert zu speichern. Dieses Verfahren heißt INT4-Quantisierung.

Was 4-Bit-Ganzzahlen darstellen

Ein neuronales Netz speichert sein gelerntes Wissen in Gewichten. Im Standardformat FP16 belegt jedes Gewicht 16 Bit und kann fein abgestufte Dezimalwerte abbilden. Bei INT4 stehen pro Gewicht nur 4 Bit zur Verfügung. Damit lassen sich 16 verschiedene Ganzzahlwerte darstellen, üblicherweise 0 bis 15 oder -8 bis 7.

Um die ursprünglichen Fließkommawerte in diesen engen Bereich zu überführen, wird pro Gruppe von Gewichten ein Skalierungsfaktor berechnet. Die Gewichte werden durch diesen Faktor geteilt, auf Ganzzahlen gerundet und als 4-Bit-Werte gespeichert. Bei der Berechnung multipliziert das System die INT4-Werte mit dem gespeicherten Faktor zurück.

Beispiel: Eine Gewichtsgruppe enthält Werte zwischen -0,12 und 0,09. Der Skalierungsfaktor bildet diesen Bereich auf den INT4-Wertebereich ab. Der Wert 0,06 wird beispielsweise auf die Ganzzahl 5 gerundet. Bei der Rekonstruktion ergibt 5 multipliziert mit dem Faktor einen Näherungswert von 0,058.

Beispiel: Ein Modell mit 7 Milliarden Gewichten belegt in FP16 rund 14 GB. In INT4 sinkt der reine Gewichtsspeicher auf etwa 3,5 GB. Dazu kommen Skalierungsfaktoren und Aktivierungen, sodass der tatsächliche VRAM-Bedarf bei etwa 4 bis 5 GB liegt.

Quantisierungsverfahren im Vergleich

Nicht jede INT4-Quantisierung arbeitet gleich. Die Verfahren unterscheiden sich darin, wie sie den Rundungsfehler minimieren und welche zusätzlichen Informationen sie speichern.

GPTQ

GPTQ quantisiert Gewichte schichtweise. Es verarbeitet eine Schicht nach der anderen und kompensiert den Rundungsfehler eines Gewichts, indem es die noch nicht quantisierten Gewichte derselben Schicht anpasst. Dafür benötigt GPTQ einen kleinen Kalibrierdatensatz, typischerweise 128 bis 256 Textbeispiele.

Beispiel: Ein GPTQ-quantisiertes 70B-Modell erreicht auf Sprachverständnis-Benchmarks häufig 95 bis 98 Prozent der FP16-Ergebnisse. Die Quantisierung selbst dauert je nach Modellgröße einige Stunden auf einer einzelnen GPU.

AWQ

AWQ (Activation-Aware Weight Quantization) identifiziert Gewichte, die für die Modellausgabe besonders wichtig sind. Dazu analysiert es, welche Gewichte bei typischen Eingaben hohe Aktivierungen erzeugen. Diese Gewichte erhalten einen höheren Skalierungsfaktor, sodass ihre Quantisierung präziser ausfällt.

Beispiel: In einem Transformer-Block erzeugen bestimmte Attention-Gewichte konsistent hohe Aktivierungen. AWQ erkennt diese und weist ihnen mehr effektive Auflösung zu. Gewichte, die selten stark aktiviert werden, erhalten eine gröbere Quantisierung.

Weitere Verfahren

Neben GPTQ und AWQ existieren Verfahren wie SqueezeLLM und QuIP, die zusätzliche Techniken wie Ausreißerisolation oder Vektorquantisierung einsetzen. In der Praxis haben sich GPTQ und AWQ als Standard etabliert, weil sie eine gute Balance zwischen Qualitätserhalt und Geschwindigkeit bieten.

Beispiel: Das GGUF-Format unterstützt verschiedene Quantisierungsvarianten. Die Bezeichnung Q4_K_M bedeutet 4-Bit-Quantisierung mit mittlerer K-Quant-Strategie. Dabei werden wichtige Schichten mit mehr Bit-Auflösung versehen als weniger kritische Schichten.

Speicherersparnis und Rechenverhalten

Die Speicherersparnis durch INT4 skaliert linear mit der Modellgröße. Der theoretische Faktor gegenüber FP16 beträgt 4, in der Praxis liegt er bei 3 bis 3,5, weil Skalierungsfaktoren, Aktivierungsspeicher und Laufzeitstrukturen zusätzlichen Platz belegen.

FP1616 Bit pro Gewicht

INT88 Bit pro Gewicht

INT44 Bit pro Gewicht

70B: ~140 GBGewichtsspeicher

70B: ~70 GBGewichtsspeicher

70B: ~35 GBGewichtsspeicher

QuantisierungWeniger Bit = weniger Speicher = mehr Rundungsfehler

Beispiel: Ein Modell mit 13 Milliarden Gewichten benötigt in FP16 rund 26 GB GPU-Speicher. Eine Grafikkarte mit 24 GB kann es nicht laden. In INT4 sinkt der Gewichtsspeicher auf etwa 6,5 GB, womit das Modell selbst auf Consumer-Karten mit 8 GB VRAM ausführbar wird.

Die Rechengeschwindigkeit profitiert ebenfalls, allerdings nicht proportional zur Speicherersparnis. INT4-Berechnungen erfordern die Rückskalierung auf höhere Precision vor der eigentlichen Matrixmultiplikation. Ob und wie stark INT4 schneller ist als FP16, hängt von der Hardware und dem Inference-Framework ab.

Beispiel: Auf NVIDIA-GPUs der Ada-Lovelace-Generation unterstützt die Hardware INT4-Tensor-Operationen nativ. Hier erreicht INT4 gegenüber FP16 eine höhere Token-Rate. Auf älterer Hardware ohne native INT4-Einheit kann der Overhead der Dequantisierung den Speichervorteil bei der Geschwindigkeit teilweise aufheben.

Auswirkung auf die Modellqualität

Jede Quantisierung führt Rundungsfehler ein. Bei INT4 ist der Fehler größer als bei INT8, weil der Wertebereich stärker eingeschränkt ist. Die Auswirkung auf die Modellqualität hängt von der Aufgabe, dem Modell und dem Quantisierungsverfahren ab.

Bei Aufgaben wie offener Textgenerierung, Zusammenfassungen oder einfachen Frage-Antwort-Szenarien zeigen INT4-Modelle oft geringe Qualitätseinbußen. Bei präzisionsabhängigen Aufgaben wie mathematischen Berechnungen, Code-Generierung oder dem Extrahieren exakter Fakten aus langen Texten sind die Verluste spürbarer.

Beispiel: Ein 70B-Modell in GPTQ-INT4 erzielt auf einem Sprachverständnis-Benchmark 82,1 Punkte gegenüber 84,3 in FP16. Bei einer Mathematik-Aufgabe fällt das Ergebnis von 67,8 auf 59,2 Punkte. Der Verlust ist aufgabenabhängig und nicht gleichmäßig.

Größere Modelle tolerieren INT4 besser als kleinere. Ein 70B-Modell in INT4 übertrifft häufig ein 13B-Modell in FP16, obwohl beide ähnlich viel Speicher belegen. Die absolute Anzahl der Gewichte kompensiert den Präzisionsverlust.

Fachliche Einordnung: Der Qualitätsverlust bei INT4 lässt sich über die Perplexität quantifizieren. Typische GPTQ-INT4-Modelle zeigen eine Perplexitätserhöhung von 0,1 bis 0,5 Punkten auf Wikitext-2 gegenüber FP16. AWQ-quantisierte Modelle liegen meist im unteren Bereich dieses Intervalls. Ab einer Erhöhung von mehr als 1,0 Punkten gelten Modelle in der Forschungsliteratur als merklich degradiert.

INT4 beim Training und Feinabstimmung

Für das Training neuronaler Netze ist INT4 zu ungenau. Beim Training berechnet das System Gradienten, also kleine Änderungen an jedem Gewicht pro Trainingsschritt. Diese Gradienten sind oft sehr klein und erfordern hohe numerische Auflösung. In INT4 würden die meisten Gradienten auf null gerundet, sodass das Modell nicht lernt.

Beispiel: Ein typischer Gradient hat den Wert 0,00003. Im FP16-Format lässt sich dieser Wert darstellen. In INT4 mit einem Skalierungsfaktor für den Bereich -0,1 bis 0,1 würde dieser Gradient auf 0 gerundet. Das Gewicht verändert sich nicht, das Lernen stagniert.

QLoRA umgeht dieses Problem, indem es die Basisgewichte in INT4 einfriert und nur kleine Adapter-Matrizen in höherer Precision trainiert. Die INT4-Gewichte liefern die Vorwärtsberechnung, die Gradienten fließen nur durch die Adapter. Dadurch lassen sich große Modelle auf Hardware feinabstimmen, die für vollständiges Training in FP16 nicht ausreichen würde.

Praktischer Einsatz

INT4-quantisierte Modelle werden über verschiedene Frameworks und Formate bereitgestellt. Die gängigsten Formate sind GPTQ (für GPU-basierte Nutzung), GGUF (für CPU und gemischte CPU/GPU-Nutzung) und AWQ (für GPU mit optimiertem Kernel).

Die Wahl des Formats hängt von der verfügbaren Hardware ab. Auf Systemen mit ausreichend GPU-Speicher bieten GPTQ und AWQ die höchste Geschwindigkeit. Auf Systemen ohne GPU oder mit wenig VRAM ermöglicht GGUF die Ausführung über CPU-Offloading.

Beispiel: Ein Entwickler möchte ein 13B-Modell lokal auf einem Laptop mit 16 GB RAM und ohne dedizierte GPU nutzen. Im GGUF-Format mit Q4_K_M-Quantisierung belegt das Modell rund 7,5 GB und läuft über llama.cpp vollständig auf der CPU. Die Generierung ist langsamer als auf einer GPU, aber für interaktive Nutzung ausreichend.

Beispiel: Ein Unternehmen betreibt einen Chatbot auf einer Grafikkarte mit 24 GB VRAM. In FP16 passt nur ein 13B-Modell. In INT4 (AWQ) lässt sich ein 34B-Modell laden, das bei den meisten Aufgaben bessere Ergebnisse liefert als das kleinere FP16-Modell.

Grenzen und Einordnung

INT4 stellt den unteren praktischen Rand der Gewichtsquantisierung dar. Niedrigere Bit-Breiten (2 Bit, 1,5 Bit) existieren als Forschungsthema, zeigen aber deutlich stärkere Qualitätsverluste und haben sich in der Praxis nicht etabliert.

Die Entscheidung für INT4 ist ein Kompromiss. Sie ermöglicht den Einsatz größerer Modelle auf gegebener Hardware, erhöht aber das Risiko von Qualitätsverlusten bei präzisionsabhängigen Aufgaben. Für produktive Systeme empfiehlt sich eine aufgabenspezifische Evaluierung des quantisierten Modells.

Beispiel: Ein Unternehmen testet ein INT4-quantisiertes Modell für die automatische Rechnungsextraktion. Die Textfelder (Firmenname, Adresse) werden korrekt erkannt. Bei numerischen Feldern (Beträge, Steuersätze) treten Fehler auf, die bei FP16 nicht auftreten. Das Unternehmen entscheidet sich für INT8 als Kompromiss.

Die Quantisierungsforschung entwickelt sich schnell weiter. Neue Verfahren, die adaptive Bit-Zuweisung pro Schicht oder pro Kanal verwenden, verringern den Qualitätsverlust bei gleichem Speicherbudget. INT4 ist heute ein praktischer Standard für die lokale Modellausführung, aber die optimale Bit-Breite verschiebt sich mit jeder Modellgeneration und jedem neuen Quantisierungsverfahren.

Fachliche Einordnung: Die Wahl der Quantisierungsstufe lässt sich als Punkt auf der Pareto-Front zwischen Speicherverbrauch und Modellqualität verstehen. INT4 liegt am speichersparsamen Ende dieser Front. Ob INT4 oder INT8 die bessere Wahl ist, hängt vom konkreten Einsatzszenario ab. Für latenzunkritische Offline-Verarbeitung kann INT8 oder FP16 vorzuziehen sein. Für interaktive Anwendungen auf Consumer-Hardware ist INT4 oft die einzige praktikable Option.

Karl Kratz · 31.07.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz Quantisierung