QLoRA

QLoRA kombiniert Quantisierung mit LoRA für speichereffizientes Fine-Tuning.

QLoRA (Quantized Low-Rank Adaptation) ist eine Methode für speichereffizientes Fine-Tuning großer Sprachmodelle. Sie kombiniert zwei Techniken: Das Basismodell wird in 4-Bit quantisiert (INT4), und darauf werden kleine, trainierbare LoRA-Adapter in höherer Precision aufgesetzt.

Das Verfahren wurde 2023 vorgestellt und hat Fine-Tuning großer Modelle auf Consumer-Hardware ermöglicht. Ein 65-Milliarden-Parameter-Modell lässt sich mit QLoRA auf einer einzigen GPU mit 48 GB VRAM fine-tunen - ohne Quantisierung wäre dafür ein Vielfaches an Speicher nötig.

Technisch funktioniert QLoRA, indem die Gewichte des Basismodells in einem speziellen 4-Bit-Format (NF4, Normal Float 4) eingefroren werden. Beim Forward-Pass werden sie on-the-fly in FP16 oder BF16 dequantisiert. Die LoRA-Adapter bestehen aus kleinen Matrizen niedriger Rang-Dimension, die als einzige Teile des Modells Gradienten erhalten und aktualisiert werden.

Trotz der starken Komprimierung erreichen QLoRA-Modelle eine Qualität, die nah an vollständigem Fine-Tuning in FP16 liegt. Das macht die Methode besonders attraktiv für Anwendungsfälle, in denen Budget oder Hardware begrenzt sind.

Karl Kratz · 10.12.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm