VRAM

VRAM (Video Random Access Memory) ist der Arbeitsspeicher einer GPU. Die VRAM-Größe bestimmt, wie große Modelle und Batch-Sizes beim Training verwendet werden können.

VRAM (Video Random Access Memory) ist der dedizierte Arbeitsspeicher auf einer Grafikkarte. Er speichert während des ML-Trainings die Modellgewichte, Zwischenergebnisse (Aktivierungen), Gradienten und Optimizer-States. Bei der Inferenz hält er das geladene Modell und die Ein-/Ausgabedaten.

Die verfügbare VRAM-Größe setzt eine harte Obergrenze dafür, was auf einer GPU berechnet werden kann. Ein Modell, das nicht vollständig in den VRAM passt, lässt sich auf dieser Karte ohne weitere Maßnahmen nicht nutzen. Typische Größen reichen von 8 GB bei Consumer-Karten über 24 GB (RTX 4090) bis zu 40 oder 80 GB bei professionellen Karten wie der A100.

Reicht der VRAM nicht aus, gibt es mehrere Strategien: Man kann die Precision reduzieren (etwa von FP32 auf FP16), Quantisierung einsetzen, Gradient-Checkpointing aktivieren oder das Modell auf mehrere GPUs verteilen. Techniken wie QLoRA ermöglichen es, selbst große Modelle auf Karten mit begrenztem Speicher zu fine-tunen.

Als Faustregel gilt: Beim Training wird etwa drei- bis viermal so viel VRAM benötigt wie für das reine Laden des Modells, weil Gradienten und Optimizer-States zusätzlichen Speicher belegen.

Karl Kratz · 23.06.2025 (aktualisiert 15.03.2026)

Technologie Hardware Grafikkarten