VRAM-Bedarf

VRAM-Bedarf gibt an, wie viel GPU-Speicher ein Modell benötigt.

VRAM-Bedarf beschreibt, wie viel GPU-Speicher ein bestimmtes Modell für Training oder Inferenz benötigt. Dieser Wert hängt von der Modellgröße, der gewählten Precision und der Art der Nutzung ab.

Für die reine Inferenz lässt sich der Bedarf grob berechnen: Ein Modell mit 7 Milliarden Parametern belegt in FP16 etwa 14 GB, in FP32 etwa 28 GB. Durch Quantisierung auf INT8 sinkt der Bedarf auf rund 7 GB, bei INT4 auf etwa 3,5 GB. Beim Training kommen Gradienten, Optimizer-States und Aktivierungen hinzu, sodass der Bedarf deutlich höher liegt.

Weitere Einflussfaktoren sind die Batch-Size, die Sequenzlänge und die Architektur des Modells. Längere Sequenzen bei Transformer-Modellen erhöhen den Speicherbedarf quadratisch durch den Attention-Mechanismus. Größere Batches benötigen proportional mehr Speicher für Aktivierungen.

Bei der Planung eines Projekts sollte man den VRAM-Bedarf vorab abschätzen, um die passende Hardware auszuwählen. Modellkarten auf Plattformen wie Hugging Face geben häufig den ungefähren Bedarf an.


Karl Kratz · 05.03.2025 (aktualisiert 15.03.2026)

Technologie Hardware Grafikkarten