CUDA-Unterstützung

Bestimmte Berechnungen lassen sich auf Grafikprozessoren deutlich schneller ausführen als auf herkömmlichen Prozessoren. CUDA-Unterstützung bedeutet, dass eine Software diese Fähigkeit von NVIDIA-Grafikkarten gezielt nutzen kann.

Ein herkömmlicher Prozessor (CPU) verarbeitet Aufgaben überwiegend sequentiell. Grafikprozessoren (GPUs) verfügen über Tausende kleiner Rechenkerne, die gleichartige Operationen parallel abarbeiten. CUDA (Compute Unified Device Architecture) ist die von NVIDIA entwickelte Plattform, über die Software auf diese parallele Rechenleistung zugreifen kann. Wenn eine Anwendung über CUDA-Unterstützung verfügt, lagert sie geeignete Rechenoperationen von der CPU auf die GPU aus.

In der Praxis betrifft das vor allem Matrixmultiplikationen, Faltungen und andere Operationen, die beim Training und bei der Auswertung neuronaler Netze anfallen. Die Geschwindigkeitsunterschiede zwischen CPU und GPU liegen bei diesen Aufgaben häufig im Bereich von Faktor 10 bis 100.

Aufbau der CUDA-Plattform

CUDA besteht aus mehreren Schichten. Die unterste Schicht bildet der NVIDIA-Treiber, der die direkte Kommunikation zwischen Betriebssystem und Grafikkarte herstellt. Darüber liegt die CUDA Runtime, eine Programmierschnittstelle, über die Software Berechnungen an die GPU übergeben kann. Oberhalb der Runtime befinden sich spezialisierte Bibliotheken wie cuBLAS (lineare Algebra), cuDNN (neuronale Netze) und cuFFT (Fourier-Transformationen).

Beispiel: Ein Deep-Learning-Framework wie PyTorch ruft beim Training eines Bildklassifikators cuBLAS für Matrixmultiplikationen und cuDNN für Faltungsoperationen auf. Die Anwendung selbst enthält keinen GPU-Code, sondern nutzt diese Bibliotheken über die CUDA Runtime.

Beispiel: Beim Laden eines vortrainierten Sprachmodells mit model.to("cuda") in PyTorch werden alle Modellgewichte vom Arbeitsspeicher (RAM) in den Grafikspeicher (VRAM) kopiert. Alle nachfolgenden Berechnungen laufen dann auf der GPU.

AnwendungPyTorch, TensorFlow

BibliothekencuBLAS, cuDNN, cuFFT

CUDA RuntimeSpeicher, Kernel-Start

NVIDIA-TreiberHardware-Zugriff

Fachliche Einordnung: Die Schichtenarchitektur von CUDA abstrahiert die Hardware-Details. Entwickler müssen keine GPU-Assembler-Befehle schreiben. Die Bibliotheksschicht enthält bereits hochoptimierte Implementierungen für typische Berechnungen. Die Qualität dieser Bibliotheken ist ein wesentlicher Grund für die Dominanz von NVIDIA im Bereich des maschinellen Lernens.

Voraussetzungen für CUDA-Unterstützung

Damit eine Software CUDA nutzen kann, müssen drei Bedingungen erfüllt sein: eine NVIDIA-Grafikkarte mit CUDA-fähigen Kernen, ein kompatibler NVIDIA-Treiber und die passende Version des CUDA Toolkit. Die Versionskopplung zwischen diesen drei Komponenten ist eng. Ein zu alter Treiber unterstützt keine neuere CUDA-Version, und ein Framework kann eine bestimmte Mindestversion des Toolkit voraussetzen.

Beispiel: PyTorch 2.2 benötigt mindestens CUDA 11.8 oder 12.1. Wer eine ältere NVIDIA-Grafikkarte mit maximal CUDA 10.2 betreibt, kann diese PyTorch-Version nicht mit GPU-Unterstützung nutzen und fällt auf CPU-Berechnung zurück.

Beispiel: Der Befehl nvidia-smi zeigt auf Linux- und Windows-Systemen die installierte Treiberversion und die maximal unterstützte CUDA-Version an. Der Befehl nvcc --version gibt die tatsächlich installierte Toolkit-Version aus. Stimmen diese nicht überein, schlägt die GPU-Nutzung fehl.

Jede NVIDIA-Grafikkarte besitzt eine sogenannte Compute Capability, eine Versionsnummer, die festlegt, welche CUDA-Funktionen die Hardware unterstützt. Neuere Architekturen wie Ampere (Compute Capability 8.x) oder Hopper (9.0) bieten Funktionen wie Tensor Cores der vierten Generation, die ältere Karten nicht besitzen.

CUDA-Unterstützung in ML-Frameworks

Die großen Frameworks für maschinelles Lernen bieten CUDA-Unterstützung als festen Bestandteil. Bei der Installation wählt man die passende CUDA-Variante, und das Framework nutzt die GPU automatisch, sobald eine kompatible Karte vorhanden ist.

Beispiel: In PyTorch prüft torch.cuda.is_available() ob CUDA verfügbar ist. Rückgabewert True bedeutet: Treiber, Toolkit und Hardware sind korrekt konfiguriert. torch.cuda.device_count() gibt die Anzahl nutzbarer GPUs zurück.

Beispiel: TensorFlow erkennt CUDA-fähige GPUs automatisch und verteilt Berechnungen auf verfügbare Karten. Über tf.config.list_physical_devices('GPU') lässt sich prüfen, welche GPUs erkannt wurden. Mit tf.device('/GPU:0') kann eine bestimmte Karte für einen Berechnungsblock festgelegt werden.

Spezialisierte Werkzeuge wie Hugging Face Transformers, vLLM und llama.cpp setzen ebenfalls auf CUDA. Hugging Face Transformers nutzt PyTorch oder TensorFlow als Backend und erbt deren CUDA-Unterstützung. vLLM und llama.cpp implementieren eigene CUDA-Kernel für besonders effiziente Textgenerierung.

Gemischte Genauigkeit und Speichereffizienz

Neuronale Netze arbeiten standardmäßig mit 32-Bit-Gleitkommazahlen (FP32). Bei gemischter Genauigkeit (Mixed Precision) werden Teile der Berechnung in 16-Bit-Formaten (FP16 oder BF16) durchgeführt. Das halbiert den Speicherbedarf pro Gewicht und verdoppelt in vielen Fällen den Rechendurchsatz, weil die Tensor Cores moderner NVIDIA-GPUs auf niedrigere Precision-Formate optimiert sind.

Beispiel: Ein Sprachmodell mit 7 Milliarden Parametern belegt in FP32 etwa 28 GB VRAM. In FP16 sinkt der Bedarf auf etwa 14 GB. Mit Quantisierung auf 4 Bit (INT4) reichen etwa 3,5 GB. CUDA-Bibliotheken stellen die Kernel für alle diese Formate bereit.

Automatische Mixed-Precision-Funktionen wie torch.cuda.amp in PyTorch entscheiden pro Rechenoperation, welches Format sinnvoll ist. Kritische Berechnungen (etwa die Verlustfunktion) bleiben bei FP32, während Matrixmultiplikationen in FP16 laufen. Das Framework verwaltet die Konvertierung transparent.

Fachliche Einordnung: BF16 (Brain Floating Point) verwendet 8 Exponent-Bits statt 5 wie FP16 und deckt damit denselben Wertebereich wie FP32 ab, bei geringerer Mantissen-Precision. Für das Training neuronaler Netze ist der größere Wertebereich oft wichtiger als zusätzliche Nachkommastellen. Nicht alle NVIDIA-Architekturen unterstützen BF16 in Hardware. Ampere (A100) und neuere Karten bieten native BF16-Tensor-Core-Unterstützung.

Verteilung auf mehrere Grafikkarten

Wenn ein Modell oder ein Datensatz zu groß für eine einzelne GPU ist, verteilt Software die Arbeit auf mehrere Karten. CUDA bietet dafür Mechanismen wie Peer-to-Peer-Speicherzugriff und NCCL (NVIDIA Collective Communications Library), eine Bibliothek für schnelle GPU-zu-GPU-Kommunikation.

Beispiel: Beim Datenparallelismus erhält jede GPU eine Kopie des Modells und verarbeitet einen Teil des Batch. Nach jedem Berechnungsschritt synchronisieren die GPUs ihre Gradienten über NCCL. PyTorch stellt dafür DistributedDataParallel bereit.

Beispiel: Beim Modellparallelismus wird ein einzelnes Modell auf mehrere GPUs aufgeteilt. Die ersten Schichten liegen auf GPU 0, die mittleren auf GPU 1, die letzten auf GPU 2. Zwischen den GPUs fließen Zwischenergebnisse (Aktivierungen). Diese Strategie kommt zum Einsatz, wenn das Modell nicht in den Speicher einer einzelnen Karte passt.

Die Kommunikation zwischen GPUs stellt einen Engpass dar. NVLink verbindet GPUs mit bis zu 900 GB/s (Hopper-Generation), während PCIe 4.0 auf etwa 32 GB/s begrenzt ist. In professionellen Systemen mit 8 GPUs bestimmt die Verbindungstopologie oft stärker die Gesamtleistung als die Rechenleistung der einzelnen Karten.

Alternativen zu CUDA

CUDA ist an NVIDIA-Hardware gebunden. Andere Hersteller bieten eigene Plattformen an: AMD entwickelt ROCm (Radeon Open Compute), Intel bietet oneAPI mit SYCL-Unterstützung. OpenCL ist ein herstellerunabhängiger Standard, der auf GPUs verschiedener Hersteller läuft.

Beispiel: PyTorch unterstützt seit Version 2.0 experimentell AMD-GPUs über ROCm. Die Installation unterscheidet sich: Statt pip install torch --index-url .../cu121 nutzt man pip install torch --index-url .../rocm5.6. Der Python-Code selbst bleibt identisch, weil PyTorch die Hardware-Schicht abstrahiert.

In der Praxis hat CUDA einen erheblichen Vorsprung im Software-Ökosystem. Die meisten ML-Bibliotheken werden zuerst für CUDA entwickelt und getestet. ROCm-Unterstützung folgt später und deckt oft nicht alle Funktionen ab. Dieser Netzwerkeffekt verstärkt sich selbst: Weil mehr Entwickler auf CUDA optimieren, funktioniert CUDA zuverlässiger, was weitere Entwickler anzieht.

Fachliche Einordnung: Die Bindung an einen einzelnen Hersteller (Vendor Lock-in) ist ein relevantes Risiko. Initiativen wie Triton (eine Python-basierte Sprache für GPU-Programmierung) und der MLIR-Compiler-Stack versuchen, eine herstellerunabhängige Abstraktionsschicht zu etablieren. Stand 2025 bleibt CUDA in Bezug auf Reife, Bibliotheksabdeckung und Community-Unterstützung führend.

CUDA in der praktischen Anwendung

Die häufigste Fehlerquelle bei CUDA-Unterstützung sind Versionskonflikte. Ein typischer Ablauf zur Fehlerdiagnose beginnt mit nvidia-smi (Treiberstatus), gefolgt von nvcc --version (Toolkit-Version) und dem Framework-Check (etwa torch.cuda.is_available()).

Beispiel: Die Fehlermeldung CUDA error: no kernel image is available for execution on the device bedeutet, dass das installierte Framework für eine andere Compute Capability kompiliert wurde als die vorhandene Grafikkarte bietet. Die Lösung besteht darin, eine Framework-Version zu installieren, die die eigene Karte unterstützt.

Der CUDA-Speicher ist begrenzt und muss aktiv verwaltet werden. Wenn der VRAM vollständig belegt ist, bricht die Berechnung mit einem CUDA out of memory-Fehler ab. Gegenmaßnahmen umfassen kleinere Batch-Größen, gemischte Genauigkeit, Gradient Checkpointing (Zwischenergebnisse werden verworfen und bei Bedarf neu berechnet) und Modellparallelismus.

Beispiel: Mit torch.cuda.memory_summary() zeigt PyTorch eine detaillierte Aufschlüsselung der GPU-Speicherbelegung an. Die Ausgabe listet reservierten und tatsächlich genutzten Speicher getrennt auf. Das hilft bei der Identifikation von Speicherlecks, etwa durch nicht freigegebene Tensoren.

Grenzen und Einschränkungen

CUDA-Unterstützung beschleunigt nicht jede Berechnung. Aufgaben mit wenig Parallelismus, starken Datenabhängigkeiten oder geringem Rechenaufwand pro Datentransfer profitieren kaum oder werden auf der GPU sogar langsamer. Der Datentransfer zwischen CPU-Arbeitsspeicher und GPU-Speicher verursacht Latenz, die bei kleinen Berechnungen den Geschwindigkeitsgewinn aufzehrt.

Beispiel: Die Verarbeitung eines einzelnen kurzen Textes durch ein Sprachmodell kann auf der CPU schneller sein als auf der GPU, weil der Aufwand für den Datentransfer zur GPU die eigentliche Berechnung übersteigt. Erst bei größeren Eingaben oder Stapelverarbeitung (Batching) zahlt sich die GPU-Beschleunigung aus.

Die CUDA-Plattform entwickelt sich schnell weiter. Neue Architekturen bringen neue Funktionen, die ältere Karten nicht unterstützen. Software, die neueste CUDA-Features nutzt, läuft nicht auf älteren Karten. Gleichzeitig stellt NVIDIA den Support für alte Compute Capabilities ein. Karten mit Compute Capability unter 5.0 werden von aktuellen CUDA-Versionen nicht mehr unterstützt.

Die Abhängigkeit von einem einzigen Hersteller betrifft nicht nur die Hardware, sondern auch die Software-Lieferkette. CUDA-Bibliotheken sind proprietär. Ein Wechsel auf AMD- oder Intel-Hardware erfordert Anpassungen an der gesamten Toolchain, auch wenn Frameworks wie PyTorch die Hardware-Schicht teilweise abstrahieren.

Karl Kratz · 24.02.2025 (aktualisiert 03.04.2026)

Technologie Hardware Grafikkarten