GPU-Beschleunigung

GPU-Beschleunigung nutzt Grafikkarten für schnellere ML-Berechnungen.

GPU-Beschleunigung bezeichnet den Einsatz von Grafikkarten, um Berechnungen im Bereich maschinelles Lernen schneller durchzuführen als auf herkömmlichen Prozessoren. Die massiv parallele Architektur moderner GPUs eignet sich besonders gut für die Matrixoperationen, die den Kern neuronaler Netze bilden.

Der Geschwindigkeitsvorteil ergibt sich aus der unterschiedlichen Architektur von CPUs und GPUs. Eine CPU besitzt wenige, aber leistungsstarke Kerne, die für sequentielle Aufgaben optimiert sind. Eine GPU verfügt über tausende kleinere Kerne, die dieselbe Operation gleichzeitig auf viele Datenpunkte anwenden können. Beim Training eines neuronalen Netzes müssen beispielsweise bei jeder Matrixmultiplikation Millionen von Einzeloperationen durchgeführt werden, die sich ideal parallelisieren lassen.

Je nach Aufgabe kann GPU-Beschleunigung Berechnungen um den Faktor 10 bis 100 gegenüber reiner CPU-Berechnung beschleunigen. Das Training eines modernen Sprachmodells, das auf einer CPU Monate dauern würde, kann auf einer leistungsstarken GPU in Tagen abgeschlossen werden. Bei der Inferenz - also der Nutzung eines bereits trainierten Modells - verkürzt GPU-Beschleunigung die Antwortzeiten und ermöglicht die Verarbeitung mehrerer Anfragen gleichzeitig.

GPU-Beschleunigung erfordert sowohl passende Hardware als auch Software, die diese Hardware ansprechen kann. Im NVIDIA-Ökosystem übernimmt CUDA diese Aufgabe. ML-Frameworks wie PyTorch abstrahieren die GPU-Programmierung, sodass man Modelle mit wenigen Befehlen auf die GPU verlagern kann, ohne selbst GPU-Code schreiben zu müssen.

Karl Kratz · 27.06.2025 (aktualisiert 15.03.2026)

Technologie Hardware Grafikkarten