GPU-Auslastung
GPU-Auslastung zeigt den Prozentsatz genutzter GPU-Rechenkapazität.
GPU-Auslastung gibt an, welcher Anteil der verfügbaren Rechenkapazität einer Grafikkarte tatsächlich genutzt wird. Der Wert wird als Prozentzahl angegeben und ist eine zentrale Kennzahl für die Effizienz von ML-Workloads.
Man überwacht die GPU-Auslastung in der Regel mit nvidia-smi, das den aktuellen Wert als "GPU-Util" anzeigt. Eine Auslastung nahe 100 Prozent deutet darauf hin, dass die GPU durchgehend beschäftigt ist und die Datenpipeline schnell genug nachliefert. Werte deutlich unter 100 Prozent können auf Engpässe bei der Datenvorverarbeitung, zu kleine Batch-Größen oder ineffiziente Speicherzugriffe hinweisen.
Neben der reinen Rechenauslastung ist auch die Speicherauslastung relevant. Eine GPU kann rechnerisch wenig ausgelastet sein, aber ihren Speicher vollständig belegt haben - etwa wenn ein Modell gerade in den GPU-Speicher geladen wird. Umgekehrt kann eine hohe Rechenauslastung bei niedrigem Speicherverbrauch darauf hindeuten, dass man mit größeren Batch-Größen noch mehr Durchsatz erzielen könnte.
Für die kontinuierliche Überwachung eignen sich Werkzeuge wie nvidia-smi dmon für Echtzeit-Monitoring oder Integrationen in Monitoring-Systeme wie Prometheus und Grafana. Bei Trainingsläufen, die Stunden oder Tage dauern, hilft die Überwachung der GPU-Auslastung, Ineffizienzen frühzeitig zu erkennen und die Nutzung teurer GPU-Ressourcen zu optimieren.