GPU-Infrastruktur

GPU-Infrastruktur bezeichnet die Hardware-Ausstattung für ML-Training.

GPU-Infrastruktur bezeichnet die Gesamtheit der Hardware-Ressourcen, die für das Training und den Betrieb von Machine-Learning-Modellen bereitgestellt werden. Dazu gehören die Grafikkarten selbst, aber auch Server, Netzwerkanbindung, Kühlung und Stromversorgung.

Für das Training großer Sprachmodelle reicht eine einzelne GPU in der Regel nicht aus. Man benötigt Cluster aus mehreren GPU-Servern, die über schnelle Interconnects wie NVLink oder InfiniBand miteinander verbunden sind. Die Bandbreite dieser Verbindungen ist entscheidend, da beim verteilten Training kontinuierlich Gradienten zwischen den GPUs ausgetauscht werden müssen.

Die Kosten für GPU-Infrastruktur sind erheblich. Eine einzelne NVIDIA H100 kostet mehrere zehntausend Euro, und für das Training eines Sprachmodells der Größenordnung GPT-4 werden tausende solcher Karten über Wochen betrieben. Viele Organisationen nutzen daher Cloud-Anbieter wie AWS, Google Cloud oder Azure, die GPU-Kapazität stundenweise vermieten. Dies vermeidet die hohen Vorabinvestitionen, verursacht aber laufende Kosten.

Die Planung der GPU-Infrastruktur umfasst auch Fragen der Ausfallsicherheit und Skalierbarkeit. Beim Training über mehrere Tage muss sichergestellt sein, dass ein einzelner GPU-Ausfall den gesamten Trainingslauf nicht zunichtemacht. Checkpoint-Strategien, bei denen der Trainingszustand regelmäßig gespeichert wird, sind daher fester Bestandteil jeder produktiven GPU-Infrastruktur.

Karl Kratz · 10.06.2025 (aktualisiert 15.03.2026)

Technologie Hardware Grafikkarten