GPU-Stunden
GPU-Stunden messen den Rechenaufwand für ML-Training.
GPU-Stunden sind eine Maßeinheit für den Rechenaufwand beim Training oder Betrieb von Machine-Learning-Modellen. Eine GPU-Stunde entspricht dem Einsatz einer einzelnen GPU über eine Stunde. Werden zehn GPUs vier Stunden lang eingesetzt, ergibt das 40 GPU-Stunden.
Diese Kennzahl dient sowohl der Kostenplanung als auch dem Vergleich verschiedener Trainingsansätze. Cloud-Anbieter rechnen GPU-Kapazität nach Stunden ab, wobei der Preis je nach GPU-Typ stark variiert. Eine Stunde auf einer NVIDIA A100 kostet bei großen Cloud-Anbietern typischerweise zwischen zwei und fünf Euro, eine H100 entsprechend mehr. Die Gesamtkosten eines Trainingslaufs ergeben sich direkt aus der Anzahl der GPU-Stunden multipliziert mit dem Stundenpreis.
In wissenschaftlichen Veröffentlichungen werden GPU-Stunden angegeben, um den Trainingsaufwand transparent zu machen und Reproduzierbarkeit zu ermöglichen. Das Training von GPT-3 hat beispielsweise geschätzte 3.640 Petaflop-Tage beansprucht, was tausenden von GPU-Stunden auf der damals verwendeten Hardware entspricht. Solche Angaben helfen einzuschätzen, welche Ressourcen für vergleichbare Projekte nötig sind.
Die Optimierung des GPU-Stundenverbrauchs ist ein aktives Forschungsfeld. Techniken wie Mixed Precision Training, effizientere Architekturen, bessere Lernraten-Schedules und Datenparallelisierung können den Bedarf an GPU-Stunden bei gleichbleibender Modellqualität deutlich reduzieren. Für Organisationen mit begrenztem Budget ist diese Optimierung oft der entscheidende Faktor dafür, welche Modelle trainiert werden können.