Video Audio Zu Text Faster Whisper
Faster-Whisper: Schneller, sparsamer, besser
Das Original-Whisper funktioniert gut, aber es gibt eine bessere Alternative. Faster-Whisper ist eine optimierte Neuimplementierung des Modells, die auf einer Bibliothek namens CTranslate2 basiert. Das Ergebnis ist beeindruckend: Du bekommst die gleiche Qualität bei deutlich geringerem Ressourcenverbrauch.
Was macht Faster-Whisper anders?
Faster-Whisper nutzt eine Technik namens int8-Quantisierung. Das klingt technisch, hat aber einen einfachen Hintergrund: Statt mit sehr genauen 32-Bit-Zahlen zu rechnen, verwendet das Modell kompaktere 8-Bit-Zahlen. Das ist wie der Unterschied zwischen einem hochauflösenden Foto und einem optimierten Bild: Die wesentliche Information bleibt erhalten, aber die Dateigröße schrumpft erheblich.
Die praktischen Auswirkungen dieser Optimierung:
- Deutlich weniger Speicherbedarf: Ein Modell, das vorher 10 GB Arbeitsspeicher brauchte, läuft jetzt mit etwa 2,5 GB. Das bedeutet, dass auch Laptops mit 8 GB RAM die größeren Modelle ausführen können.
- Zwei- bis viermal schneller: Die gleiche Transkription ist in einem Bruchteil der Zeit fertig. Bei meinem 15-minütigen TEDx-Talk bedeutete das: 90 statt 168 Sekunden für das large-Modell.
- Identische Qualität: Die Genauigkeit der Transkription bleibt praktisch gleich. In meinen Tests konnte ich keinen messbaren Unterschied in der Textqualität feststellen.
Vergleich am Beispiel meines TEDx-Talks
Um die Unterschiede greifbar zu machen, habe ich beide Varianten mit demselben Video getestet, meinem 15-minütigen TEDx-Talk auf Deutsch:
| Variante | Modell | Verarbeitungszeit | Speicherbedarf |
|---|---|---|---|
| Original Whisper | large | 168 Sekunden | ca. 10 GB |
| Faster-Whisper | large-v3 | 90 Sekunden | ca. 3 GB |
| Faster-Whisper | large-v3-turbo | 38 Sekunden | ca. 3 GB |
Das large-v3-turbo-Modell von Faster-Whisper ist also mehr als viermal so schnell wie das Original, bei einem Drittel des Speicherbedarfs. Das macht einen erheblichen Unterschied, besonders wenn Du viele Aufnahmen verarbeiten möchtest.
Installation
Faster-Whisper installierst Du mit einem einzigen Befehl über den Python-Paketmanager pip:
pip install faster-whisper
Danach kannst Du es genauso verwenden wie das Original-Whisper, nur mit den genannten Vorteilen bei Geschwindigkeit und Speicherverbrauch.