Video Audio Zu Text Faster Whisper

Faster-Whisper: Schneller, sparsamer, besser

Das Original-Whisper funktioniert gut, aber es gibt eine bessere Alternative. Faster-Whisper ist eine optimierte Neuimplementierung des Modells, die auf einer Bibliothek namens CTranslate2 basiert. Das Ergebnis ist beeindruckend: Du bekommst die gleiche Qualität bei deutlich geringerem Ressourcenverbrauch.

Was macht Faster-Whisper anders?

Faster-Whisper nutzt eine Technik namens int8-Quantisierung. Das klingt technisch, hat aber einen einfachen Hintergrund: Statt mit sehr genauen 32-Bit-Zahlen zu rechnen, verwendet das Modell kompaktere 8-Bit-Zahlen. Das ist wie der Unterschied zwischen einem hochauflösenden Foto und einem optimierten Bild: Die wesentliche Information bleibt erhalten, aber die Dateigröße schrumpft erheblich.

Die praktischen Auswirkungen dieser Optimierung:

Vergleich am Beispiel meines TEDx-Talks

Um die Unterschiede greifbar zu machen, habe ich beide Varianten mit demselben Video getestet, meinem 15-minütigen TEDx-Talk auf Deutsch:

VarianteModellVerarbeitungszeitSpeicherbedarf
Original Whisperlarge168 Sekundenca. 10 GB
Faster-Whisperlarge-v390 Sekundenca. 3 GB
Faster-Whisperlarge-v3-turbo38 Sekundenca. 3 GB

Das large-v3-turbo-Modell von Faster-Whisper ist also mehr als viermal so schnell wie das Original, bei einem Drittel des Speicherbedarfs. Das macht einen erheblichen Unterschied, besonders wenn Du viele Aufnahmen verarbeiten möchtest.

Installation

Faster-Whisper installierst Du mit einem einzigen Befehl über den Python-Paketmanager pip:

Terminal
pip install faster-whisper

Danach kannst Du es genauso verwenden wie das Original-Whisper, nur mit den genannten Vorteilen bei Geschwindigkeit und Speicherverbrauch.