Video Audio Zu Text Benchmark Transkription

Benchmark: Welches Modell für welche Qualität?

Theorie ist gut, Zahlen sind besser. Ich habe alle Whisper-Modelle mit meinem TEDx-Talk getestet, einem 15-minütigen deutschsprachigen Vortrag mit normaler Audioqualität. So konnte ich unter realistischen Bedingungen messen, wie sich die verschiedenen Modelle schlagen.

Testaufbau

Testvideo: Mein TEDx-Talk, 15:23 Minuten
Hardware: Hetzner GEX 44 Server mit NVIDIA RTX 4000 (20 GB VRAM)
Bewertung: Manuelle Qualitätsprüfung auf einer Skala von 1 bis 10, wobei ich besonders auf die korrekte Wiedergabe von Fachbegriffen und Eigennamen geachtet habe

Ergebnisse: Standard Whisper ohne Kontext

Zunächst habe ich das Original-Whisper getestet, ohne dem Modell vorher Kontext über den Inhalt zu geben. Die Ergebnisse haben mich überrascht:

Modell	Größe	Verarbeitungszeit	Erkannte Wörter	Qualität
tiny	39 MB	12 Sekunden	1.547	3,3 / 10
base	74 MB	15 Sekunden	1.690	3,0 / 10
small	244 MB	28 Sekunden	1.848	-
medium	769 MB	52 Sekunden	1.795	6,7 / 10
large	1,5 GB	168 Sekunden	1.818	4,3 / 10

Die Überraschung: Das große large-Modell schnitt schlechter ab als das mittelgroße medium-Modell. Ohne Kontext rät Whisper bei Eigennamen und Fachbegriffen, und interessanterweise raten die größeren Modelle "kreativer" daneben, weil sie mehr Varianten kennen.

Ergebnisse: Faster-Whisper mit initial_prompt

Im zweiten Durchgang habe ich die optimierte Faster-Whisper-Variante verwendet und dem Modell über den initial_prompt mitgeteilt, welche Begriffe im Talk vorkommen. Der Unterschied war beeindruckend:

Modell	Verarbeitungszeit	Erkannte Wörter	Qualität
medium	50 Sekunden	1.814	8,7 / 10
large-v3-turbo	38 Sekunden	1.824	8,3 / 10
large-v3	90 Sekunden	1.810	7,7 / 10

Was ich daraus gelernt habe

Die Kombination macht den entscheidenden Unterschied. Drei Faktoren zusammen führen zu deutlich besseren Ergebnissen:

Faster-Whisper statt Standard-Whisper: Die optimierte Variante nutzt eine effizientere Implementierung, die den Arbeitsspeicher schont und die Verarbeitung beschleunigt. Bei meinem Test war Faster-Whisper etwa doppelt so schnell wie das Original.
initial_prompt mit relevantem Kontext: Indem ich Whisper vorher mitteile, welche Fachbegriffe und Namen im Audio vorkommen, kann das Modell diese korrekt zuordnen. Die Qualität springt dadurch von "kaum brauchbar" auf "professionell".
Das medium-Modell als Sweetspot: Überraschenderweise liefert das mittelgroße Modell mit Kontext bessere Ergebnisse als das große Modell ohne Kontext. Und es braucht nur einen Bruchteil der Rechenzeit.

Mit dieser Kombination erreichst Du eine Transkriptionsqualität, die für Meeting-Protokolle mehr als ausreicht.