Video Audio Zu Text Benchmark Transkription

Benchmark: Welches Modell für welche Qualität?

Theorie ist gut, Zahlen sind besser. Ich habe alle Whisper-Modelle mit meinem TEDx-Talk getestet, einem 15-minütigen deutschsprachigen Vortrag mit normaler Audioqualität. So konnte ich unter realistischen Bedingungen messen, wie sich die verschiedenen Modelle schlagen.

Testaufbau

Ergebnisse: Standard Whisper ohne Kontext

Zunächst habe ich das Original-Whisper getestet, ohne dem Modell vorher Kontext über den Inhalt zu geben. Die Ergebnisse haben mich überrascht:

ModellGrößeVerarbeitungszeitErkannte WörterQualität
tiny39 MB12 Sekunden1.5473,3 / 10
base74 MB15 Sekunden1.6903,0 / 10
small244 MB28 Sekunden1.848-
medium769 MB52 Sekunden1.7956,7 / 10
large1,5 GB168 Sekunden1.8184,3 / 10

Die Überraschung: Das große large-Modell schnitt schlechter ab als das mittelgroße medium-Modell. Ohne Kontext rät Whisper bei Eigennamen und Fachbegriffen, und interessanterweise raten die größeren Modelle "kreativer" daneben, weil sie mehr Varianten kennen.

Ergebnisse: Faster-Whisper mit initial_prompt

Im zweiten Durchgang habe ich die optimierte Faster-Whisper-Variante verwendet und dem Modell über den initial_prompt mitgeteilt, welche Begriffe im Talk vorkommen. Der Unterschied war beeindruckend:

ModellVerarbeitungszeitErkannte WörterQualität
medium50 Sekunden1.8148,7 / 10
large-v3-turbo38 Sekunden1.8248,3 / 10
large-v390 Sekunden1.8107,7 / 10

Was ich daraus gelernt habe

Die Kombination macht den entscheidenden Unterschied. Drei Faktoren zusammen führen zu deutlich besseren Ergebnissen:

  1. Faster-Whisper statt Standard-Whisper: Die optimierte Variante nutzt eine effizientere Implementierung, die den Arbeitsspeicher schont und die Verarbeitung beschleunigt. Bei meinem Test war Faster-Whisper etwa doppelt so schnell wie das Original.
  2. initial_prompt mit relevantem Kontext: Indem ich Whisper vorher mitteile, welche Fachbegriffe und Namen im Audio vorkommen, kann das Modell diese korrekt zuordnen. Die Qualität springt dadurch von "kaum brauchbar" auf "professionell".
  3. Das medium-Modell als Sweetspot: Überraschenderweise liefert das mittelgroße Modell mit Kontext bessere Ergebnisse als das große Modell ohne Kontext. Und es braucht nur einen Bruchteil der Rechenzeit.

Mit dieser Kombination erreichst Du eine Transkriptionsqualität, die für Meeting-Protokolle mehr als ausreicht.