Grenzen und typische Fehler

So gut die Technik auch ist: Sie hat Grenzen. Wer diese kennt, kann besser damit umgehen und weiß, wann manuelle Nacharbeit nötig ist.

Das Eigennamen-Problem

Whisper wurde mit Millionen Stunden Audio trainiert, aber Deinen Firmennamen, Deine Kollegen oder Deine Produktbezeichnungen kennt es nicht. Ohne initial_prompt rät es:

"karlsCORE" → "Carls Core", "Karl Score", "Karls Kur"
"Domicilium" → "Domizilium", "Domisillium"
"KI-Gemeinschaft" → "Kiegemeinschaft", "KI Gemeinschaft"

Lösung: Immer einen initial_prompt mit allen relevanten Eigennamen mitgeben.

Halluzinationen

Bei schlechter Audioqualität oder langen Pausen erfindet Whisper manchmal Inhalte. Das passiert besonders bei:

Hintergrundmusik oder Hintergrundgeräusche
Sehr leisen Passagen
Überlappenden Sprechern
Starken Akzenten oder Dialekten

Lösung: Bei kritischen Dokumenten das Transkript stichprobenartig gegen das Original prüfen.

Sprechererkennung fehlt

Whisper liefert einen Textblock, ohne Angabe, wer was gesagt hat. Bei Meetings mit mehreren Teilnehmern musst Du die Sprecherzuordnung manuell ergänzen oder ein zusätzliches Tool für Speaker Diarization einsetzen.

Zeitstempel-Genauigkeit

Whisper liefert Zeitstempel auf Segment-Ebene (typisch 5-30 Sekunden). Für wortgenaue Zeitstempel brauchst Du zusätzliche Nachbearbeitung mit Tools wie whisper-timestamped.

Checkliste vor der Weitergabe

Bevor Du ein automatisch erstelltes Protokoll weitergibst:

Eigennamen und Fachbegriffe prüfen
Zahlen und Datumsangaben verifizieren
Bei wichtigen Entscheidungen: Original-Stelle nachhören
Sprecherzuordnung ergänzen (falls relevant)

Mit dieser kurzen Prüfung stellst Du sicher, dass das Protokoll korrekt ist und sparst trotzdem 90% der manuellen Arbeit.