Grenzen und typische Fehler
Grenzen und typische Fehler
So gut die Technik auch ist: Sie hat Grenzen. Wer diese kennt, kann besser damit umgehen und weiß, wann manuelle Nacharbeit nötig ist.
Das Eigennamen-Problem
Whisper wurde mit Millionen Stunden Audio trainiert, aber Deinen Firmennamen, Deine Kollegen oder Deine Produktbezeichnungen kennt es nicht. Ohne initial_prompt rät es:
- "karlsCORE" → "Carls Core", "Karl Score", "Karls Kur"
- "Domicilium" → "Domizilium", "Domisillium"
- "KI-Gemeinschaft" → "Kiegemeinschaft", "KI Gemeinschaft"
Lösung: Immer einen initial_prompt mit allen relevanten Eigennamen mitgeben.
Halluzinationen
Bei schlechter Audioqualität oder langen Pausen erfindet Whisper manchmal Inhalte. Das passiert besonders bei:
- Hintergrundmusik oder Hintergrundgeräusche
- Sehr leisen Passagen
- Überlappenden Sprechern
- Starken Akzenten oder Dialekten
Lösung: Bei kritischen Dokumenten das Transkript stichprobenartig gegen das Original prüfen.
Sprechererkennung fehlt
Whisper liefert einen Textblock, ohne Angabe, wer was gesagt hat. Bei Meetings mit mehreren Teilnehmern musst Du die Sprecherzuordnung manuell ergänzen oder ein zusätzliches Tool für Speaker Diarization einsetzen.
Zeitstempel-Genauigkeit
Whisper liefert Zeitstempel auf Segment-Ebene (typisch 5-30 Sekunden). Für wortgenaue Zeitstempel brauchst Du zusätzliche Nachbearbeitung mit Tools wie whisper-timestamped.
Checkliste vor der Weitergabe
Bevor Du ein automatisch erstelltes Protokoll weitergibst:
- Eigennamen und Fachbegriffe prüfen
- Zahlen und Datumsangaben verifizieren
- Bei wichtigen Entscheidungen: Original-Stelle nachhören
- Sprecherzuordnung ergänzen (falls relevant)
Mit dieser kurzen Prüfung stellst Du sicher, dass das Protokoll korrekt ist und sparst trotzdem 90% der manuellen Arbeit.