(Geheimes) Meeting gehabt?

Sodele, Meeting ist rum: Wer schreibt das Protokoll?

Du kommst aus einem wichtigen Meeting, einer Videokonferenz oder einem Workshop. Eine Stunde intensive Diskussion, viele gute Ideen, wichtige Entscheidungen. Und jetzt sollte jemand das Ganze zusammenfassen.

Du hast eine Videoaufnahmeeine Audioaufnahme auf Deinem Rechner. Vielleicht von Zoom, Teams oder einer anderen Software. Der Inhalt ist da, aber als VideoAudiodatei, nicht als Text.

Manuell abtippen? Bei einer Stunde Aufnahme sitzt Du locker drei bis vier Stunden an der Tastatur. Das ist nicht nur zeitaufwändig, sondern auch unglaublich ermüdend.

Es geht auch einfacher

Es gibt Programme, die gesprochene Sprache in Text umwandeln können. Das Besondere an der Lösung, die ich Dir hier zeige: Sie läuft komplett auf Deinem eigenen Rechner. Keine Cloud, keine monatlichen Kosten, keine Sorgen um Datenschutz.

Das Programm heißt Whisper und ist kostenlos, quelloffen und funktioniert offline. Du lädst es einmal herunter, und danach kannst Du beliebig viele VideosAudioaufnahmen transkribieren.

Das Ergebnis ist eine Textdatei mit dem kompletten Inhalt Deiner Aufnahme. Inklusive Zeitmarken, sodass Du jede Stelle im Videoin der Aufnahme wiederfinden kannst.

Was Du am Ende bekommst

Nach der Verarbeitung hast Du eine strukturierte Datei im JSON-Format. Das klingt technisch, ist aber einfach eine Textdatei, die so aufgebaut ist, dass Computer sie gut lesen können. Darin findest Du:

So sieht das Ergebnis aus:

ausgabe.json
{
  "text": "Der vollständige transkribierte Text...",
  "segments": [
    {
      "start": 0.0,
      "end": 4.5,
      "text": "Willkommen zum heutigen Seminar."
    },
    {
      "start": 4.5,
      "end": 9.2,
      "text": "Heute sprechen wir über künstliche Intelligenz."
    }
  ]
}

Die Zeitangaben sind in Sekunden. Wenn da 127.5 steht, bedeutet das: 2 Minuten und 7,5 Sekunden nach Beginn der Aufnahme.

Was Du brauchst

Die Anforderungen sind überschaubar:

Optional, aber sehr empfehlenswert:

Falls Du keine Grafikkarte hast: Kein Problem. Es dauert dann einfach länger, aber das Ergebnis ist genauso gut.

So funktioniert die Umwandlung

Bevor ich in die Praxis einsteige, erkläre ich Dir kurz, was im Hintergrund passiert. Das hilft Dir zu verstehen, warum bestimmte Schritte nötig sind und was Du tun kannst, wenn mal etwas nicht klappt.

Die Umwandlung von VideoAudio zu Text läuft in zwei Schritteneinem Schritt ab:

Der Ablauf
Deine Datei (video.mp4)
       │
       ▼
┌─────────────┐
│   ffmpeg    │  Schritt 1: Audio extrahieren
└─────────────┘
       │
       ▼
  audio.wav (16 kHz, Mono)
       │
       ▼
┌─────────────┐
│   Whisper   │  Schritt 2: Sprache erkennen
└─────────────┘
       │
       ▼
  ausgabe.json (Text + Zeitmarken)
Deine Datei (aufnahme.mp3)
       │
       ▼
┌─────────────┐
│   Whisper   │  Sprache erkennen
└─────────────┘
       │
       ▼
  ausgabe.json (Text + Zeitmarken)

Schritt 1: Die Tonspur aus dem Video holen

Ein Video besteht aus zwei Teilen: dem Bild und dem Ton. Für die Texterkennung interessiert uns nur der Ton, das Bild können wir ignorieren.

Das Werkzeug dafür heißt ffmpeg. Es ist ein Schweizer Taschenmesser für alles, was mit Video und Audio zu tun hat. ffmpeg kann praktisch jedes Format lesen und umwandeln.

Ich sage ffmpeg: Nimm das Video, wirf das Bild weg, und speichere nur den Ton. Dabei wandeln wir das Audio gleich in ein Format um, das Whisper besonders gut verarbeiten kann:

  • 16.000 Hz Abtastrate: Whisper wurde mit dieser Frequenz trainiert und arbeitet damit am besten
  • Mono statt Stereo: Für Sprache reicht ein Kanal völlig aus
  • WAV-Format: Unkomprimiert, damit keine Qualität verloren geht

Der Befehl dafür sieht so aus:

Terminal
ffmpeg -i video.mp4 -vn -ar 16000 -ac 1 audio.wav

Was bedeuten diese Buchstaben und Zahlen?

  • -i video.mp4 ist die Eingabedatei (Dein Video)
  • -vn steht für "video no", also das Bild weglassen
  • -ar 16000 steht für "audio rate", also Abtastrate auf 16.000 Hz setzen
  • -ac 1 steht für "audio channels", also nur ein Kanal (Mono)
  • audio.wav ist die Ausgabedatei

Das dauert je nach Videolänge ein paar Sekunden bis wenige Minuten. Danach hast Du eine WAV-Datei mit dem Ton.

Schritt 2: Sprache in Text umwandeln

Whisper ist ein sogenanntes neuronales Netz, eine Software, die Muster erkennen kann. Es wurde mit 680.000 Stunden Audiomaterial in 97 Sprachen trainiert. Das Modell hat dabei gelernt, wie gesprochene Sprache klingt und wie sie geschrieben wird.

Wenn Du Whisper eine AudiodateiAufnahme gibst, macht es mehrere Dinge gleichzeitig:

Am Ende bekommst Du eine strukturierte Datei mit dem vollständigen Text und Zeitmarken für jeden Abschnitt.

Warum dieser Umweg über ffmpeg?

Whisper kann keine Videodateien direkt verarbeiten, es versteht nur Audio. Deshalb der Zwischenschritt mit ffmpeg.

Außerdem spart die Umwandlung in 16 kHz Mono Rechenzeit. Ein Stereo-Audio mit 48 kHz enthält sechsmal so viele Daten, bringt aber keine bessere Texterkennung. Sprache braucht keine hohen Frequenzen und keinen Raumklang.

Wie Whisper funktioniert

Bevor Du Whisper einsetzt, hilft es zu verstehen, was dieses Programm eigentlich macht. Keine Sorge, Du musst kein Informatiker sein. Ich erkläre es so, dass Du die wichtigsten Zusammenhänge verstehst.

Whisper ist ein quelloffenes Spracherkennungsprogramm, das im September 2022 veröffentlicht wurde und seitdem kostenlos verfügbar ist. Das Besondere: Es läuft komplett auf Deinem eigenen Rechner, ohne Internetverbindung.

Was passiert, wenn Whisper zuhört?

Stell Dir vor, Du hörst jemandem zu und schreibst mit. Dein Gehirn macht dabei erstaunlich viele Dinge gleichzeitig: Es erkennt einzelne Laute, setzt sie zu Wörtern zusammen, versteht den Zusammenhang, korrigiert Verhörer aus dem Kontext und setzt Satzzeichen.

Whisper macht im Prinzip dasselbe, nur mit Mathematik statt Neuronen. Der Prozess läuft in drei Schritten:

Schritt 1: Audio wird zum Bild
Whisper wandelt die Tonspur in ein sogenanntes Spektrogramm um. Das ist eine Art Wärmebild des Klangs: Die X-Achse zeigt die Zeit, die Y-Achse die Tonhöhe, und die Helligkeit zeigt die Lautstärke. Aus dem hörbaren Signal wird ein sichtbares Muster.

Schritt 2: Muster werden erkannt
Ein speziell trainiertes Netzwerk, der sogenannte Encoder, analysiert dieses Bild. Es hat während des Trainings gelernt, welche Muster zu welchen Lauten gehören. Aber es erkennt nicht nur einzelne Laute, sondern versteht auch den Zusammenhang. Deshalb kann es unterscheiden, ob jemand "Rat" oder "Rad" sagt: Aus dem Kontext wird klar, was gemeint ist.

Schritt 3: Text wird geschrieben
Der Decoder, der zweite Teil des Netzwerks, schreibt nun Wort für Wort den Text. Dabei berücksichtigt er, was er schon geschrieben hat. Wenn der bisherige Satz "Morgen treffen wir uns um" lautet, ist "zehn Uhr" wahrscheinlicher als "Zähne Uhr".

Die verschiedenen Modellgrößen

Whisper gibt es in verschiedenen Größen, von winzig bis riesig. Die Größe bestimmt, wie viele "Neuronen" das Modell hat und damit, wie gut es arbeitet. Größere Modelle verstehen mehr Nuancen und machen weniger Fehler, brauchen aber auch mehr Rechenleistung.

ModellParameterSpeicherbedarfWann sinnvoll
tiny39 Millionenca. 1 GBZum schnellen Testen, ob alles funktioniert
base74 Millionenca. 1 GBEinfache Aufnahmen mit klarer Sprache
small244 Millionenca. 2 GBSchnelle Ergebnisse, wenn Qualität zweitrangig
medium769 Millionenca. 5 GBDie beste Wahl für deutschsprachige Meetings
large1,5 Milliardenca. 10 GBWenn es wirklich genau sein muss

Mein Benchmark hat gezeigt: Das medium-Modell mit initial_prompt liefert die besten Ergebnisse für deutschsprachige Aufnahmen. Es schlägt sogar das große large-Modell, wenn man ihm vorher die relevanten Fachbegriffe mitgibt.

Grafikkarte oder nicht?

Whisper kann sowohl auf der Grafikkarte (GPU) als auch auf dem Prozessor (CPU) laufen. Der Unterschied ist dramatisch:

HardwareZeit für 1 Stunde Audio (Modell: medium)
Nur CPU (moderner Intel i7)etwa 45 Minuten
NVIDIA RTX 3060etwa 5 Minuten
NVIDIA RTX 4000 (Server)etwa 3 Minuten

Whisper erkennt automatisch, ob eine kompatible NVIDIA-Grafikkarte vorhanden ist, und nutzt sie. Du musst nichts extra konfigurieren.

Falls Du keine Grafikkarte hast: Das ist kein Problem. Die Verarbeitung dauert länger, aber das Ergebnis ist identisch. Starte die Transkription einfach und mach in der Zwischenzeit etwas anderes.

Wenn etwas nicht stimmt

Viele Fehler im Text?
Meistens liegt es an der Audioqualität. Wenn Du selbst Mühe hast, alles zu verstehen, hat Whisper es auch schwer. Und noch wichtiger: Nutze den initial_prompt mit den relevanten Fachbegriffen.

Fachbegriffe werden falsch geschrieben?
Whisper kennt nicht jedes Spezialvokabular. Medizinische Fachbegriffe, Produktnamen oder Abkürzungen werden oft falsch geraten. Hier hilft der initial_prompt, den ich im nächsten Abschnitt erkläre.

Das Modell erfindet Text?
Bei langen Pausen oder Hintergrundmusik kann Whisper manchmal Text "halluzinieren": Es erfindet Sätze, die nie gesagt wurden. Das passiert vor allem bei den kleineren Modellen. Lösung: Schneide solche Passagen vorher aus dem Audio heraus, oder verwende das medium-Modell mit initial_prompt.

Faster-Whisper: Schneller, sparsamer, besser

Das Original-Whisper funktioniert gut, aber es gibt eine bessere Alternative. Faster-Whisper ist eine optimierte Neuimplementierung des Modells, die auf einer Bibliothek namens CTranslate2 basiert. Das Ergebnis ist beeindruckend: Du bekommst die gleiche Qualität bei deutlich geringerem Ressourcenverbrauch.

Was macht Faster-Whisper anders?

Faster-Whisper nutzt eine Technik namens int8-Quantisierung. Das klingt technisch, hat aber einen einfachen Hintergrund: Statt mit sehr genauen 32-Bit-Zahlen zu rechnen, verwendet das Modell kompaktere 8-Bit-Zahlen. Das ist wie der Unterschied zwischen einem hochauflösenden Foto und einem optimierten Bild: Die wesentliche Information bleibt erhalten, aber die Dateigröße schrumpft erheblich.

Die praktischen Auswirkungen dieser Optimierung:

Vergleich am Beispiel meines TEDx-Talks

Um die Unterschiede greifbar zu machen, habe ich beide Varianten mit demselben Video getestet, meinem 15-minütigen TEDx-Talk auf Deutsch:

VarianteModellVerarbeitungszeitSpeicherbedarf
Original Whisperlarge168 Sekundenca. 10 GB
Faster-Whisperlarge-v390 Sekundenca. 3 GB
Faster-Whisperlarge-v3-turbo38 Sekundenca. 3 GB

Das large-v3-turbo-Modell von Faster-Whisper ist also mehr als viermal so schnell wie das Original, bei einem Drittel des Speicherbedarfs. Das macht einen erheblichen Unterschied, besonders wenn Du viele Aufnahmen verarbeiten möchtest.

Installation

Faster-Whisper installierst Du mit einem einzigen Befehl über den Python-Paketmanager pip:

Terminal
pip install faster-whisper

Danach kannst Du es genauso verwenden wie das Original-Whisper, nur mit den genannten Vorteilen bei Geschwindigkeit und Speicherverbrauch.

Der Kontext-Trick: initial_prompt

Das Geheimnis für deutlich bessere Transkriptionen liegt in einem Parameter, den die meisten übersehen: initial_prompt. Damit gibst Du Whisper Kontext, also Hintergrundinformationen über den Inhalt Deiner Aufnahme. Die Qualität springt dadurch von "kaum brauchbar" auf "professionell".

Das Problem ohne Kontext

Whisper kennt weder Dein Unternehmen noch Deine Fachbegriffe. Wenn jemand im Meeting "karlsCORE" sagt, hört Whisper vielleicht "Carls Core" oder "Karl Score". Bei "KI-Gemeinschaft" wird es zu "KI Gemeinschaft" oder "Kiegemeinschaft". Das Modell rät einfach, weil es diese Wörter nicht kennt.

In meinem Benchmark mit meinem TEDx-Talk habe ich gemessen, wie stark sich der initial_prompt auf die Qualität auswirkt:

ModellOhne initial_promptMit initial_prompt
base3,0 / 10nicht getestet
medium6,7 / 108,7 / 10
large4,3 / 107,7 / 10

Das Ergebnis hat mich überrascht: Das medium-Modell mit initial_prompt schlägt das große large-Modell ohne Kontext und braucht dabei nur die Hälfte der Rechenzeit. Der Kontext ist wichtiger als die Modellgröße.

Was gehört in den initial_prompt?

Im Prinzip alles, was Whisper helfen könnte, unbekannte Begriffe richtig zu erkennen. Ich empfehle, vor der Transkription kurz zu überlegen, welche speziellen Wörter in der Aufnahme vorkommen:

So verwendest Du initial_prompt

Python
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cuda", compute_type="float16")

initial_prompt = """
Dieses Meeting behandelt karlsCORE und die KI-Gemeinschaft.
Teilnehmer: Karl Kratz, Anna Schmidt.
Themen: Claude, Whisper, Transkription.
"""

segments, info = model.transcribe(
    "meeting.mp4",
    language="de",
    initial_prompt=initial_prompt
)

for segment in segments:
    print(segment.text)

Der Prompt muss nicht perfekt formuliert sein, es ist keine Anweisung an Whisper, sondern eher eine "Vokabelliste". Du kannst einfach alle relevanten Begriffe aufschreiben, die in der Aufnahme vorkommen könnten. Whisper nutzt diese Information, um bei mehrdeutigen Klängen die richtige Schreibweise zu wählen.

Benchmark: Welches Modell für welche Qualität?

Theorie ist gut, Zahlen sind besser. Ich habe alle Whisper-Modelle mit meinem TEDx-Talk getestet, einem 15-minütigen deutschsprachigen Vortrag mit normaler Audioqualität. So konnte ich unter realistischen Bedingungen messen, wie sich die verschiedenen Modelle schlagen.

Testaufbau

Ergebnisse: Standard Whisper ohne Kontext

Zunächst habe ich das Original-Whisper getestet, ohne dem Modell vorher Kontext über den Inhalt zu geben. Die Ergebnisse haben mich überrascht:

ModellGrößeVerarbeitungszeitErkannte WörterQualität
tiny39 MB12 Sekunden1.5473,3 / 10
base74 MB15 Sekunden1.6903,0 / 10
small244 MB28 Sekunden1.848-
medium769 MB52 Sekunden1.7956,7 / 10
large1,5 GB168 Sekunden1.8184,3 / 10

Die Überraschung: Das große large-Modell schnitt schlechter ab als das mittelgroße medium-Modell. Ohne Kontext rät Whisper bei Eigennamen und Fachbegriffen, und interessanterweise raten die größeren Modelle "kreativer" daneben, weil sie mehr Varianten kennen.

Ergebnisse: Faster-Whisper mit initial_prompt

Im zweiten Durchgang habe ich die optimierte Faster-Whisper-Variante verwendet und dem Modell über den initial_prompt mitgeteilt, welche Begriffe im Talk vorkommen. Der Unterschied war beeindruckend:

ModellVerarbeitungszeitErkannte WörterQualität
medium50 Sekunden1.8148,7 / 10
large-v3-turbo38 Sekunden1.8248,3 / 10
large-v390 Sekunden1.8107,7 / 10

Was ich daraus gelernt habe

Die Kombination macht den entscheidenden Unterschied. Drei Faktoren zusammen führen zu deutlich besseren Ergebnissen:

  1. Faster-Whisper statt Standard-Whisper: Die optimierte Variante nutzt eine effizientere Implementierung, die den Arbeitsspeicher schont und die Verarbeitung beschleunigt. Bei meinem Test war Faster-Whisper etwa doppelt so schnell wie das Original.
  2. initial_prompt mit relevantem Kontext: Indem ich Whisper vorher mitteile, welche Fachbegriffe und Namen im Audio vorkommen, kann das Modell diese korrekt zuordnen. Die Qualität springt dadurch von "kaum brauchbar" auf "professionell".
  3. Das medium-Modell als Sweetspot: Überraschenderweise liefert das mittelgroße Modell mit Kontext bessere Ergebnisse als das große Modell ohne Kontext. Und es braucht nur einen Bruchteil der Rechenzeit.

Mit dieser Kombination erreichst Du eine Transkriptionsqualität, die für Meeting-Protokolle mehr als ausreicht.

Welches Modell für Deinen Anwendungsfall?

Nach den Benchmarks kommt die praktische Frage: Welches Modell solltest Du für Deine Situation verwenden? Die Antwort hängt davon ab, was Dir wichtiger ist: schnelle Ergebnisse oder maximale Genauigkeit. Hier findest Du eine Entscheidungshilfe basierend auf meinen Erfahrungen.

Entscheidungshilfe nach Anwendungsfall

AnwendungsfallEmpfohlenes ModellBegründung
Schnelle Entwürfe
Wenn Du nur eine grobe Übersicht brauchst, die Du nicht weitergibst
tiny oder base Diese kleinen Modelle liefern in wenigen Sekunden ein Ergebnis. Die Qualität reicht zum Überfliegen, aber nicht für offizielle Dokumente.
Interne Protokolle
Team-Meetings, Workshops, Brainstormings
medium + initial_prompt Das ist der Sweetspot, den ich in meinen Tests gefunden habe. Mit 8,7 von 10 Punkten bei meinem TEDx-Talk bietet diese Kombination die beste Kosten-Nutzen-Relation.
Offizielle Dokumente
Kundenprotokolle, rechtlich relevante Aufzeichnungen
large-v3 + initial_prompt Hier brauchst Du maximale Genauigkeit. Das large-Modell erkennt auch feine Nuancen, aber plane Zeit für eine manuelle Prüfung ein.
Batch-Verarbeitung
Viele Dateien über Nacht verarbeiten
large-v3-turbo Dieses Modell ist schneller als das normale large-v3 und liefert fast die gleiche Qualität. Ideal, wenn Zeit wichtiger ist als das letzte Prozent Genauigkeit.

Meine Empfehlung für den Alltag

Für die meisten Anwendungsfälle empfehle ich: Faster-Whisper mit dem medium-Modell und einem gut vorbereiteten initial_prompt.

Diese Kombination bietet Dir:

Erst wenn Du regelmäßig mit schwierigen Aufnahmen arbeitest (starke Akzente, deutliche Hintergrundgeräusche oder mehrere Sprecher, die durcheinander reden), lohnt sich der Umstieg auf das large-v3-Modell. In meinen Tests hat das medium-Modell bei klaren Aufnahmen sogar besser abgeschnitten.

Bevor es losgeht: Alles da?

Bevor Du mit der eigentlichen Arbeit beginnst, prüfe ich mit Dir kurz, ob alle nötigen Programme installiert sind. Das dauert nur eine Minute und erspart Dir später Frust.

Python prüfen

Python ist die Programmiersprache, in der Whisper geschrieben ist. Öffne ein Terminal und gib folgenden Befehl ein:

Terminal
python3 --version

Du solltest eine Versionsnummer sehen, zum Beispiel "Python 3.11.2". Wichtig ist, dass die erste Zahl nach dem Punkt mindestens 10 ist, also Python 3.10 oder neuer.

Falls stattdessen "command not found" erscheint oder eine ältere Version angezeigt wird, musst Du Python zuerst installieren. Auf Ubuntu oder Debian geht das so:

Terminal
sudo apt update
sudo apt install python3 python3-pip python3-venv

ffmpeg prüfen

ffmpeg brauchst Du, um die Tonspur aus Deinem Video zu extrahieren. Prüfe, ob es installiert ist:

Terminal
ffmpeg -version

Du solltest mehrere Zeilen mit Versionsinformationen sehen. Falls nicht, installiere ffmpeg:

Terminal
sudo apt update
sudo apt install ffmpeg

Grafikkarte prüfen (optional)

Wenn Du eine NVIDIA-Grafikkarte hast, kann Whisper diese nutzen und wird deutlich schneller. Prüfe mit diesem Befehl, ob die Treiber korrekt installiert sind:

Terminal
nvidia-smi

Wenn eine Tabelle mit Informationen zu Deiner Grafikkarte erscheint, ist alles bereit. Falls eine Fehlermeldung kommt, hast Du entweder keine NVIDIA-Karte oder die Treiber sind nicht installiert. Das ist nicht schlimm: Whisper funktioniert auch ohne, nur langsamer.

Whisper installieren

Jetzt richten wir einen eigenen Arbeitsbereich für das Projekt ein. Das ist eine gute Praxis: Alle Programme und Bibliotheken bleiben in einem Ordner und kommen dem Rest Deines Systems nicht in die Quere.

Erstelle einen neuen Ordner und wechsle hinein:

Terminal
mkdir ~/video2text
cd ~/video2text

Jetzt erstellen wir eine sogenannte "virtuelle Umgebung". Das ist ein abgeschotteter Bereich, in dem Du Python-Pakete installieren kannst, ohne das Hauptsystem zu verändern:

Terminal
python3 -m venv venv
source venv/bin/activate

Du erkennst, dass die virtuelle Umgebung aktiv ist, wenn vor Deinem Prompt "(venv)" steht. Jetzt installierst Du Whisper:

Terminal
pip install openai-whisper

Das dauert ein paar Minuten, weil einige Abhängigkeiten heruntergeladen werden. Beim ersten Aufruf von Whisper wird zusätzlich das Sprachmodell geladen. Das sind je nach Modellgröße zwischen 150 MB und mehreren Gigabyte.

Dein erstes Transkript erstellen

Jetzt wird es ernst. Angenommen, Du hast eine Datei mein-video.mp4mein-audio.mp3 in Deinem Ordner ~/aufnahmen/ liegen.

Schritt 1: Tonspur extrahieren

Zuerst holst Du den Ton aus dem Video:

Terminal
ffmpeg -i ~/aufnahmen/mein-video.mp4 -vn -ar 16000 -ac 1 ~/video2text/audio.wav

Das dauert normalerweise nur ein paar Sekunden. Danach findest Du die Datei audio.wav in Deinem video2text-Ordner.

Schritt 2: Text erkennen lassen

Text erkennen lassen

Jetzt kommt Whisper zum Einsatz. Stelle sicher, dass Du im richtigen Ordner bist und die virtuelle Umgebung aktiv ist:

Terminal
cd ~/video2text
source venv/bin/activate

Dann starte die Transkription:

Terminal
whisper audio.wav --model medium --language de --output_format jsonwhisper ~/aufnahmen/mein-audio.mp3 --model medium --language de --output_format json

Whisper zeigt Dir den Fortschritt an. Wie lange es dauert, hängt von der Länge der Aufnahme und Deiner Hardware ab:

Du kannst während der Verarbeitung andere Dinge am Computer erledigen. Das stört Whisper nicht.

Das Ergebnis ansehen

Nach der Verarbeitung findest Du eine neue Datei: audio.jsonmein-audio.json. Öffne sie, um das Ergebnis zu sehen:

Terminal
cat audio.jsoncat mein-audio.json

Du siehst den vollständigen Text und alle einzelnen Segmente mit ihren Zeitmarken.

Das richtige Modell wählen

Mit dem Parameter --model bestimmst Du, welches Sprachmodell Whisper verwendet. Basierend auf meinen Benchmarks empfehle ich:

ModellAnwendungsfallBefehl
tinyNur zum schnellen Testen--model tiny
mediumBeste Wahl für deutschsprachige Meetings--model medium
largeSchwierige Aufnahmen, maximale Genauigkeit--model large

Das medium-Modell hat in meinem Benchmark die besten Ergebnisse für deutschsprachige Aufnahmen geliefert, besonders in Kombination mit dem initial_prompt.

Praktische Tipps

Immer die Sprache angeben: Der Parameter --language de sagt Whisper, dass die Aufnahme auf Deutsch ist. Ohne diese Angabe versucht Whisper, die Sprache selbst zu erkennen. Das funktioniert meist, kostet aber Zeit und kann bei gemischten Inhalten zu Problemen führen.

Auf die Audioqualität achten: Whisper kann nur verstehen, was auch ein Mensch verstehen würde. Wenn Du bei einer Aufnahme selbst Mühe hast, einzelne Wörter zu erkennen, wird Whisper ebenfalls Probleme haben. In solchen Fällen nutze unbedingt den initial_prompt mit den relevanten Fachbegriffen.

Nach der Arbeit aufräumen

Die WAV-Datei war nur ein Zwischenschritt. Wenn Du das Transkript hast, kannst Du sie löschen, um Speicherplatz zu sparen:

Terminal
rm audio.wav

Die JSON-Datei mit dem Transkript solltest Du natürlich behalten: Sie enthält das Ergebnis Deiner Arbeit.

Aus dem Transkript wird ein Protokoll

Whisper liefert Dir den kompletten Text aus Deinem Meeting. Aber wenn Du ehrlich bist: Ein Transkript ist noch lange kein brauchbares Protokoll. Da steht jedes "Ähm", jeder Satzabbruch, jede Wiederholung. Das Wichtige geht im Wortschwall unter.

Was Du eigentlich brauchst: Eine Zusammenfassung. Wer war dabei? Was wurde besprochen? Welche Entscheidungen wurden getroffen? Was sind die nächsten Schritte?

Die gute Nachricht: Ein lokales Sprachmodell kann Dir diese Arbeit abnehmen. Es liest das Transkript und erstellt daraus ein strukturiertes Protokoll. Und das Beste: Alles passiert auf Deinem eigenen Rechner. Keine Cloud, keine Kosten, volle Kontrolle über Deine vertraulichen Daten.

Was ist Ollama?

Ollama ist ein kostenloses Programm, mit dem Du Sprachmodelle auf Deinem eigenen Computer ausführen kannst. Es läuft komplett lokal, alles bleibt auf Deinem Rechner und Du brauchst keine Internetverbindung.

Die Installation ist einfach. Öffne ein Terminal und führe diesen Befehl aus:

Terminal
curl -fsSL https://ollama.com/install.sh | sh

Der Befehl lädt das Installationsskript herunter und führt es aus. Nach ein paar Sekunden ist Ollama einsatzbereit.

Ein Sprachmodell herunterladen

Ollama selbst ist nur das Werkzeug. Du brauchst noch ein Sprachmodell, das ist die "Intelligenz", die den Text versteht und zusammenfasst.

Für den Anfang empfehle ich gemma3:4b-it-qat. Es versteht Deutsch gut und liefert ausgewogene Ergebnisse:

Terminal
ollama pull gemma3:4b-it-qat

Das Modell ist etwa 4 GB groß. Je nach Internetverbindung dauert der Download einige Minuten. Danach ist das Modell auf Deiner Festplatte und Du brauchst es nie wieder herunterzuladen.

Das Transkript vorbereiten

Whisper hat Dir eine JSON-Datei erzeugt. Darin steckt der Text, aber auch viele technische Informationen wie Zeitstempel. Für die Zusammenfassung brauchst Du nur den reinen Text.

Erstelle eine kleine Hilfsdatei namens extract.py mit folgendem Inhalt:

extract.py
import json, sys
with open(sys.argv[1]) as f:
    print(json.load(f)["text"])

Dieses kleine Programm öffnet die JSON-Datei und gibt nur den Text aus. Benutze es so:

Terminal
python3 extract.py audio.json > transkript.txt

Jetzt hast Du eine Datei transkript.txt mit dem reinen Text, ohne JSON-Formatierung.

Die Zusammenfassung erstellen

Jetzt kommt der spannende Teil: Du gibst dem Sprachmodell eine Aufgabe. Damit es weiß, was Du erwartest, formulierst Du einen sogenannten Prompt, eine Art Arbeitsanweisung.

Erstelle eine Datei prompt.txt mit folgender Anweisung:

prompt.txt
Erstelle aus folgendem Meeting-Transkript ein strukturiertes Protokoll auf Deutsch.

Gliedere das Protokoll in diese Abschnitte:

1) Teilnehmer: Wer hat am Meeting teilgenommen? (Falls aus dem Gespräch erkennbar)
2) Besprochene Themen: Was wurde diskutiert? Fasse jeden Punkt kurz zusammen.
3) Entscheidungen: Was wurde beschlossen oder vereinbart?
4) Offene Punkte: Was muss noch geklärt werden? Wer macht was bis wann?

Schreibe in klarem, professionellem Deutsch. Formatiere das Ergebnis als Markdown.

Hier ist das Transkript:

Mit diesem Prompt weiß das Modell genau, was es tun soll. Jetzt verbindest Du Prompt und Transkript und schickst beides an das Modell:

Terminal
cat prompt.txt transkript.txt | ollama run gemma3:4b-it-qat > protokoll.md

Der Befehl cat fügt beide Dateien zusammen. Das Ergebnis wird an ollama run weitergeleitet, und die Ausgabe landet in protokoll.md.

Wichtig: Der Befehl cat ist hier nur deshalb "mit der Hand am Arm", damit Du es einmal selbst gemacht hast und verstehst, was passiert. In der späteren Pipeline für Video- und Audio-Aufnahmen aus der Firma läuft das dann natürlich alles vollautomatisch!

Je nach Länge des Meetings und Leistung Deines Rechners dauert das zwischen 30 Sekunden und einigen Minuten. Wenn Du eine NVIDIA-Grafikkarte hast, geht es deutlich schneller.

Was Du beachten solltest

Lange Meetings aufteilen: Sprachmodelle haben ein Limit, wie viel Text sie auf einmal verarbeiten können. Bei Meetings über zwei Stunden kann es passieren, dass der Text zu lang wird. In dem Fall teile das Transkript in Abschnitte auf und erstelle für jeden eine separate Zusammenfassung.

Das Ergebnis prüfen: Sprachmodelle sind beeindruckend, aber nicht perfekt. Sie können Dinge falsch verstehen, Namen verwechseln oder Details übersehen. Besonders bei wichtigen Protokollen solltest Du das Ergebnis gegenlesen und mit dem Original vergleichen. Betrachte die automatische Zusammenfassung als ersten Entwurf, nicht als fertiges Dokument.

Deine Daten bleiben bei Dir: Anders als bei Cloud-Diensten verlässt bei dieser Lösung kein einziges Wort Deinen Rechner. Das Sprachmodell läuft komplett lokal. Du brauchst nicht einmal eine Internetverbindung, nachdem das Modell einmal heruntergeladen ist. Für vertrauliche Meetings, etwa mit Geschäftspartnern, Kunden oder im medizinischen Bereich, ist das ein entscheidender Vorteil.

Welches LLM für die Zusammenfassung?

Whisper liefert Dir den Text. Aber für ein brauchbares Protokoll brauchst Du eine KI, die den Text zusammenfasst und strukturiert. Ich habe vier lokale Ollama-Modelle mit dem TEDx-Talk-Transkript getestet, um herauszufinden, welches sich für welchen Einsatzzweck eignet.

Getestete Modelle

ModellGrößeZeitOutputCharakter
llama3.2:3b 2 GB 6 Sekunden 1.550 Zeichen Schnell, kompakt
gemma3:4b-it-qat 4 GB 18 Sekunden 4.200 Zeichen Gut strukturiert, ausgewogen
qwen2.5vl:7b 6 GB 20 Sekunden 2.700 Zeichen Kompakt, auf den Punkt
glm-4.7-flash 19 GB 64 Sekunden 10.500 Zeichen Detailliert, mit Reasoning

Was die Zahlen bedeuten

llama3.2:3b ist der Sprinter unter den Modellen: In nur 6 Sekunden hast Du ein Ergebnis. Der Output ist kompakt und fokussiert sich auf die Kernaussagen. Für einen schnellen Überblick ausreichend.

gemma3 und qwen2.5 sind die Allrounder: Sie liefern in 15 bis 20 Sekunden solide Protokolle mit guter Struktur. Die Zusammenfassungen enthalten die wesentlichen Punkte und sind gut lesbar.

glm-4.7-flash ist der Perfektionist: Das Modell denkt sichtbar nach, es zeigt einen sogenannten Thinking-Prozess, in dem es seine Überlegungen dokumentiert. Es analysiert den Text gründlich und produziert detaillierte Protokolle mit mehreren Abschnitten. Die 19 GB Speicherbedarf sind happig, aber das Ergebnis ist beeindruckend.

Beispiel-Output aus dem TEDx-Talk (gekürzt)

llama3.2:3b:

Zusammenfassung

Der Vortrag behandelt das Thema Perspektivenwechsel und Resonanzfähigkeit. Der Sprecher diskutiert, wie wichtig es ist, unterschiedliche Perspektiven zu berücksichtigen und zu akzeptieren, um erfolgreich kommunizieren zu können.

Kernkonzepte
• Resonanzfähigkeit: Die Fähigkeit, sich auf eine bestimmte Frequenz einzustimmen
• Perspektivenwechsel: Die Fähigkeit, unterschiedliche Perspektiven zu akzeptieren
• Ebenenmodell: Eine Methode zur Analyse aus verschiedenen Perspektiven

glm-4.7-flash:

1. Zusammenfassung
Der Vortragende erklärt, dass Resonanz das grundlegende Prinzip für das Verständnis zwischen verschiedenen Systemen ist. Um Resonanz zu erzeugen, ist der aktive Perspektivwechsel notwendig, um fremde Standpunkte wahrzunehmen und ambivalente Sichtweisen aushalten zu können. Als praktische Methode stellt er das Ebenenmodell vor, ein Werkzeug zur effizienten Abstraktion von Informationen aus verschiedenen Quellen.

2. Kernkonzepte
• Resonanz: Synchronisation von Systemen, die auf ähnlichen Frequenzen schwingen
• Perspektivwechsel: Die Fähigkeit, die eigene Wahrnehmung zu verändern
• Ambivalenz: Die Bereitschaft, unterschiedliche Wahrnehmungen zuzulassen
• Das Ebenenmodell: Strukturierte Sammlung von Informationen aus verschiedenen Blickwinkeln

3. Praktische Beispiele
• Das Weinglas: Beschallen mit Resonanzfrequenz als Metapher
• Das geometrische Objekt: Drei Personen sehen Kreis, Dreieck, Quadrat
• Vermarktung von Honig: Abstraktion von Kundenbewertungen ins Ebenenmodell

Meine Empfehlung

Grenzen und typische Fehler

So gut die Technik auch ist: Sie hat Grenzen. Wer diese kennt, kann besser damit umgehen und weiß, wann manuelle Nacharbeit nötig ist.

Das Eigennamen-Problem

Whisper wurde mit Millionen Stunden Audio trainiert, aber Deinen Firmennamen, Deine Kollegen oder Deine Produktbezeichnungen kennt es nicht. Ohne initial_prompt rät es:

Lösung: Immer einen initial_prompt mit allen relevanten Eigennamen mitgeben.

Halluzinationen

Bei schlechter Audioqualität oder langen Pausen erfindet Whisper manchmal Inhalte. Das passiert besonders bei:

Lösung: Bei kritischen Dokumenten das Transkript stichprobenartig gegen das Original prüfen.

Sprechererkennung fehlt

Whisper liefert einen Textblock, ohne Angabe, wer was gesagt hat. Bei Meetings mit mehreren Teilnehmern musst Du die Sprecherzuordnung manuell ergänzen oder ein zusätzliches Tool für Speaker Diarization einsetzen.

Zeitstempel-Genauigkeit

Whisper liefert Zeitstempel auf Segment-Ebene (typisch 5-30 Sekunden). Für wortgenaue Zeitstempel brauchst Du zusätzliche Nachbearbeitung mit Tools wie whisper-timestamped.

Checkliste vor der Weitergabe

Bevor Du ein automatisch erstelltes Protokoll weitergibst:

  1. Eigennamen und Fachbegriffe prüfen
  2. Zahlen und Datumsangaben verifizieren
  3. Bei wichtigen Entscheidungen: Original-Stelle nachhören
  4. Sprecherzuordnung ergänzen (falls relevant)

Mit dieser kurzen Prüfung stellst Du sicher, dass das Protokoll korrekt ist und sparst trotzdem 90% der manuellen Arbeit.

Der TEDx-Talk als Benchmark

Alle Benchmarks in diesem Artikel basieren auf meinem TEDx-Talk. Das ist ein 15-minütiger deutschsprachiger Vortrag mit normaler Vortragsqualität, also genau die Art von Aufnahme, die Du auch aus Deinen Meetings und Workshops kennst.

Ich habe diesen Talk bewusst als Testmaterial gewählt, weil er mehrere typische Herausforderungen enthält: Fachbegriffe wie "Resonanz" und "Ambivalenz", Eigennamen, Live-Experimente mit dem Publikum und stellenweise schnelleres Sprechen.

Video

Video-Details: 15:26 Min, 1080p mit adaptivem Streaming, deutsche Untertitel aus automatischer Transkription.

Falls Du die Transkription selbst nachvollziehen möchtest, kannst Du das Video herunterladen und mit den beschriebenen Werkzeugen verarbeiten. So kannst Du Deine eigenen Ergebnisse mit meinen Benchmarks vergleichen.