Video Audio Zu Text Llm Auswahl

Welches LLM für die Zusammenfassung?

\n\n

Whisper liefert Dir den Text. Aber für ein brauchbares Protokoll brauchst Du eine KI, die den Text zusammenfasst und strukturiert. Ich habe vier lokale Ollama-Modelle mit dem TEDx-Talk-Transkript getestet, um herauszufinden, welches sich für welchen Einsatzzweck eignet.

\n\n

Getestete Modelle

\n\n

\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n

Modell	Größe	Zeit	Output	Charakter
llama3.2:3b	2 GB	6 Sekunden	1.550 Zeichen	Schnell, kompakt
gemma3:4b-it-qat	4 GB	18 Sekunden	4.200 Zeichen	Gut strukturiert, ausgewogen
qwen2.5vl:7b	6 GB	20 Sekunden	2.700 Zeichen	Kompakt, auf den Punkt
glm-4.7-flash	19 GB	64 Sekunden	10.500 Zeichen	Detailliert, mit Reasoning

\n\n\n

Was die Zahlen bedeuten

\n\n

llama3.2:3b ist der Sprinter unter den Modellen: In nur 6 Sekunden hast Du ein Ergebnis. Der Output ist kompakt und fokussiert sich auf die Kernaussagen. Für einen schnellen Überblick ausreichend.

\n\n

gemma3 und qwen2.5 sind die Allrounder: Sie liefern in 15 bis 20 Sekunden solide Protokolle mit guter Struktur. Die Zusammenfassungen enthalten die wesentlichen Punkte und sind gut lesbar.

\n\n

glm-4.7-flash ist der Perfektionist: Das Modell denkt sichtbar nach, es zeigt einen sogenannten Thinking-Prozess, in dem es seine Überlegungen dokumentiert. Es analysiert den Text gründlich und produziert detaillierte Protokolle mit mehreren Abschnitten. Die 19 GB Speicherbedarf sind happig, aber das Ergebnis ist beeindruckend.

\n\n

Beispiel-Output aus dem TEDx-Talk (gekürzt)

\n\n

llama3.2:3b:

\nZusammenfassung

\nDer Vortrag behandelt das Thema Perspektivenwechsel und Resonanzfähigkeit. Der Sprecher diskutiert, wie wichtig es ist, unterschiedliche Perspektiven zu berücksichtigen und zu akzeptieren, um erfolgreich kommunizieren zu können.

\nKernkonzepte
\n• Resonanzfähigkeit: Die Fähigkeit, sich auf eine bestimmte Frequenz einzustimmen
\n• Perspektivenwechsel: Die Fähigkeit, unterschiedliche Perspektiven zu akzeptieren
\n• Ebenenmodell: Eine Methode zur Analyse aus verschiedenen Perspektiven\n

\n\n

glm-4.7-flash:

\n1. Zusammenfassung
\nDer Vortragende erklärt, dass Resonanz das grundlegende Prinzip für das Verständnis zwischen verschiedenen Systemen ist. Um Resonanz zu erzeugen, ist der aktive Perspektivwechsel notwendig, um fremde Standpunkte wahrzunehmen und ambivalente Sichtweisen aushalten zu können. Als praktische Methode stellt er das Ebenenmodell vor, ein Werkzeug zur effizienten Abstraktion von Informationen aus verschiedenen Quellen.

\n2. Kernkonzepte
\n• Resonanz: Synchronisation von Systemen, die auf ähnlichen Frequenzen schwingen
\n• Perspektivwechsel: Die Fähigkeit, die eigene Wahrnehmung zu verändern
\n• Ambivalenz: Die Bereitschaft, unterschiedliche Wahrnehmungen zuzulassen
\n• Das Ebenenmodell: Strukturierte Sammlung von Informationen aus verschiedenen Blickwinkeln

\n3. Praktische Beispiele
\n• Das Weinglas: Beschallen mit Resonanzfrequenz als Metapher
\n• Das geometrische Objekt: Drei Personen sehen Kreis, Dreieck, Quadrat
\n• Vermarktung von Honig: Abstraktion von Kundenbewertungen ins Ebenenmodell\n

\n\n

Meine Empfehlung

\n\n

Für schnelle Überblicke: gemma3:4b-it-qat bietet eine gute Balance aus Geschwindigkeit und Qualität. Es ist mein Standard für alltägliche Protokolle.
Für wichtige Vorträge: glm-4.7-flash, wenn Du genug RAM hast und das bestmögliche Ergebnis willst. Die zusätzliche Minute Wartezeit lohnt sich bei komplexen Inhalten wie diesem TEDx-Talk.
Für Batch-Verarbeitung: llama3.2:3b, wenn Du viele Aufnahmen auf einmal verarbeiten willst und eine grobe Übersicht ausreicht.