Video Audio Zu Text Llm Auswahl

Welches LLM für die Zusammenfassung?

\n\n

Whisper liefert Dir den Text. Aber für ein brauchbares Protokoll brauchst Du eine KI, die den Text zusammenfasst und strukturiert. Ich habe vier lokale Ollama-Modelle mit dem TEDx-Talk-Transkript getestet, um herauszufinden, welches sich für welchen Einsatzzweck eignet.

\n\n

Getestete Modelle

\n\n
\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
ModellGrößeZeitOutputCharakter
llama3.2:3b2 GB6 Sekunden1.550 ZeichenSchnell, kompakt
gemma3:4b-it-qat4 GB18 Sekunden4.200 ZeichenGut strukturiert, ausgewogen
qwen2.5vl:7b6 GB20 Sekunden2.700 ZeichenKompakt, auf den Punkt
glm-4.7-flash19 GB64 Sekunden10.500 ZeichenDetailliert, mit Reasoning
\n
\n\n\n

Was die Zahlen bedeuten

\n\n

llama3.2:3b ist der Sprinter unter den Modellen: In nur 6 Sekunden hast Du ein Ergebnis. Der Output ist kompakt und fokussiert sich auf die Kernaussagen. Für einen schnellen Überblick ausreichend.

\n\n

gemma3 und qwen2.5 sind die Allrounder: Sie liefern in 15 bis 20 Sekunden solide Protokolle mit guter Struktur. Die Zusammenfassungen enthalten die wesentlichen Punkte und sind gut lesbar.

\n\n

glm-4.7-flash ist der Perfektionist: Das Modell denkt sichtbar nach, es zeigt einen sogenannten Thinking-Prozess, in dem es seine Überlegungen dokumentiert. Es analysiert den Text gründlich und produziert detaillierte Protokolle mit mehreren Abschnitten. Die 19 GB Speicherbedarf sind happig, aber das Ergebnis ist beeindruckend.

\n\n

Beispiel-Output aus dem TEDx-Talk (gekürzt)

\n\n

llama3.2:3b:

\n
\nZusammenfassung

\nDer Vortrag behandelt das Thema Perspektivenwechsel und Resonanzfähigkeit. Der Sprecher diskutiert, wie wichtig es ist, unterschiedliche Perspektiven zu berücksichtigen und zu akzeptieren, um erfolgreich kommunizieren zu können.

\nKernkonzepte
\n• Resonanzfähigkeit: Die Fähigkeit, sich auf eine bestimmte Frequenz einzustimmen
\n• Perspektivenwechsel: Die Fähigkeit, unterschiedliche Perspektiven zu akzeptieren
\n• Ebenenmodell: Eine Methode zur Analyse aus verschiedenen Perspektiven\n
\n\n

glm-4.7-flash:

\n
\n1. Zusammenfassung
\nDer Vortragende erklärt, dass Resonanz das grundlegende Prinzip für das Verständnis zwischen verschiedenen Systemen ist. Um Resonanz zu erzeugen, ist der aktive Perspektivwechsel notwendig, um fremde Standpunkte wahrzunehmen und ambivalente Sichtweisen aushalten zu können. Als praktische Methode stellt er das Ebenenmodell vor, ein Werkzeug zur effizienten Abstraktion von Informationen aus verschiedenen Quellen.

\n2. Kernkonzepte
\n• Resonanz: Synchronisation von Systemen, die auf ähnlichen Frequenzen schwingen
\n• Perspektivwechsel: Die Fähigkeit, die eigene Wahrnehmung zu verändern
\n• Ambivalenz: Die Bereitschaft, unterschiedliche Wahrnehmungen zuzulassen
\n• Das Ebenenmodell: Strukturierte Sammlung von Informationen aus verschiedenen Blickwinkeln

\n3. Praktische Beispiele
\n• Das Weinglas: Beschallen mit Resonanzfrequenz als Metapher
\n• Das geometrische Objekt: Drei Personen sehen Kreis, Dreieck, Quadrat
\n• Vermarktung von Honig: Abstraktion von Kundenbewertungen ins Ebenenmodell\n
\n\n

Meine Empfehlung

\n\n