Self-Retrieval

Self-Retrieval (Selbst-Abruf) ist ein Testverfahren für Einbettungsmodelle. Die Idee ist einfach: Man nimmt die ersten 50 Wörter eines Dokuments als Suchanfrage und prüft, ob das Modell genau dieses Dokument als erstes Ergebnis zurückliefert.

Wenn ein Modell seinen eigenen Text nicht anhand einer Kurzfassung wiedererkennt, stimmt etwas Grundlegendes nicht. Deshalb ist Self-Retrieval ein Basistest: Die Ergebnisse sollten nahe 100% liegen. In meinem Benchmark erreichen alle Modelle mindestens 97,4%, German_Semantic_V3 sogar 100%.

Self-Retrieval allein reicht aber nicht aus, um die Qualität eines Modells zu beurteilen. Ein Modell kann seinen eigenen Text perfekt wiederfinden und trotzdem bei komplexeren Suchanfragen versagen.


Karl Kratz · 29.01.2026

Technologie Künstliche Intelligenz Embeddings