German Semantic V3

German_Semantic_V3 ist ein ausschließlich für Deutsch trainiertes Einbettungsmodell von aari1995. Es basiert auf gbert-large, einer deutschen BERT-Variante, und hat mit rund 335 Millionen Parametern die wenigsten Parameter im Vergleich.

Die Besonderheit: Als einziges Modell im Benchmark erreicht es 100% Self-Retrieval Accuracy. Es erkennt jeden einzelnen Text anhand seiner Kurzfassung wieder. Außerdem liefert es nicht-normalisierte Vektoren (mittlere Norm 24,19 statt 1,0), was bei der Integration einen zusätzlichen Normalisierungsschritt erfordert.

Die Schwäche liegt im Ressourcenverbrauch: Trotz der geringen Parameterzahl benötigt es über 11 GB Grafikspeicher und ist mit 9,5 Chunks/s eines der langsamsten Modelle. Die Hard Negative Precision liegt bei 80%.


Karl Kratz · 29.01.2026

Technologie Künstliche Intelligenz Embeddings