BGE-M3
bge-m3 ist ein mehrsprachiges Einbettungsmodell von BAAI (Beijing Academy of Artificial Intelligence). Das M3 steht für Multi-Linguality, Multi-Functionality und Multi-Granularity. Es unterstützt über 100 Sprachen und ein Textfenster von 8.192 Tokens.
Das Modell basiert auf XLM-RoBERTa-large mit 568 Millionen Parametern. Auf dem MTEB-Benchmark erreicht es mit 68,06 Punkten den höchsten Durchschnittswert aller sieben Modelle in meinem Vergleich.
In der Praxis überzeugt bge-m3 durch eine ausgewogene Kombination: 100% Hard Negative Precision, die beste Self-Retrieval-Accuracy (99,1%, gleichauf mit e5-instruct) und eine gute Tail-End Sensitivity. Bei der Geschwindigkeit liegt es mit 13,4 Chunks/s im Mittelfeld.