Multilingual E5 Large Instruct

multilingual-e5-large-instruct ist ein mehrsprachiges Einbettungsmodell von Microsoft (intfloat). Es basiert auf XLM-RoBERTa-large mit rund 560 Millionen Parametern und einem Textfenster von 514 Tokens.

Die Besonderheit: Es ist ein Instruct-Modell. Das bedeutet, man kann Suchanfragen mit einer natürlichsprachlichen Anweisung versehen, zum Beispiel "Retrieve relevant passages about prompt engineering". Das Modell versteht diese Anweisung und optimiert die Vektorberechnung entsprechend.

In meinem Benchmark erreicht e5-instruct 100% Hard Negative Precision und die höchste Self-Retrieval Accuracy (99,1%). Allerdings hat es die schlechteste Unterscheidungsfähigkeit aller Modelle: Die paarweise Cosine-Similarity liegt bei 0,854, was bedeutet, dass fast alle Texte für das Modell sehr ähnlich aussehen.


Karl Kratz · 29.01.2026

Technologie Künstliche Intelligenz Embeddings