XLM-RoBERTa

XLM-RoBERTa ist eine mehrsprachige Variante der BERT-Architektur, die mit Texten in über 100 Sprachen trainiert wurde. XLM steht für Cross-Lingual Model, RoBERTa für Robustly Optimized BERT Approach.

Der Vorteil: Ein einziges Modell versteht Texte in vielen Sprachen, ohne dass man für jede Sprache ein eigenes Modell braucht. Der Nachteil: Ein Modell, das 100 Sprachen können muss, ist bei keiner einzelnen Sprache so gut wie ein Spezialist.

In meinem Benchmark basieren vier der sieben Modelle auf XLM-RoBERTa: deepset-mxbai-embed-de-large-v1, jina-embeddings-v3, bge-m3 und multilingual-e5-large-instruct. Das zeigt, wie dominant diese Architektur im mehrsprachigen Embedding-Bereich ist.

Karl Kratz · 29.01.2026

Technologie Künstliche Intelligenz Embeddings