MTEB
MTEB steht für Massive Text Embedding Benchmark. Es ist die wichtigste öffentliche Bestenliste für Einbettungsmodelle und wird von der KI-Community als Standardreferenz verwendet. Auf MTEB werden Modelle auf Dutzenden von Aufgaben getestet: semantische Suche, Textklassifikation, Clustering, Paraphrasenerkennung und mehr.
Jedes Modell bekommt einen Durchschnittswert über alle Aufgaben. Dieser Wert macht Modelle vergleichbar, hat aber eine wichtige Einschränkung: MTEB testet mit standardisierten, überwiegend englischen Datensätzen. Wie gut ein Modell mit den eigenen deutschen Inhalten funktioniert, sagt der MTEB-Score allein nicht zuverlässig voraus.
Deshalb nutze ich den MTEB-Score in meinem Benchmark als Referenzwert, nicht als alleiniges Entscheidungskriterium. Die eigenen Tests mit echten Inhalten zeigen oft ein anderes Bild als die öffentliche Bestenliste. Ein Modell mit niedrigerem MTEB-Score kann bei deutschen Fachtexten besser abschneiden als der Erstplatzierte.