Qwen3 Embedding

Qwen3-Embedding ist eine Embedding-Modellfamilie von Alibaba Cloud, basierend auf einer Decoder-Architektur. Anders als die meisten Embedding-Modelle, die auf BERT-artigen Encodern aufbauen, nutzt Qwen3 eine Sprachmodell-Architektur zur Vektorerzeugung.

Die Familie umfasst mehrere Größen. Die kleinste Variante, Qwen3-Embedding-0.6B, wird im Embedding-Benchmark getestet. Sie erreicht mit 600 Millionen Parametern und einem Textfenster von 32.768 Tokens beeindruckende Ergebnisse.

Benchmark-Ergebnisse (0.6B)

Metrik	Wert
Self-Retrieval Accuracy	97,6%
Hard Negative Precision@1	63,3%
Tail-End Retrieval	56,8%
Paarweise Cosine-Similarity	0,351
Geschwindigkeit	14,0 Texte/s
VRAM-Bedarf	4,8 GB

Einordnung

Qwen3-Embedding zeigt eine sehr gute semantische Unterscheidungsfähigkeit (Cosine-Similarity 0,351 - zweitbester Wert nach jina-v3). Die Qualitätswerte bei Self-Retrieval und Hard Negatives sind solide, die Geschwindigkeit ist mit 14 Texten pro Sekunde allerdings unterdurchschnittlich.

Für Anwendungen, bei denen feine semantische Nuancen wichtiger sind als Geschwindigkeit, ist Qwen3-Embedding eine interessante Wahl - besonders weil es als einziges Decoder-basiertes Modell einen grundlegend anderen Ansatz zur Vektorerzeugung verfolgt.

Qwen3-Embedding - Alibaba Cloud