Qwen3 Embedding
Qwen3-Embedding ist eine Embedding-Modellfamilie von Alibaba Cloud, basierend auf einer Decoder-Architektur. Anders als die meisten Embedding-Modelle, die auf BERT-artigen Encodern aufbauen, nutzt Qwen3 eine Sprachmodell-Architektur zur Vektorerzeugung.
Die Familie umfasst mehrere Größen. Die kleinste Variante, Qwen3-Embedding-0.6B, wird im Embedding-Benchmark getestet. Sie erreicht mit 600 Millionen Parametern und einem Textfenster von 32.768 Tokens beeindruckende Ergebnisse.
Benchmark-Ergebnisse (0.6B)
| Metrik | Wert |
|---|---|
| Self-Retrieval Accuracy | 97,6% |
| Hard Negative Precision@1 | 63,3% |
| Tail-End Retrieval | 56,8% |
| Paarweise Cosine-Similarity | 0,351 |
| Geschwindigkeit | 14,0 Texte/s |
| VRAM-Bedarf | 4,8 GB |
Einordnung
Qwen3-Embedding zeigt eine sehr gute semantische Unterscheidungsfähigkeit (Cosine-Similarity 0,351 - zweitbester Wert nach jina-v3). Die Qualitätswerte bei Self-Retrieval und Hard Negatives sind solide, die Geschwindigkeit ist mit 14 Texten pro Sekunde allerdings unterdurchschnittlich.
Für Anwendungen, bei denen feine semantische Nuancen wichtiger sind als Geschwindigkeit, ist Qwen3-Embedding eine interessante Wahl - besonders weil es als einziges Decoder-basiertes Modell einen grundlegend anderen Ansatz zur Vektorerzeugung verfolgt.