Tokens
Wenn ein Einbettungsmodell einen Text verarbeitet, zerlegt es ihn zunächst in kleine Einheiten. Diese Einheiten heißen Tokens. Ein Token ist nicht immer ein ganzes Wort: Häufige Wörter wie "und" oder "der" sind ein einzelner Token, aber längere oder seltenere Wörter werden in mehrere Teile zerlegt. Das deutsche Wort "Kontextverarbeitung" könnte zum Beispiel in drei oder vier Tokens aufgeteilt werden.
Warum ist das wichtig? Jedes Modell hat eine Obergrenze, wie viele Tokens es auf einmal verarbeiten kann. Bei vielen Modellen liegt diese Grenze bei 512 Tokens, was ungefähr einem halben DIN-A4-Blatt Text entspricht. Alles, was darüber hinausgeht, wird einfach abgeschnitten und ignoriert.
Für deutsche Texte ist das besonders relevant, weil die deutsche Sprache zu langen zusammengesetzten Wörtern neigt, die mehr Tokens verbrauchen als ihre englischen Entsprechungen. Ein deutsches Dokument wird also oft in mehr Tokens zerlegt als ein englisches mit gleichem Inhalt.