Zahlenvektoren
Man kann sich das so vorstellen: Um Texte mit einem Computer vergleichen zu können, muss man sie in Zahlen übersetzen. Ein Zahlenvektor ist eine geordnete Liste von Zahlen, die einen Text repräsentiert. Statt "Hund" steht dann zum Beispiel [0.23, -0.87, 0.45, ...] mit Hunderten oder Tausenden von Werten.
Jede Zahl in diesem Vektor steht für eine bestimmte Eigenschaft des Textes, die das Modell gelernt hat. Manche Dimensionen erfassen vielleicht den Themenbereich, andere den Schreibstil, wieder andere die emotionale Färbung. Die genaue Bedeutung der einzelnen Zahlen ist dabei nicht direkt lesbar, aber das Modell hat sie so angeordnet, dass ähnliche Texte ähnliche Zahlenlisten bekommen.
Je mehr Dimensionen ein Vektor hat, desto feiner kann das Modell Bedeutungsunterschiede erfassen. Die meisten modernen Einbettungsmodelle arbeiten mit 768 oder 1024 Dimensionen.