Vektor

Stell dir vor, du beschreibst einen Gegenstand mit einer Liste von Bewertungen: Farbe 7, Größe 3, Gewicht 5. Diese Liste ist ein Vektor. Im maschinellen Lernen beschreiben solche Zahlenlisten die Bedeutung von Wörtern, Sätzen oder ganzen Dokumenten.

Ein Vektor ist eine geordnete Folge von Zahlen. In der Mathematik repräsentiert er einen Punkt oder eine Richtung in einem mehrdimensionalen Raum. In der angewandten Informatik, insbesondere im maschinellen Lernen, dient er als numerisches Format, in dem Bedeutung gespeichert und verarbeitet wird. Ein Textabschnitt, ein Bild oder ein Audioclip: Jede dieser Eingaben lässt sich in einen Vektor übertragen. Dieser Vorgang heißt Embedding.

Von der Zahlenliste zur Bedeutungsdarstellung

Ein Vektor im mathematischen Sinn ist eine geordnete Liste reeller Zahlen. In zwei Dimensionen beschreibt er einen Punkt auf einer Fläche. In drei Dimensionen einen Punkt im Raum. Im maschinellen Lernen arbeiten Modelle mit Vektoren, die hunderte bis tausende Dimensionen besitzen. Jede Dimension kodiert einen Aspekt der ursprünglichen Eingabe.

Beispiel: Ein Embedding-Modell wandelt den Satz "Der Hund liegt auf der Wiese" in einen Vektor mit 768 Zahlen um. Diese 768 Werte repräsentieren gemeinsam die semantische Bedeutung des Satzes. Ein ähnlicher Satz wie "Ein Hund ruht im Gras" erzeugt einen Vektor, dessen Werte denen des ersten Vektors nahekommen.

Beispiel: Ein Produktkatalog enthält 10.000 Artikel mit Beschreibungstexten. Jeder Text wird in einen 384-dimensionalen Vektor umgewandelt. Die entstehende Sammlung von 10.000 Vektoren ermöglicht es, ähnliche Produkte über die Nähe ihrer Vektoren zu finden, ohne dass die Texte wörtlich übereinstimmen müssen.

Die Umwandlung in Vektoren geschieht durch neuronale Netze. Ein Transformer-Modell liest eine Eingabe und erzeugt als Ausgabe einen Vektor fester Länge. Die Gewichte des Modells bestimmen, welche Aspekte der Eingabe in welcher Dimension landen.

Abstand und Ähnlichkeit im Vektorraum

Der zentrale Nutzen von Vektoren liegt in der Messung von Ähnlichkeit. Zwei Vektoren, die im hochdimensionalen Raum nahe beieinander liegen, repräsentieren bedeutungsähnliche Inhalte. Die gebräuchlichste Metrik dafür ist die Kosinus-Ähnlichkeit: Sie misst den Winkel zwischen zwei Vektoren, unabhängig von deren Länge. Ein Wert von 1 bedeutet identische Ausrichtung, 0 bedeutet Orthogonalität (keine Ähnlichkeit).

Beispiel: Die Vektoren für "Rechnung" und "Invoice" haben eine hohe Kosinus-Ähnlichkeit, obwohl sie in verschiedenen Sprachen geschrieben sind. Das Modell hat gelernt, dass beide Begriffe denselben Sachverhalt beschreiben.

Beispiel: In einem Supportticket-System werden eingehende Anfragen als Vektoren dargestellt. Eine neue Anfrage "Mein Login funktioniert nicht" hat hohe Ähnlichkeit zu bestehenden Tickets mit "Anmeldung fehlgeschlagen" oder "Passwort wird nicht akzeptiert". Die Zuordnung erfolgt über Vektornähe, nicht über Stichwortsuche.

Neben der Kosinus-Ähnlichkeit existieren weitere Abstandsmaße: der euklidische Abstand misst die direkte Entfernung zwischen zwei Punkten, das Skalarprodukt (Dot Product) berücksichtigt zusätzlich die Vektorlänge. Welches Maß geeignet ist, hängt vom Anwendungsfall und vom verwendeten Modell ab.

Fachliche Einordnung: Die Wahl des Abstandsmaßes beeinflusst die Ergebnisqualität. Kosinus-Ähnlichkeit normalisiert implizit auf die Vektorlänge und eignet sich für Textvergleiche, bei denen die Richtung wichtiger ist als die Magnitude. Euklidischer Abstand reagiert auf absolute Unterschiede und wird häufig bei bereits normalisierten Vektoren eingesetzt.

Rechnen mit Bedeutung: Vektorarithmetik

Vektoren lassen sich addieren, subtrahieren und skalieren. Im Kontext von Wort-Embeddings führt das zu einer bemerkenswerten Eigenschaft: Bedeutungsbeziehungen spiegeln sich in arithmetischen Operationen wider.

Beispiel: Der Vektor für "König" minus der Vektor für "Mann" plus der Vektor für "Frau" ergibt einen Vektor, der dem für "Königin" am nächsten liegt. Die Operation extrahiert das Konzept "Geschlecht" und überträgt es.

Beispiel: "Berlin" minus "Deutschland" plus "Frankreich" ergibt einen Vektor nahe "Paris". Die Beziehung "Hauptstadt von" ist als Richtung im Vektorraum kodiert.

Diese Eigenschaft entsteht nicht durch explizite Programmierung, sondern durch das Training auf großen Textmengen. Das Modell lernt Regelmäßigkeiten in der Sprache und bildet sie als geometrische Strukturen im Vektorraum ab.

EingabeText, Bild, Audio

Embedding-ModellTransformer, CNN

Vektor[0.12, -0.87, 0.45, ...]

SpeicherungVektordatenbank

ÄhnlichkeitssucheCosine, Dot Product

Dimensionen und Informationsgehalt

Die Anzahl der Dimensionen eines Vektors bestimmt, wie viel Information er kodieren kann. Aktuelle Embedding-Modelle erzeugen Vektoren mit 256 bis 4096 Dimensionen. Höhere Dimensionalität erlaubt feinere Unterscheidungen, erfordert aber mehr Speicher und Rechenleistung.

Beispiel: OpenAIs text-embedding-3-large erzeugt Vektoren mit 3072 Dimensionen. Cohere Embed v3 nutzt 1024 Dimensionen. Beide Modelle erreichen auf Benchmark-Datensätzen hohe Ergebnisse, unterscheiden sich aber in Speicherbedarf und Latenz.

Beispiel: Ein Unternehmen speichert 50 Millionen Dokumentvektoren mit jeweils 1536 Dimensionen (float32). Das ergibt einen reinen Vektorspeicherbedarf von etwa 286 Gigabyte, zuzüglich Index-Strukturen für die Suche.

Die Dimensionen eines Vektors sind nicht einzeln interpretierbar. Im Gegensatz zu einer Tabelle, in der jede Spalte eine benannte Eigenschaft hat, entsteht die Bedeutung einer Dimension erst im Zusammenspiel mit allen anderen. Man spricht von verteilten Repräsentationen (distributed representations).

Vektordatenbanken und Ähnlichkeitssuche

Einzelne Vektoren zu vergleichen ist rechnerisch einfach. Bei Millionen oder Milliarden von Vektoren wird die vollständige Suche (Brute-Force) jedoch zu langsam. Spezialisierte Vektordatenbanken lösen dieses Problem mit approximativen Suchverfahren.

Die gebräuchlichsten Indexstrukturen sind HNSW (Hierarchical Navigable Small World), IVF (Inverted File Index) und Product Quantization. Sie alle tauschen exakte Ergebnisse gegen Geschwindigkeit: Statt jeden einzelnen Vektor zu prüfen, navigiert der Algorithmus durch eine vorberechnete Graphstruktur und findet so in Millisekunden die nächsten Nachbarn.

Beispiel: Eine RAG-Anwendung durchsucht 2 Millionen Textabschnitte (Chunks). Die Nutzerfrage wird in einen Vektor umgewandelt und per HNSW-Index gegen die gespeicherten Vektoren gesucht. Die Antwortzeit liegt unter 20 Millisekunden.

Beispiel: Ein Bilderkennungsdienst vergleicht hochgeladene Fotos gegen eine Datenbank mit 100 Millionen Bildvektoren. Durch IVF-Indexierung prüft das System nur einen Bruchteil der Vektoren und liefert trotzdem relevante Treffer.

Anwendungsfelder

Vektoren bilden die Grundlage vieler KI-Systeme. Die häufigsten Einsatzbereiche:

Semantische Suche. Statt nach exakten Stichworten zu suchen, vergleicht das System die Bedeutung von Suchanfrage und Dokumenten. Die Suchanfrage und alle Dokumente liegen als Vektoren vor. Die Ergebnisliste sortiert sich nach Vektorähnlichkeit.

Beispiel: Eine Suche nach "Fahrzeug mit Elektromotor" findet auch Dokumente, die nur "E-Auto" oder "batterieelektrisches Automobil" enthalten. Die Vektoren dieser Begriffe liegen im selben Bereich des Vektorraums.

Retrieval-Augmented Generation. Große Sprachmodelle erhalten durch Vektorsuche zusätzlichen Kontext. Bevor das Modell eine Antwort generiert, werden per Vektorähnlichkeit relevante Textpassagen aus einer Wissensbasis abgerufen.

Empfehlungssysteme. Nutzerverhalten und Produkteigenschaften werden als Vektoren repräsentiert. Die Empfehlung erfolgt über die Nähe des Nutzervektors zu Produktvektoren.

Anomalieerkennung. Normale Betriebszustände bilden Cluster im Vektorraum. Ein neuer Datenpunkt, dessen Vektor weit von allen Clustern entfernt liegt, wird als Anomalie erkannt.

Beispiel: Ein Sicherheitssystem überwacht Netzwerkverkehr. Jede Verbindung wird als Vektor mit Merkmalen wie Paketgröße, Zieladresse und Zeitverhalten kodiert. Vektoren, die außerhalb der normalen Cluster liegen, lösen einen Alarm aus.

Sparse- und Dense-Vektoren

Vektoren in der Informationsverarbeitung existieren in zwei grundsätzlichen Varianten: dünnbesetzt (sparse) und dichtbesetzt (dense).

Sparse-Vektoren haben viele Dimensionen, aber die meisten Werte sind 0. Das bekannteste Verfahren ist TF-IDF (Term Frequency-Inverse Document Frequency): Jede Dimension entspricht einem Wort im Vokabular, der Wert gibt an, wie wichtig dieses Wort für das Dokument ist. Bei einem Vokabular von 100.000 Wörtern hat der Vektor 100.000 Dimensionen, aber nur wenige dutzend davon sind ungleich Null.

Beispiel: Ein TF-IDF-Vektor für einen Artikel über maschinelles Lernen hat hohe Werte bei Dimensionen wie "Modell", "Training" und "Daten". Die Dimensionen für "Kochtopf" oder "Gartenarbeit" sind 0.

Dense-Vektoren haben weniger Dimensionen (typischerweise 256 bis 4096), aber jeder Wert trägt Information. Sie werden durch neuronale Netze erzeugt und kodieren semantische Zusammenhänge, die in Sparse-Vektoren nicht abgebildet sind.

Beispiel: Der Sparse-Vektor (TF-IDF) für "Rechnung" und "Invoice" hat keine Überlappung, weil es verschiedene Wörter sind. Der Dense-Vektor (Embedding) für beide Begriffe liegt im selben Bereich, weil das Modell die Bedeutungsähnlichkeit gelernt hat.

Moderne Suchsysteme kombinieren beide Ansätze. Hybride Suche nutzt Sparse-Vektoren für exakte Begriffstreffer und Dense-Vektoren für semantische Ähnlichkeit.

Grenzen und Einordnung

Vektoren als Bedeutungsdarstellung haben systematische Limitationen.

Informationsverlust. Die Komprimierung eines Textes in einen Vektor fester Länge ist verlustbehaftet. Feine Bedeutungsnuancen, Ironie oder kontextabhängige Mehrdeutigkeiten gehen teilweise verloren. Ein einzelner Vektor für ein ganzes Dokument kann nicht alle Facetten des Inhalts abbilden.

Beispiel: Der Satz "Die Bank ist heute geschlossen" hat als Einzelvektor eine gemischte Repräsentation aus Finanzinstitut und Sitzmöbel. Erst durch den umgebenden Kontext verschiebt sich der Vektor in die richtige Richtung.

Modellabhängigkeit. Vektoren aus verschiedenen Modellen sind nicht kompatibel. Ein Vektor von Modell A kann nicht direkt mit einem Vektor von Modell B verglichen werden. Die Dimensionen kodieren unterschiedliche Merkmale, und die Räume haben unterschiedliche Geometrien. Ein Wechsel des Embedding-Modells erfordert die Neuberechnung aller gespeicherten Vektoren.

Bias. Vektoren erben die Verzerrungen der Trainingsdaten. Wenn ein Modell auf Texten trainiert wird, die bestimmte Stereotype enthalten, bilden sich diese Muster im Vektorraum ab. Die Vektoren für Berufsbezeichnungen können systematische Nähe oder Ferne zu geschlechtsbezogenen Begriffen aufweisen.

Skalierungskosten. Die Speicherung und Durchsuchung großer Vektorbestände erfordert erhebliche Infrastruktur. Approximative Suchverfahren beschleunigen die Suche, aber jede Approximation birgt das Risiko, relevante Ergebnisse zu übersehen (Recall-Verlust). Die Konfiguration der Index-Parameter (Genauigkeit versus Geschwindigkeit) erfordert sorgfältiges Tuning.

Fachliche Einordnung: Vektoren als Repräsentationsformat sind ein Werkzeug, kein Selbstzweck. Ihre Stärke liegt in der Fähigkeit, semantische Ähnlichkeit effizient berechenbar zu machen. Ihre Grenzen liegen dort, wo Bedeutung nicht auf geometrische Nähe reduzierbar ist: bei logischen Schlussfolgerungen, bei Negation und bei kontextabhängiger Interpretation.

Karl Kratz · 07.12.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Embeddings