Chunking

Chunking bedeutet, einen langen Text in kleinere Abschnitte (Chunks) zu zerlegen, die einzeln von einem Einbettungsmodell verarbeitet werden können. Das ist nötig, weil jedes Modell ein begrenztes Textfenster hat.

Es gibt verschiedene Strategien: Man kann nach einer festen Zeichenzahl schneiden, nach Absätzen, nach Sätzen oder nach semantischen Einheiten. Die Wahl der Chunking-Strategie beeinflusst die Qualität der Suchergebnisse erheblich.

In meinem Benchmark verwende ich eine einfache 1:1-Zuordnung: Jede Datei ist ein Chunk. Das hat den Vorteil, dass die Ergebnisse direkt vergleichbar sind und kein Chunking-Algorithmus die Messungen verfälscht. Die Texte werden lediglich auf 2.000 Zeichen gekürzt.


Karl Kratz · 29.01.2026

Technologie Künstliche Intelligenz Embeddings