Tokenizer

Ein Tokenizer ist die Softwarekomponente, die Text in Tokens zerlegt.

Tokenizer sind die Softwarekomponenten, die den Prozess der Tokenisierung konkret umsetzen. Der Begriff bezeichnet sowohl einzelne Implementierungen als auch Sammlungen und Bibliotheken, die verschiedene Tokenisierungsverfahren bereitstellen.

Jedes große Sprachmodell wird mit einem spezifischen Tokenizer ausgeliefert, der während des Trainings verwendet wurde. GPT-4 nutzt beispielsweise einen BPE-basierten Tokenizer mit einem Vokabular von rund 100.000 Tokens, während BERT einen WordPiece-Tokenizer mit etwa 30.000 Tokens verwendet. Man muss bei der Inferenz denselben Tokenizer verwenden, der beim Training eingesetzt wurde, da das Modell sonst die Eingabe falsch interpretiert.

In der Praxis arbeitet man selten mit selbst geschriebenen Tokenizern. Stattdessen greift man auf etablierte Bibliotheken zurück, die fertig trainierte Tokenizer für gängige Modelle bereitstellen. Die Hugging Face Tokenizers-Library ist dabei besonders verbreitet. Sie bietet Implementierungen in Rust mit Python-Bindings, wodurch die Tokenisierung auch bei großen Textmengen performant abläuft.

Tokenizer unterscheiden sich nicht nur im Algorithmus, sondern auch in praktischen Details wie der Behandlung von Leerzeichen, Unicode-Normalisierung und speziellen Steuertoken. Wer mit verschiedenen Modellen arbeitet, sollte die jeweiligen Tokenizer-Eigenschaften kennen, da sie sich direkt auf Tokenanzahl und damit auf Kosten und Kontextfenstergröße auswirken.

Karl Kratz · 11.09.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm