Tokenisieren

Tokenisieren ist der Prozess der Textzerlegung in Tokens.

Tokenisieren bezeichnet den konkreten Vorgang, bei dem ein Eingabetext in Tokens zerlegt wird. Je nach Tokenizer kann das Ergebnis unterschiedlich ausfallen: wortbasiert, zeichenbasiert oder als Subword-Zerlegung. In den meisten ML-Frameworks lässt sich der Vorgang mit wenigen Zeilen Code durchführen. Bibliotheken wie die Hugging Face Tokenizers-Library stellen fertig trainierte Tokenizer bereit.


Karl Kratz · 21.10.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm