Tokenisieren
Tokenisieren ist der Prozess der Textzerlegung in Tokens.
Tokenisieren bezeichnet den konkreten Vorgang, bei dem ein Eingabetext in Tokens zerlegt wird. Je nach Tokenizer kann das Ergebnis unterschiedlich ausfallen: wortbasiert, zeichenbasiert oder als Subword-Zerlegung. In den meisten ML-Frameworks lässt sich der Vorgang mit wenigen Zeilen Code durchführen. Bibliotheken wie die Hugging Face Tokenizers-Library stellen fertig trainierte Tokenizer bereit.