Tokenizers Library

Tokenizers-Library ist die Hugging Face Bibliothek für schnelle Tokenizer-Implementierungen.

Die Tokenizers-Library ist eine Open-Source-Bibliothek von Hugging Face, die schnelle und flexible Tokenizer-Implementierungen für den Einsatz in der maschinellen Sprachverarbeitung bereitstellt. Sie ist in Rust geschrieben und bietet Python-Bindings, wodurch sie hohe Geschwindigkeit mit einfacher Nutzbarkeit verbindet.

Die Bibliothek unterstützt die gängigen Tokenisierungsverfahren wie Byte-Pair Encoding (BPE), WordPiece und Unigram. Man kann sowohl vortrainierte Tokenizer laden als auch eigene Tokenizer auf beliebigen Textkorpora trainieren. Die Verarbeitung ist dabei deutlich schneller als bei reinen Python-Implementierungen - bei großen Textmengen kann der Geschwindigkeitsunterschied Faktor 10 bis 100 betragen.

Ein wesentlicher Vorteil der Tokenizers-Library ist die eingebaute Unterstützung für die komplette Verarbeitungspipeline. Neben der eigentlichen Tokenisierung übernimmt sie auch Normalisierung, Pre-Tokenisierung, Post-Processing und das Hinzufügen spezieller Tokens. Man kann jeden dieser Schritte einzeln konfigurieren oder austauschen, ohne die restliche Pipeline ändern zu müssen.

Die Bibliothek ist eng in das Hugging Face Transformers-Ökosystem integriert. Wenn man ein Modell über die Transformers-Library lädt, wird automatisch der passende Tokenizer aus der Tokenizers-Library verwendet. Die Installation erfolgt über pip, und die Dokumentation enthält Beispiele für die häufigsten Anwendungsfälle.

Karl Kratz · 03.02.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm