Tokenizer-Vergleich
Tokenizer-Vergleich evaluiert verschiedene Tokenizer nach Effizienz und Qualität.
Ein Tokenizer-Vergleich evaluiert verschiedene Tokenizer hinsichtlich ihrer Effizienz, Sprachabdeckung und Eignung für bestimmte Anwendungsfälle. Da die Wahl des Tokenizers die Leistung eines Sprachmodells erheblich beeinflusst, ist ein systematischer Vergleich vor dem Training sinnvoll.
Die wichtigste Kennzahl bei einem Tokenizer-Vergleich ist die Fertility Rate - die durchschnittliche Anzahl von Tokens, die ein Tokenizer pro Wort erzeugt. Ein niedrigerer Wert bedeutet, dass der Tokenizer den Text kompakter darstellt, was zu kürzeren Sequenzen und geringeren Rechenkosten führt. Für englische Texte liegt die Fertility Rate moderner Tokenizer typischerweise zwischen 1,2 und 1,5, für morphologisch reichere Sprachen wie Deutsch oder Finnisch kann sie deutlich höher ausfallen.
Weitere Vergleichskriterien sind die Abdeckung unbekannter Wörter, die Geschwindigkeit der Tokenisierung und die Robustheit gegenüber Tippfehlern oder ungewöhnlicher Formatierung. Subword-Tokenizer wie BPE und WordPiece haben gegenüber wortbasierten Ansätzen den Vorteil, dass sie prinzipiell jede Zeichenkette verarbeiten können, da sie im Notfall auf einzelne Zeichen zurückfallen.
In der Praxis führt man einen Tokenizer-Vergleich durch, indem man verschiedene Tokenizer auf denselben Testkorpus anwendet und die Ergebnisse quantitativ auswertet. Neben automatischen Metriken ist auch eine manuelle Inspektion der Tokenisierungsergebnisse aufschlussreich, etwa um zu prüfen, ob zusammengesetzte Wörter sinnvoll zerlegt werden oder ob bestimmte Fachbegriffe unnötig fragmentiert sind.