Natural Language Processing (NLP)

Wenn Software einen Satz liest, seine Bedeutung erkennt und eine passende Antwort formuliert, arbeitet im Hintergrund Natural Language Processing. NLP ist das Teilgebiet der Informatik, das sich mit der maschinellen Verarbeitung menschlicher Sprache befasst.

Natural Language Processing verbindet Linguistik, Statistik und Machine Learning. Ziel ist es, unstrukturierten Text oder gesprochene Sprache in eine Form zu bringen, die ein Rechner auswerten, durchsuchen oder beantworten kann. Die Verfahren reichen von regelbasierten Systemen der 1960er-Jahre bis zu neuronalen Sprachmodellen, die Milliarden von Parametern umfassen.

Sprachliche Ebenen, die ein NLP-System durchläuft

Menschliche Sprache ist auf mehreren Ebenen organisiert. Ein NLP-System muss jede dieser Ebenen verarbeiten, um eine Eingabe korrekt zu interpretieren.

Beispiel: Der Satz "Bank am Fluss" erfordert auf der morphologischen Ebene die Zerlegung in Wortstamm und Flexion, auf der syntaktischen Ebene die Erkennung der Präpositionalphrase, und auf der semantischen Ebene die Entscheidung, ob "Bank" ein Sitzmöbel oder ein Finanzinstitut bezeichnet.

Die vier zentralen Ebenen sind:

Morphologie: Zerlegung von Wörtern in ihre Bestandteile. "Sprachverarbeitung" besteht aus "Sprach" + "Verarbeitung". Flektierte Formen wie "lief" werden auf den Stamm "laufen" zurückgeführt (Lemmatisierung).
Syntax: Grammatische Struktur. Das System erkennt, welches Wort Subjekt, Prädikat oder Objekt ist. Diese Analyse heißt Parsing.
Semantik: Bedeutung einzelner Wörter und Sätze im Kontext. Hier entscheidet das System, ob "Apple" ein Unternehmen oder eine Frucht ist (Word Sense Disambiguation).
Pragmatik: Intention hinter einer Äußerung. "Kannst du das Fenster öffnen?" ist keine Frage nach der Fähigkeit, sondern eine Aufforderung.

Beispiel: Ein Chatbot im Kundensupport erhält die Nachricht "Mein Paket ist seit Tagen nicht da". Morphologisch zerlegt er die Wörter, syntaktisch erkennt er Subjekt ("Paket") und Temporalangabe ("seit Tagen"), semantisch ordnet er das Thema "Lieferverzögerung" zu, und pragmatisch klassifiziert er die Äußerung als Beschwerde.

Tokenisierung und Vorverarbeitung

Bevor ein Modell Text analysieren kann, muss der Rohtext in Einheiten zerlegt werden, die das System verarbeiten kann. Diesen Vorgang nennt man Tokenisierung.

Beispiel: Der Satz "Die Katze sitzt auf der Matte" wird je nach Verfahren in Wort-Tokens ["Die", "Katze", "sitzt", "auf", "der", "Matte"] oder in Subword-Tokens ["Die", "Kat", "##ze", "sitzt", "auf", "der", "Mat", "##te"] zerlegt. Subword-Tokenisierung hat den Vorteil, dass auch unbekannte Wörter aus bekannten Teilstücken zusammengesetzt werden können.

Weitere Schritte der Vorverarbeitung sind:

Lowercasing: Vereinheitlichung der Groß-/Kleinschreibung, sofern die Aufgabe das erlaubt.
Stopwort-Entfernung: Wörter wie "der", "die", "und" werden entfernt, wenn sie für die Analyse keinen Informationsgehalt tragen.
Stemming und Lemmatisierung: Rückführung auf Grundformen. "lief", "läuft", "gelaufen" werden zu "laufen".

Beispiel: In einem Suchsystem für juristische Dokumente wird der Suchbegriff "Vertragsverhandlungen" lemmatisiert zu "Vertragsverhandlung". So findet das System auch Treffer, in denen nur die Singularform vorkommt.

Fachliche Einordnung: Die Wahl des Tokenisierungsverfahrens beeinflusst die Leistung eines Sprachmodells erheblich. Byte Pair Encoding (BPE), WordPiece und SentencePiece sind die drei dominierenden Verfahren. BPE wird unter anderem in GPT-Modellen eingesetzt, WordPiece in BERT. Die Entscheidung hängt von der Zielsprache, der Vokabulargröße und dem Anwendungsfall ab.

Von Regeln zu statistischen Methoden

Frühe NLP-Systeme arbeiteten mit manuell erstellten Regeln. Ein Grammatik-Parser enthielt Hunderte von Regeln in der Form "Satz = Nominalphrase + Verbalphrase". Diese Systeme waren präzise für eng definierte Domänen, aber fragil gegenüber sprachlicher Variation.

Beispiel: Ein regelbasiertes System für Flugbuchungen der 1980er-Jahre konnte "Flug von Berlin nach München am Freitag" korrekt verarbeiten, scheiterte aber an "Gibt es was Freitag Richtung München?" weil diese Formulierung nicht in den Regeln vorgesehen war.

Ab den 1990er-Jahren lösten statistische Verfahren die Regelsysteme zunehmend ab. Hidden Markov Models, Naive Bayes und Conditional Random Fields lernten Muster direkt aus annotierten Daten.

Beispiel: Ein Part-of-Speech-Tagger auf Basis von Hidden Markov Models lernt aus einem Korpus mit 100.000 manuell getaggten Sätzen, dass nach einem Artikel mit hoher Wahrscheinlichkeit ein Nomen folgt. Er erreicht damit über 95 Prozent Genauigkeit auf Standard-Benchmarks, ohne dass eine einzige Grammatikregel programmiert wurde.

Neuronale Sprachverarbeitung

Mit dem Aufkommen von Deep Learning veränderte sich die NLP-Forschung ab 2013 grundlegend. Statt handgefertigter Merkmale lernen neuronale Netze Repräsentationen direkt aus dem Text.

Ein zentrales Konzept sind Worteinbettungen (Word Embeddings): Jedes Wort wird als Vektor in einem hochdimensionalen Raum dargestellt. Wörter mit ähnlicher Bedeutung liegen nahe beieinander.

Beispiel: Im Vektorraum eines trainierten Word2Vec-Modells gilt die Beziehung: Vektor("König") minus Vektor("Mann") plus Vektor("Frau") ergibt einen Vektor, der dem Vektor("Königin") am nächsten liegt. Das Modell hat die semantische Beziehung zwischen Geschlecht und Herrschertitel aus reiner Textstatistik gelernt.

Die Transformer-Architektur, vorgestellt 2017, ersetzte rekurrente Netze durch einen Mechanismus namens Self-Attention. Damit kann ein Modell jedes Wort im Kontext aller anderen Wörter des Satzes gleichzeitig betrachten.

Beispiel: Im Satz "Die Entwicklerin debuggte den Code, den sie am Vortag geschrieben hatte" muss das Modell erkennen, dass "sie" sich auf "Entwicklerin" bezieht und nicht auf "Code". Der Self-Attention-Mechanismus weist dem Token "sie" einen hohen Aufmerksamkeitswert für "Entwicklerin" zu, obwohl mehrere Wörter dazwischen liegen.

RohtextEingabe

TokenisierungSubword-Zerlegung

EmbeddingVektordarstellung

TransformerSelf-Attention

Zentrale Aufgaben im NLP

NLP umfasst eine Reihe klar definierter Aufgaben. Jede Aufgabe hat eigene Benchmarks, Datensätze und Evaluationsmetriken.

Textklassifikation: Zuordnung eines Textes zu einer oder mehreren Kategorien. Spam-Erkennung, Themen-Tagging und Sentiment-Analyse fallen in diese Kategorie.
Named Entity Recognition (NER): Erkennung und Klassifikation von Eigennamen, Orten, Datumsangaben und anderen benannten Entitäten in einem Text.
Maschinelle Übersetzung: Übertragung von Text aus einer Quellsprache in eine Zielsprache.
Textzusammenfassung: Automatische Erstellung einer kürzeren Version eines Textes, die die wesentlichen Informationen erhält.
Frage-Antwort-Systeme: Extraktion oder Generierung von Antworten auf natürlichsprachliche Fragen aus einem gegebenen Kontext.

Beispiel: Ein NER-System analysiert den Satz "Angela Merkel besuchte am 3. Oktober 2024 das Brandenburger Tor in Berlin". Es markiert "Angela Merkel" als PERSON, "3. Oktober 2024" als DATUM, "Brandenburger Tor" als BAUWERK und "Berlin" als ORT.

Beispiel: Ein Sentiment-Analyse-System wertet Produktrezensionen aus. Die Rezension "Das Gerät funktioniert einwandfrei, aber die Bedienungsanleitung ist unverständlich" erhält eine gemischte Bewertung: positiv für das Produkt selbst, negativ für die Dokumentation. Aspektbasierte Sentiment-Analyse unterscheidet diese Teilurteile.

Vortrainierte Sprachmodelle und Transfer Learning

Seit 2018 dominieren vortrainierte Sprachmodelle das Feld. Das Prinzip: Ein Modell wird zunächst auf großen Textmengen ohne spezifische Aufgabe trainiert (Pre-Training). Anschließend wird es für eine konkrete Aufgabe angepasst (Fine-Tuning).

BERT (Bidirectional Encoder Representations from Transformers) war 2018 das erste Modell, das diesen Ansatz in der Breite etablierte. Es liest Text in beide Richtungen gleichzeitig und erreichte auf elf NLP-Benchmarks neue Bestmarken.

Beispiel: Ein Unternehmen will Supporttickets automatisch priorisieren. Statt ein Modell von Grund auf mit Zehntausenden gelabelten Tickets zu trainieren, nimmt es ein vortrainiertes BERT-Modell und trainiert es mit 500 manuell kategorisierten Tickets weiter (Fine-Tuning). Das Ergebnis erreicht eine Genauigkeit von über 90 Prozent, weil BERT bereits sprachliches Weltwissen aus dem Pre-Training mitbringt.

Large Language Models (LLMs) wie GPT, PaLM und Claude erweitern dieses Prinzip. Sie werden auf Hunderten Milliarden Tokens trainiert und können viele NLP-Aufgaben ohne aufgabenspezifisches Fine-Tuning lösen (Zero-Shot und Few-Shot Learning).

Fachliche Einordnung: Der Übergang von aufgabenspezifischen Modellen zu universellen Sprachmodellen markiert einen Paradigmenwechsel im NLP. Während spezialisierte Modelle auf ihren trainierten Benchmarks oft noch überlegen sind, bieten LLMs eine Flexibilität, die frühere Systeme nicht hatten. Die Forschung diskutiert, inwieweit Skalierung allein zu echtem Sprachverständnis führt oder ob zusätzliche strukturelle Innovationen notwendig sind.

Evaluation: Wie NLP-Systeme gemessen werden

Die Qualität eines NLP-Systems wird anhand standardisierter Metriken bewertet. Welche Metrik relevant ist, hängt von der Aufgabe ab.

Precision: Anteil der korrekt positiv klassifizierten Ergebnisse an allen als positiv klassifizierten Ergebnissen.
Recall: Anteil der korrekt positiv klassifizierten Ergebnisse an allen tatsächlich positiven Fällen.
F1-Score: Harmonisches Mittel aus Precision und Recall.
BLEU: Metrik für maschinelle Übersetzung, misst die Übereinstimmung mit Referenzübersetzungen auf n-Gramm-Ebene.
Perplexität: Misst, wie gut ein Sprachmodell die Wahrscheinlichkeitsverteilung über Wortfolgen abbildet. Niedrigere Werte bedeuten bessere Vorhersagen.

Beispiel: Ein NER-System für medizinische Texte erkennt 85 von 100 Krankheitsnamen korrekt (Recall: 85 Prozent). Von den 95 Entitäten, die es insgesamt als Krankheitsnamen markiert, sind 85 tatsächlich korrekt (Precision: 89 Prozent). Der F1-Score liegt bei 87 Prozent.

Grenzen und Herausforderungen

Trotz der Fortschritte hat NLP systematische Grenzen, die nicht allein durch größere Modelle verschwinden.

Mehrdeutigkeit: Sprache ist inhärent mehrdeutig. Der Satz "Ich sah den Mann mit dem Fernglas" hat zwei grammatisch korrekte Lesarten. NLP-Systeme treffen hier statistische Entscheidungen, keine sicheren.

Beispiel: Ein Übersetzungssystem übersetzt "The doctor told the nurse that she was wrong" ins Deutsche. Das System muss entscheiden, ob "she" sich auf "doctor" oder "nurse" bezieht. Ohne zusätzlichen Kontext trifft es eine statistische Annahme, die in etwa der Hälfte der Fälle falsch ist.

Bias und Fairness: Sprachmodelle übernehmen Verzerrungen aus ihren Trainingsdaten. Wenn ein Modell hauptsächlich mit Texten trainiert wurde, in denen Ärzte männlich und Krankenpfleger weiblich dargestellt werden, reproduziert es diese Muster.

Beispiel: Ein Lebenslauf-Screening-System bewertet Bewerbungen mit dem Wort "Frauenbeauftragte" systematisch niedriger, weil das Wort in den Trainingsdaten selten mit Führungspositionen assoziiert war.

Ressourcenbedarf: Das Training großer Sprachmodelle erfordert erhebliche Rechenkapazität. GPT-3 benötigte 2020 geschätzt 3.640 Petaflop-Tage. Dieser Bedarf begrenzt, wer solche Modelle trainieren kann, auf wenige Organisationen mit entsprechender Infrastruktur.

Halluzinationen: Generative Sprachmodelle erzeugen gelegentlich Texte, die plausibel klingen, aber faktisch falsch sind. Dieses Phänomen tritt besonders bei Fragen auf, zu denen das Modell wenig Trainingsdaten gesehen hat.

Low-Resource-Sprachen: Die meisten NLP-Fortschritte gelten für Englisch und wenige weitere gut dokumentierte Sprachen. Für die Mehrzahl der weltweit gesprochenen Sprachen existieren weder ausreichende Trainingsdaten noch evaluierte Modelle.

Fachliche Einordnung: Die Grenzen von NLP sind nicht nur technischer Natur. Sprache spiegelt gesellschaftliche Strukturen wider. Ein System, das Sprache verarbeitet, verarbeitet damit auch die in der Sprache kodierten Machtverhältnisse, Vorurteile und kulturellen Annahmen. Die Forschung zu Fairness und Bias in NLP ist ein aktives Feld, das über rein technische Lösungen hinausgeht.

Karl Kratz · 01.05.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz Sprachverarbeitung