Chatbot

Ein Programm nimmt eine Textnachricht entgegen, ermittelt daraus eine passende Reaktion und gibt eine Antwort zurück. Dieses Prinzip steckt hinter jedem Chatbot: einem Dialogsystem, das automatisiert auf Eingaben in natürlicher Sprache reagiert.

Chatbots begegnen Nutzern auf Websites, in Messenger-Diensten, im Kundenservice und in internen Helpdesk-Systemen. Die Bandbreite reicht von einfachen Frage-Antwort-Automaten bis zu komplexen Systemen, die auf Deep Learning und großen Sprachmodellen basieren. Dieser Artikel beschreibt, wie Chatbots Eingaben verarbeiten, welche Architekturvarianten existieren und wo die technischen Grenzen liegen.

Eingabe, Verarbeitung, Ausgabe

Jeder Chatbot folgt einem dreistufigen Ablauf: Er empfängt eine Nutzereingabe, verarbeitet diese intern und gibt eine Antwort aus. Die Art der Verarbeitung unterscheidet sich je nach Systemtyp erheblich.

Beispiel: Ein Nutzer tippt "Wann kommt meine Bestellung?" in ein Chat-Fenster. Das System erkennt die Absicht (Lieferstatus abfragen), extrahiert relevante Parameter (Bestellnummer, Kundenkonto) und ruft den Lieferstatus aus einer Datenbank ab. Die Antwort erscheint innerhalb von Sekunden.

Beispiel: Ein interner Helpdesk-Bot empfängt die Nachricht "Mein VPN funktioniert nicht". Er ordnet die Eingabe dem Themenbereich Netzwerk zu, stellt Rückfragen zum Betriebssystem und liefert eine schrittweise Anleitung zur Fehlerbehebung.

Der Verarbeitungsschritt ist der Kern jedes Chatbots. Regelbasierte Systeme durchsuchen vordefinierte Muster. Lernende Systeme nutzen statistische Modelle, um Absichten zu klassifizieren und Antworten zu generieren.

NutzereingabeText oder Sprache

SprachverarbeitungAbsicht + Entitäten

DialogsteuerungAntwort auswählen

AntwortgenerierungText formulieren

Regelbasierte Chatbots

Die älteste Form von Chatbots arbeitet mit fest definierten Regeln. Ein Satz von Schlüsselwörtern oder Mustern wird mit vorformulierten Antworten verknüpft. Wenn eine Eingabe einem Muster entspricht, gibt das System die zugeordnete Antwort aus.

Beispiel: Ein FAQ-Bot auf einer Versicherungswebsite erkennt das Schlüsselwort "Kündigung" und liefert die Standardantwort mit Kündigungsfristen und Kontaktdaten. Die Erkennung basiert auf einem regulären Ausdruck wie /(kündig|vertrag beenden|auflös)/i.

Beispiel: Ein Telefonanbieter setzt einen regelbasierten Bot für Tarifanfragen ein. Die Eingabe "Was kostet der XL-Tarif?" wird über das Muster "kostet" + Tarifname erkannt und mit dem entsprechenden Preisblatt beantwortet.

Regelbasierte Systeme sind transparent und deterministisch: Die gleiche Eingabe erzeugt immer die gleiche Ausgabe. Ihre Erstellung erfordert keine Trainingsdaten, sondern eine manuelle Pflege von Regeln und Antworten. Der Aufwand steigt linear mit der Zahl der abzudeckenden Themen.

Fachliche Einordnung: Regelbasierte Chatbots entsprechen in der Informatik einem endlichen Automaten (Finite State Machine). Jeder Dialogzustand ist explizit definiert, jeder Übergang durch eine Bedingung festgelegt. Die Ausdruckskraft ist dadurch auf vorhersehbare Gesprächsverläufe beschränkt.

Absichtserkennung und Entitätsextraktion

Moderne Chatbots trennen die Verarbeitung einer Eingabe in zwei Teilaufgaben: Die Absichtserkennung (Intent Recognition) bestimmt, was der Nutzer erreichen will. Die Entitätsextraktion identifiziert relevante Parameter innerhalb der Eingabe.

Beispiel: Die Eingabe "Buche mir einen Flug nach Berlin am Freitag" enthält die Absicht flug_buchen und die Entitäten Ziel: Berlin sowie Datum: Freitag. Das System zerlegt den Satz in diese Bestandteile, bevor es eine Aktion auslöst.

Beispiel: "Zeig mir vegetarische Restaurants in der Nähe" liefert die Absicht restaurant_suche mit den Entitäten Kategorie: vegetarisch und Ort: aktueller Standort. Ohne korrekte Entitätsextraktion würde das System nur die Absicht kennen, aber keine passenden Ergebnisse filtern.

Für die Absichtserkennung kommen Klassifikationsmodelle zum Einsatz, die auf annotierten Beispielsätzen trainiert werden. Häufig verwendete Ansätze sind Support Vector Machines, Logistische Regression und neuronale Netze. Die Entitätsextraktion nutzt Sequenzlabeling-Verfahren wie Conditional Random Fields oder Transformer-basierte Modelle.

Die Qualität dieser beiden Schritte bestimmt maßgeblich, ob ein Chatbot die richtige Antwort liefert. Fehler bei der Absichtserkennung führen zu thematisch falschen Antworten. Fehler bei der Entitätsextraktion führen zu unvollständigen oder falschen Parametersets.

Chatbots auf Basis von Sprachmodellen

Seit der Verfügbarkeit großer Sprachmodelle (Large Language Models) hat sich eine neue Architektur für Chatbots etabliert. Statt einzelne Absichten zu klassifizieren, generieren diese Systeme Antworten Wort für Wort auf Basis statistischer Wahrscheinlichkeiten. Das zugrunde liegende neuronale Netz wurde auf großen Textmengen vortrainiert und kann durch Fine-Tuning auf spezifische Aufgaben angepasst werden.

Beispiel: Ein Kundenservice-Bot auf LLM-Basis erhält die Frage "Kann ich meinen Vertrag auch monatlich statt jährlich bezahlen?" Das Modell generiert eine Antwort, die auf den Vertragsbedingungen basiert, ohne dass diese Frage explizit in einem Regelwerk hinterlegt ist. Es verallgemeinert aus dem Trainingsmaterial.

Diese Architektur bietet Flexibilität: Das System kann auf Formulierungen reagieren, die in keinem Regelwerk vorgesehen sind. Gleichzeitig entsteht ein neues Risiko. Das Modell kann plausibel klingende, aber faktisch falsche Antworten erzeugen. Dieses Phänomen wird als Halluzination bezeichnet.

Beispiel: Ein LLM-basierter Chatbot wird nach den Öffnungszeiten einer Filiale gefragt, die nicht in seinen Trainingsdaten vorkommt. Statt die Wissenslücke offenzulegen, generiert er erfundene Öffnungszeiten. In produktiven Systemen wird dieses Risiko durch Retrieval-Augmented Generation (RAG) reduziert: Das Modell greift vor der Antwortgenerierung auf eine verifizierte Wissensbasis zu.

Dialogsteuerung und Kontextverwaltung

Ein einzelner Frage-Antwort-Austausch reicht für viele Anwendungsfälle nicht aus. Die Dialogsteuerung (Dialog Management) verwaltet den Zustand eines Gesprächs über mehrere Nachrichten hinweg. Sie entscheidet, welche Informationen bereits vorliegen, welche noch fehlen und wann eine Aktion ausgelöst wird.

Beispiel: Ein Chatbot für Arzttermine benötigt drei Informationen: Fachrichtung, gewünschtes Datum und Versicherungsart. Der Nutzer schreibt zunächst "Ich brauche einen Termin beim Hautarzt." Der Bot erkennt die Fachrichtung, fragt nach dem Datum und anschließend nach der Versicherung. Der Dialog-State speichert bei jedem Schritt, welche Slots bereits gefüllt sind.

Beispiel: In einem E-Commerce-Bot wechselt der Nutzer mitten im Bestellvorgang das Thema: "Ach, bevor ich bestelle: Kann ich auch per Rechnung zahlen?" Die Dialogsteuerung muss den Kontextwechsel erkennen, die Zahlungsfrage beantworten und danach zum Bestellvorgang zurückkehren, ohne die bisherigen Angaben zu verlieren.

Die Komplexität der Dialogsteuerung steigt mit der Zahl möglicher Gesprächspfade. Regelbasierte Dialogmanager definieren jeden Pfad explizit. Lernende Dialogmanager nutzen Machine Learning, um aus Dialogbeispielen optimale Aktionen abzuleiten.

Training und Evaluierung

Lernende Chatbots benötigen Trainingsdaten: annotierte Beispielsätze, in denen Eingaben mit Absichten und Entitäten versehen sind. Die Qualität dieser Daten beeinflusst die Systemleistung direkt.

Beispiel: Ein Chatbot für eine Bank wird mit 5.000 annotierten Kundennachrichten trainiert. Jede Nachricht ist mit einer Absicht ("Kontostand abfragen", "Dauerauftrag einrichten", "Überweisung tätigen") und den relevanten Entitäten (Betrag, Empfänger, Kontonummer) versehen. Die Annotationsqualität bestimmt die obere Leistungsgrenze des Systems.

Die Evaluierung erfolgt anhand von Metriken, die unterschiedliche Aspekte der Systemleistung messen. Die Precision gibt an, wie viele der vom System erkannten Absichten tatsächlich korrekt sind. Der Recall misst, wie viele der tatsächlich vorhandenen Absichten das System erkennt. In der Praxis werden beide Metriken als F1-Score kombiniert.

Beispiel: Ein Bot erkennt 90 von 100 Kundenanfragen zum Thema "Retoure" korrekt (Recall: 90%). Von allen Nachrichten, die er als "Retoure" klassifiziert, sind 85 tatsächlich Retoure-Anfragen (Precision: 85%). Der F1-Score liegt bei etwa 87%.

Neben der Klassifikationsleistung wird bei generativen Chatbots auch die Antwortqualität bewertet. Typische Kriterien sind inhaltliche Korrektheit, Relevanz, Vollständigkeit und Tonalität. Diese Bewertung erfolgt häufig durch menschliche Evaluatoren, da automatische Metriken die wahrgenommene Qualität nur begrenzt abbilden.

Einsatzszenarien in der Praxis

Chatbots werden in verschiedenen Domänen eingesetzt. Die Anforderungen unterscheiden sich je nach Anwendungsfall erheblich.

Beispiel: Im Kundenservice eines Telekommunikationsanbieters bearbeitet ein Chatbot Anfragen zu Rechnungen, Tarifen und Störungen. Das System ist an die Kundendatenbank angebunden und kann personalisierte Auskünfte erteilen. Bei 70% der Anfragen liefert der Bot die Antwort ohne menschliche Beteiligung.

Beispiel: Ein Recruiting-Bot auf einer Karriereseite beantwortet Fragen zu offenen Stellen, Bewerbungsprozessen und Unternehmenskultur. Er führt eine Vorqualifizierung durch, indem er Erfahrungslevel und Fachgebiet abfragt, und leitet passende Kandidaten an die richtige Fachabteilung weiter.

Im E-Commerce unterstützen Chatbots bei Produktberatung, Bestellverfolgung und Retourenabwicklung. Im Gesundheitswesen beantworten sie Fragen zu Symptomen und vereinbaren Termine. In der internen IT übernehmen sie First-Level-Support bei Standardproblemen wie Passwortzurücksetzung oder VPN-Einrichtung.

Die Integration in bestehende Systeme erfolgt über Programmierschnittstellen (APIs). Der Chatbot kommuniziert mit Datenbanken, CRM-Systemen und Ticketing-Tools, um Informationen abzurufen und Aktionen auszulösen.

Grenzen und offene Probleme

Chatbots haben technische und konzeptionelle Grenzen, die sich aus der Art ihrer Sprachverarbeitung ergeben.

Beispiel: Ein Nutzer schreibt ironisch "Na toll, mein Paket ist schon wieder nicht angekommen." Ein regelbasierter Bot erkennt die Ironie nicht und antwortet mit "Schön, dass alles gut gelaufen ist." Auch lernende Systeme scheitern häufig an Ironie, Sarkasmus und impliziten Bedeutungen, weil diese Phänomene in Trainingsdaten unterrepräsentiert sind.

Mehrdeutigkeit bleibt ein ungelöstes Kernproblem. Der Satz "Ich möchte das Konto auflösen" kann eine Bankkontenkündigung oder das Leeren eines Guthabenkontos meinen. Die korrekte Interpretation hängt vom Kontext ab, den das System nicht immer zuverlässig rekonstruiert.

Weitere Grenzen betreffen den Umgang mit Themenwechseln in längeren Gesprächen, das Erkennen von Emotionen, die Verarbeitung von Tippfehlern und Dialekt sowie die Einhaltung rechtlicher Vorgaben (insbesondere Datenschutz und Informationspflichten). Generative Systeme müssen zusätzlich das Risiko faktisch falscher Ausgaben kontrollieren.

Fachliche Einordnung: Die Grenze zwischen einem Chatbot und einem allgemeinen Sprachassistenten ist fließend. Aktuelle Forschung arbeitet an multimodalen Systemen, die Text, Bild und Sprache kombinieren. Die zugrundeliegenden Transformer-Architekturen werden dabei zunehmend durch Attention-Mechanismen mit größerem Kontextfenster erweitert. Die Frage, ob ein Chatbot "versteht" oder nur statistisch plausible Muster reproduziert, bleibt in der KI-Forschung ungeklärt.

Karl Kratz · 01.08.2025

Technologie Künstliche Intelligenz