Fehleranalyse
Wenn ein KI-System ein falsches Ergebnis liefert, reicht es nicht, das Ergebnis zu korrigieren. Erst die gezielte Untersuchung der Ursache zeigt, ob der Fehler im Modell, in den Daten oder in der Aufgabenstellung liegt. Diesen Vorgang bezeichnet man als Fehleranalyse.
Worum es bei der Fehleranalyse geht
Fehleranalyse beschreibt die systematische Untersuchung von Abweichungen zwischen dem erwarteten und dem tatsächlichen Ergebnis eines Systems. Der Begriff stammt aus der Qualitätssicherung und der Ingenieurwissenschaft, hat aber in der Arbeit mit KI-Systemen eine besondere Bedeutung gewonnen. Während ein klassischer Softwarefehler oft auf eine fehlerhafte Codezeile zurückgeht, sind die Ursachen bei lernenden Systemen vielschichtiger: Sie können in den Trainingsdaten, im Modelldesign, in der Aufgabenformulierung oder in der Kombination mehrerer Faktoren liegen.
Beispiel: Ein Klassifikationsmodell ordnet Kundenbeschwerden zuverlässig in zehn Kategorien ein. Bei einer elften, nachträglich eingeführten Kategorie sinkt die Trefferquote auf unter 30 Prozent. Die Fehleranalyse zeigt: Die Trainingsdaten enthalten nur 40 Beispiele für die neue Kategorie, während die anderen Kategorien jeweils über 2.000 Beispiele umfassen.
Der Unterschied zum schnellen Bugfix liegt in der Tiefe. Ein Bugfix behebt das Symptom. Die Fehleranalyse fragt, warum das Symptom aufgetreten ist, unter welchen Bedingungen es reproduzierbar ist und welche weiteren Systemteile betroffen sein könnten.
Beispiel: Ein Chatbot antwortet auf Fragen zur Rückgabepolitik eines Unternehmens mit erfundenen Fristen. Der Bugfix wäre, die korrekte Frist hart zu codieren. Die Fehleranalyse ergibt, dass der zugrundeliegende Prompt keine Anweisung enthält, bei fehlender Information die Antwort zu verweigern.
Typische Fehlerklassen in KI-Systemen
KI-Fehler lassen sich grob in drei Klassen einteilen, die jeweils unterschiedliche Analysemethoden erfordern.
Datenfehler
Datenfehler entstehen, wenn die Trainingsdaten die reale Verteilung nicht abbilden. Dazu gehören fehlende Klassen, überrepräsentierte Subgruppen, veraltete Daten und Labelingfehler. Die Analyse beginnt mit der Verteilung der Daten über Klassen und Merkmale hinweg.
Beispiel: Ein Modell zur Erkennung von Produktmängeln wurde mit Bildern trainiert, die ausschließlich bei Tageslicht aufgenommen wurden. In der Abendschicht, bei Kunstlicht, steigt die Fehlerrate um den Faktor vier. Die Ursache liegt nicht im Modell, sondern in der fehlenden Varianz der Trainingsdaten.
Beispiel: Ein Sentimentmodell bewertet Rezensionen, die das Wort "leider" enthalten, fast immer als negativ. Die Analyse zeigt, dass 94 Prozent aller Trainingssätze mit "leider" tatsächlich negativ gelabelt waren. Das Modell hat eine Korrelation gelernt, die in der Praxis nicht immer zutrifft: "Leider ist die Lieferung schon angekommen, bevor ich zu Hause war" ist keine negative Aussage über das Produkt.
Modellfehler
Modellfehler treten auf, wenn die Architektur oder die Hyperparameter nicht zur Aufgabe passen. Ein zu kleines Modell kann komplexe Zusammenhänge nicht abbilden, ein zu großes Modell lernt Rauschen aus den Trainingsdaten auswendig.
Beispiel: Ein Transformer-Modell mit 125 Millionen Parametern wird für die Zusammenfassung von Rechtstexten eingesetzt. Die generierten Zusammenfassungen sind grammatisch korrekt, lassen aber regelmäßig entscheidende Klauseln aus. Die Fehleranalyse zeigt, dass das Kontextfenster des Modells kürzer ist als die durchschnittliche Länge der Eingabetexte. Passagen jenseits des Fensters werden nicht verarbeitet.
Aufgabenfehler
Aufgabenfehler entstehen, wenn die Aufgabenstellung selbst unklar oder widersprüchlich ist. Das betrifft sowohl die Formulierung von Prompts als auch die Definition von Zielmetriken.
Beispiel: Ein Team definiert "Kundenzufriedenheit" als Zielmetrik für ein Empfehlungssystem. Die Metrik wird über Klickraten gemessen. Das Modell optimiert auf Klicks und empfiehlt zunehmend reißerische Inhalte. Die eigentliche Kundenzufriedenheit sinkt. Die Fehleranalyse deckt auf, dass die Metrik nicht das misst, was sie messen soll.
Fachliche Einordnung: Die Unterscheidung zwischen Daten-, Modell- und Aufgabenfehlern orientiert sich an der Trennung von Data, Model und Task in der ML-Literatur (vgl. Ribeiro et al., "Beyond Accuracy", ACL 2020). In der Praxis überlappen die Klassen häufig. Ein einzelner Fehler kann gleichzeitig auf Datenmangel und auf eine unpräzise Aufgabenstellung zurückgehen.Methoden der Fehleranalyse
Die Wahl der Methode hängt von der Fehlerklasse und dem Systemtyp ab. Drei Methoden decken den Großteil der Praxisfälle ab.
Fehlermatrix und Fehlerverteilung
Bevor ein Fehler im Einzelfall untersucht wird, lohnt sich der Blick auf die Gesamtverteilung. Wie viele Fehler treten pro Klasse auf? Gibt es Cluster? Korrelieren Fehler mit bestimmten Eingabemerkmalen?
Beispiel: Eine Textklassifikation hat eine Gesamtgenauigkeit von 92 Prozent. Die Fehlerverteilung zeigt, dass 70 Prozent aller Fehler in nur zwei von zehn Klassen auftreten. Beide Klassen beschreiben ähnliche Themen ("Reklamation" und "Beschwerde"). Die Analyse zeigt, dass die Klassengrenzen in den Trainingsdaten nicht trennscharf definiert sind.
Die 5-Why-Methode
Die 5-Why-Methode stammt aus dem Toyota-Produktionssystem und fragt fünfmal hintereinander "Warum?", um von einem Symptom zur Ursache zu gelangen.
Beispiel: Ein Sprachmodell generiert in einer RAG-Anwendung eine falsche Jahreszahl. (1) Warum ist die Jahreszahl falsch? Weil der abgerufene Textabschnitt die falsche Zahl enthält. (2) Warum enthält der Abschnitt die falsche Zahl? Weil die Datenquelle veraltet ist. (3) Warum ist die Datenquelle veraltet? Weil der Aktualisierungsprozess seit drei Monaten nicht mehr gelaufen ist. (4) Warum ist er nicht gelaufen? Weil die Schnittstelle zum Datenlieferanten umgestellt wurde. (5) Warum wurde das nicht bemerkt? Weil kein Monitoring für die Datenaktualität existiert.
Slicing und Subgruppen-Analyse
Slicing bedeutet, die Gesamtleistung eines Modells entlang relevanter Dimensionen aufzuteilen. Statt einer einzigen Genauigkeitszahl entstehen viele Teilwerte, die Schwachstellen sichtbar machen.
Beispiel: Ein Übersetzungsmodell erreicht im Durchschnitt eine hohe BLEU-Score. Die Subgruppen-Analyse nach Satzlänge zeigt: Bei Sätzen über 40 Wörter sinkt die Qualität drastisch. Die Ursache: Das Modell wurde überwiegend mit kurzen Sätzen trainiert.
Ablauf einer Fehleranalyse
Ein strukturierter Ablauf verhindert, dass die Analyse sich in Details verliert oder vorschnell bei einer Scheinursache endet.
Der erste Schritt besteht darin, den Fehler vollständig zu dokumentieren: Eingabe, erwartete Ausgabe, tatsächliche Ausgabe, Zeitpunkt und Systemversion. Ohne diese Dokumentation ist eine spätere Analyse kaum möglich.
Im zweiten Schritt wird geprüft, ob der Fehler reproduzierbar ist. Ein einmaliger Fehler in einem stochastischen System (etwa bei hoher Temperature-Einstellung) hat andere Implikationen als ein Fehler, der bei jeder Wiederholung auftritt.
Danach werden Hypothesen gebildet: Liegt die Ursache in den Daten, im Modell oder in der Aufgabenstellung? Diese Einordnung bestimmt die weiteren Analyseschritte.
Die Ursachenisolierung nutzt die zuvor beschriebenen Methoden. Ziel ist eine einzelne, überprüfbare Aussage: "Der Fehler tritt auf, weil X."
Die Korrektur wird implementiert und gegen den dokumentierten Fehlerfall getestet. Zusätzlich wird geprüft, ob die Korrektur keine neuen Fehler in anderen Bereichen verursacht (Regressionstests).
Besonderheiten bei KI-Systemen
KI-Systeme unterscheiden sich von klassischer Software in mehreren Punkten, die die Fehleranalyse erschweren.
Erstens ist das Verhalten nicht deterministisch. Ein Sprachmodell kann bei identischer Eingabe unterschiedliche Ausgaben erzeugen, abhängig von Sampling-Parametern. Das macht Reproduzierbarkeit aufwendiger.
Beispiel: Ein Sprachmodell wird gebeten, eine Produktbeschreibung zu erstellen. Bei zehn identischen Anfragen entstehen zehn verschiedene Texte. Drei davon enthalten eine sachlich falsche Aussage über das Material. Die Fehleranalyse muss mit einer Stichprobe arbeiten, nicht mit einem einzelnen Testfall.
Zweitens fehlt oft eine klare Trennung zwischen Code und Daten. Bei einem Fine-Tuning ändern sich die Modellgewichte, ohne dass eine Codezeile geändert wird. Die Analyse muss deshalb den gesamten Trainingsprozess einbeziehen.
Drittens gibt es bei generativen Modellen oft keine eindeutige "richtige Antwort". Was als Fehler gilt, hängt von den definierten Akzeptanzkriterien ab. Diese müssen vor der Analyse feststehen, sonst verschiebt sich das Ziel während der Untersuchung.
Beispiel: Ein Modell fasst einen Artikel zusammen und lässt einen Nebensatz weg, der eine Einschränkung enthält. Ist das ein Fehler? Das hängt davon ab, ob die Aufgabenstellung "alle Einschränkungen beibehalten" verlangt. Ohne klares Akzeptanzkriterium lässt sich der Fehler nicht eindeutig klassifizieren.
Werkzeuge und Hilfsmittel
Die Werkzeuge für Fehleranalyse reichen von manueller Inspektion bis zu automatisierten Pipelines.
Manuelle Inspektion: Einzelne Fehlfälle werden im Detail untersucht. Das ist zeitaufwändig, liefert aber qualitativ hochwertige Erkenntnisse. Bei Sprachmodellen bedeutet das: Eingabe, Ausgabe und den internen Kontext Satz für Satz lesen.
Beispiel: Ein Modell beantwortet Fragen zu einem technischen Handbuch. Bei Fragen zu Kapitel 7 gibt es systematisch falsche Antworten. Die manuelle Inspektion zeigt: Das Handbuch-PDF wurde beim Parsen fehlerhaft in Textblöcke zerlegt. Kapitel 7 enthält Tabellen, die der Parser als Fließtext interpretiert hat.
Automatisierte Evaluation: Metriken wie Precision, Recall, F1-Score oder BLEU-Score werden über definierte Testdatensätze berechnet. Die Zahlen allein erklären noch keinen Fehler, aber sie zeigen, wo die Analyse ansetzen muss.
Logging und Tracing: In produktiven Systemen werden Eingaben, Zwischenschritte und Ausgaben protokolliert. Diese Logs ermöglichen die rückwirkende Analyse. Bei RAG-Systemen ist besonders relevant, welche Textabschnitte (Chunks) abgerufen wurden und ob die Antwort sich auf die richtigen Quellen stützt.
Beispiel: Ein RAG-System gibt eine falsche Antwort. Das Tracing zeigt, dass die abgerufenen Chunks thematisch korrekt sind, aber aus unterschiedlichen Versionen eines Dokuments stammen. Version 3 widerspricht Version 5. Das Modell kombiniert beide und erzeugt eine inkonsistente Antwort.
Von der Analyse zur Verbesserung
Die Fehleranalyse endet nicht mit der Identifikation der Ursache. Ihr eigentlicher Wert entsteht erst, wenn die Erkenntnisse in systematische Verbesserungen überführt werden.
Dokumentierte Fehler werden zu Testfällen. Jeder analysierte Fehler liefert mindestens einen konkreten Testfall, der in die Regressionstests aufgenommen wird. So entsteht über die Zeit ein Testsatz, der die realen Schwachstellen des Systems abbildet.
Beispiel: Ein E-Commerce-Modell verwechselt regelmäßig "lieferbar" und "verfügbar". Die Fehleranalyse ergibt, dass die Trainingsdaten die Begriffe synonym verwenden, während das Unternehmen sie unterschiedlich definiert. Aus diesem Fehler entstehen 15 Testfälle, die gezielt die Unterscheidung prüfen. Zusätzlich werden die Trainingsdaten bereinigt.
Fehleranalyse profitiert von Iteration. Ein einzelner Durchlauf deckt selten alle Ursachen auf. Nach der ersten Korrektur verschieben sich die Fehlerverteilungen, und neue Schwachstellen werden sichtbar.
In produktiven Systemen wird die Fehleranalyse idealerweise in einen kontinuierlichen Prozess eingebettet: Fehler werden automatisch erkannt, priorisiert und der Analyse zugeführt. Das setzt voraus, dass Akzeptanzkriterien und Schwellenwerte definiert sind.
Grenzen und Einschränkungen
Fehleranalyse hat methodische und praktische Grenzen, die nicht verschwiegen werden sollten.
Die 5-Why-Methode suggeriert, dass es immer eine einzelne Grundursache gibt. Bei komplexen Systemen ist das selten der Fall. Oft wirken mehrere Faktoren zusammen, und die "Ursache" hängt davon ab, wo die Analyse ansetzt.
Beispiel: Ein Empfehlungsmodell liefert schlechte Ergebnisse. Die Analyse identifiziert veraltete Nutzerdaten als Ursache. Eine parallele Analyse identifiziert ein übermäßiges Gewicht des Beliebtheitsfaktors. Beide Ursachen tragen zum Problem bei. Welche "die" Ursache ist, lässt sich nicht eindeutig beantworten.
Bei Modellen mit Milliarden von Parametern ist die vollständige Nachvollziehbarkeit eines Fehlers oft nicht möglich. Die Analyse kann zeigen, unter welchen Bedingungen der Fehler auftritt, aber nicht immer, warum genau das Modell eine bestimmte Ausgabe erzeugt hat. Erklärbarkeitsverfahren wie Attention-Visualisierung oder Feature-Attribution liefern Annäherungen, keine vollständigen Erklärungen.
Fehleranalyse setzt definierte Erwartungen voraus. Wenn nicht feststeht, was das System leisten soll, lässt sich auch nicht feststellen, wann es versagt. Diese Definition ist oft der schwierigste Teil der Arbeit.
Fachliche Einordnung: Die Grenzen der Erklärbarkeit bei neuronalen Netzen mit Milliarden von Parametern sind Gegenstand aktiver Forschung (vgl. "Explainable AI" / XAI). Verfahren wie SHAP, LIME oder Integrated Gradients bieten lokale Erklärungen für einzelne Vorhersagen, aber keine globale Kausalität. Die Fehleranalyse muss diese Einschränkung berücksichtigen und darf aus einer lokalen Erklärung nicht auf das Gesamtverhalten schließen.