Explainability

Wenn ein KI-System eine Entscheidung trifft, bleibt oft unklar, warum genau dieses Ergebnis zustande kam. Explainability bezeichnet die Fähigkeit, diese Entscheidungsgrundlagen offenzulegen und für Menschen nachvollziehbar darzustellen. Im Deutschen wird der Begriff als Erklärbarkeit übersetzt.

Warum KI-Entscheidungen intransparent sind

Viele moderne KI-Systeme basieren auf Deep Learning. Sie verarbeiten Eingaben über Millionen interner Parameter, die während des Trainings angepasst werden. Der resultierende Entscheidungspfad lässt sich nicht direkt ablesen. Ein Modell mit 100 Millionen Parametern erzeugt Ergebnisse, die aus dem Zusammenspiel aller Gewichte entstehen. Diese Komplexität macht es unmöglich, den Beitrag jedes einzelnen Parameters zu benennen.

Beispiel: Ein Bilderkennungssystem klassifiziert ein Röntgenbild als auffällig. Das Modell hat diese Entscheidung auf Basis von Pixelmustern getroffen, die es während des Trainings mit tausenden ähnlichen Bildern gelernt hat. Welche Bildbereiche den Ausschlag gaben, ist ohne zusätzliche Erklärungsmethode nicht sichtbar.

Beispiel: Ein Sprachmodell beantwortet eine Frage mit einer konkreten Zahl. Die Antwort ergibt sich aus statistischen Zusammenhängen im Trainingsmaterial. Ob das Modell die Zahl aus einer zuverlässigen Quelle abgeleitet hat oder aus einer zufälligen Korrelation, bleibt ohne Erklärungsschicht verborgen.

Diese Intransparenz wird in der Fachliteratur als Black-Box-Problem bezeichnet. Der Begriff beschreibt Systeme, bei denen nur Eingabe und Ausgabe sichtbar sind, nicht aber die interne Verarbeitung.

Methoden zur Erklärung von Modellentscheidungen

Erklärungsverfahren lassen sich in zwei Gruppen einteilen: solche, die unabhängig vom Modelltyp funktionieren (modellunabhängig), und solche, die den internen Aufbau eines bestimmten Modells nutzen (modellspezifisch).

Modellunabhängige Verfahren

LIME (Local Interpretable Model-agnostic Explanations) erzeugt Erklärungen für einzelne Vorhersagen. Das Verfahren verändert die Eingabedaten systematisch und beobachtet, wie sich die Ausgabe ändert. Daraus wird ein vereinfachtes Modell für den lokalen Bereich der Vorhersage erstellt.

Beispiel: LIME analysiert eine Textklassifikation. Das Verfahren entfernt einzelne Wörter aus dem Eingabetext und misst, wie stark sich die Klassifikation verändert. Wörter mit hohem Einfluss werden hervorgehoben. Bei einer Spam-Erkennung könnte das Wort "Gewinn" den größten Einfluss auf die Einordnung als Spam haben.

SHAP (SHapley Additive exPlanations) berechnet den Beitrag jedes Merkmals zu einer Vorhersage. Die Methode basiert auf Shapley-Werten aus der kooperativen Spieltheorie. Jedes Merkmal erhält einen numerischen Wert, der seinen Einfluss auf die Abweichung vom Durchschnittsergebnis angibt.

Beispiel: Ein Modell prognostiziert den Preis einer Immobilie mit 420.000 Euro. SHAP zeigt: Die Lage trägt +80.000 Euro bei, die Wohnfläche +50.000 Euro, das Baujahr -30.000 Euro. So entsteht eine additive Zerlegung der Vorhersage in Einzelbeiträge.

Modellspezifische Verfahren

Attention-basierte Erklärungen nutzen die Attention-Gewichte von Transformer-Modellen. Diese Gewichte zeigen, welche Teile der Eingabe das Modell bei der Verarbeitung eines bestimmten Tokens stark berücksichtigt hat.

Beispiel: Ein Übersetzungsmodell übersetzt den Satz "Die Katze sitzt auf der Matte" ins Englische. Die Attention-Gewichte zeigen, dass bei der Erzeugung des Wortes "cat" die höchste Aufmerksamkeit auf "Katze" liegt. Bei "mat" liegt sie auf "Matte".

Gradient-basierte Methoden berechnen, wie stark sich die Ausgabe ändert, wenn einzelne Eingabewerte leicht variiert werden. Saliency Maps visualisieren diese Gradienten als Heatmap über dem Eingabebild oder Eingabetext.

Beispiel: Ein Computer Vision-Modell erkennt einen Hund in einem Foto. Die Saliency Map zeigt hohe Gradientenwerte im Bereich der Ohren und der Schnauze. Bereiche im Hintergrund haben niedrige Werte. Das Modell hat seine Entscheidung auf die formgebenden Merkmale des Tieres gestützt.

Fachliche Einordnung: Attention-Gewichte werden häufig als Erklärung herangezogen. Studien wie Jain und Wallace (2019) zeigen jedoch, dass Attention-Verteilungen nicht zuverlässig mit der tatsächlichen Entscheidungsgrundlage korrelieren. Attention-basierte Erklärungen sind daher als Hinweis, nicht als Beweis zu lesen.

EingabedatenBild, Text, Tabelle
KI-ModellVorhersage erzeugen
VorhersageErgebnis
ErklärungsmodulLIME, SHAP, Attention
ErklärungMerkmalgewichte, Heatmap

Erklärungen nach der Entscheidung und Erklärungen durch Modelldesign

Erklärungsverfahren unterscheiden sich darin, wann die Erklärung entsteht. Post-hoc-Methoden wie LIME und SHAP werden nach der Vorhersage angewendet. Sie analysieren ein fertiges Modell von außen, ohne dessen Struktur zu verändern.

Intrinsisch erklärbare Modelle liefern die Erklärung als Teil ihrer eigenen Architektur. Entscheidungsbäume und lineare Regressionsmodelle gehören zu dieser Kategorie. Ihre Entscheidungslogik ist direkt ablesbar: Ein Entscheidungsbaum zeigt die exakte Abfolge von Bedingungen, die zum Ergebnis führen.

Beispiel: Ein Entscheidungsbaum für Kreditvergabe prüft: Ist das Jahreseinkommen über 40.000 Euro? Wenn ja: Ist die Beschäftigungsdauer über zwei Jahre? Wenn ja: Kredit genehmigt. Jeder Schritt ist direkt nachvollziehbar. Ein neuronales Netz, das die gleiche Aufgabe übernimmt, erreicht möglicherweise höhere Genauigkeit, liefert aber keine vergleichbar transparente Begründung.

Beispiel: Ein regelbasiertes Betrugserkennungssystem markiert eine Transaktion als verdächtig, weil der Betrag über 5.000 Euro liegt und die Transaktion aus einem Land stammt, in dem der Kontoinhaber noch nie aktiv war. Beide Kriterien sind explizit benannt. Ein Deep-Learning-Modell würde das gleiche Ergebnis liefern, aber die Kriterien müssten erst durch ein separates Erklärungsverfahren rekonstruiert werden.

In der Praxis besteht häufig ein Zielkonflikt: Intrinsisch erklärbare Modelle sind in vielen Aufgaben weniger leistungsfähig als komplexe Black-Box-Modelle. Dieser Zielkonflikt wird als Accuracy-Explainability-Tradeoff bezeichnet.

Globale und lokale Erklärungen

Erklärungen können sich auf das gesamte Modellverhalten beziehen oder auf eine einzelne Vorhersage. Globale Erklärungen beschreiben, welche Merkmale das Modell insgesamt am stärksten gewichtet. Lokale Erklärungen zeigen, welche Merkmale bei einer bestimmten Eingabe den Ausschlag gegeben haben.

Beispiel: Eine globale Analyse eines Modells zur Kundenbewertung zeigt, dass das Merkmal "bisheriges Zahlungsverhalten" den größten Gesamteinfluss hat. Eine lokale Analyse für Kunde A zeigt hingegen, dass bei diesem konkreten Fall der Wohnort den stärksten Einfluss auf die Bewertung hatte, weil der Wohnort stark vom Durchschnitt abwich.

Beispiel: Ein Empfehlungssystem für Nachrichtenartikel bevorzugt global betrachtet Artikel mit hoher Interaktionsrate. Für eine bestimmte Nutzerin empfiehlt es jedoch einen wenig gelesenen Fachartikel, weil ihre bisherige Lesehistorie stark in Richtung technischer Inhalte tendiert. Die lokale Erklärung weicht hier deutlich vom globalen Muster ab.

Beide Perspektiven ergänzen sich. Globale Erklärungen helfen bei der Validierung des Gesamtmodells. Lokale Erklärungen sind notwendig, wenn eine Einzelentscheidung begründet oder angefochten werden soll.

Regulatorische Anforderungen an Erklärbarkeit

Der EU AI Act klassifiziert KI-Systeme nach Risikostufen. Für Hochrisiko-Systeme gelten Transparenzpflichten, die Explainability direkt betreffen. Betreiber müssen nachweisen können, auf welcher Grundlage das System Entscheidungen trifft. Das betrifft Bereiche wie Kreditvergabe, Personalauswahl, Strafverfolgung und medizinische Diagnostik.

Die DSGVO enthält in Artikel 22 Regelungen zu automatisierten Einzelentscheidungen. Betroffene haben das Recht auf "aussagekräftige Informationen über die involvierte Logik". Ob daraus ein echtes Recht auf algorithmische Erklärung folgt, ist rechtlich umstritten, wird aber von Aufsichtsbehörden zunehmend so ausgelegt.

Beispiel: Ein Versicherungsunternehmen nutzt ein Machine-Learning-Modell zur Risikobewertung. Ein Antragsteller erhält einen überdurchschnittlich hohen Tarif. Unter dem EU AI Act muss das Unternehmen erklären können, welche Merkmale (Alter, Wohnort, Vorerkrankungen) zu diesem Tarif geführt haben. Eine reine Ausgabe "hohes Risiko" ohne Begründung reicht nicht aus.

Beispiel: Eine Behörde setzt ein automatisiertes System zur Vorauswahl von Sozialleistungsanträgen ein. Das System lehnt einen Antrag ab. Der Antragsteller verlangt eine Erklärung. Das System muss die entscheidungsrelevanten Merkmale offenlegen können, etwa fehlende Nachweise oder Überschreitung von Einkommensgrenzen.

Grenzen aktueller Erklärungsverfahren

Kein Erklärungsverfahren liefert eine vollständige oder objektiv korrekte Erklärung. Jede Methode ist eine Approximation mit eigenen Einschränkungen.

LIME erzeugt Erklärungen, die bei wiederholter Anwendung auf dieselbe Eingabe variieren können, weil das Verfahren mit zufälligen Störungen arbeitet. SHAP ist rechnerisch aufwändig und bei Modellen mit vielen Merkmalen nur näherungsweise berechenbar. Attention-Gewichte zeigen Korrelationen, nicht Kausalitäten.

Beispiel: Zwei Anwender wenden LIME auf dieselbe Vorhersage an. Anwender A erhält als wichtigstes Merkmal "Alter", Anwender B erhält "Einkommen". Beide Erklärungen sind lokal konsistent, aber nicht identisch. Diese Instabilität entsteht durch die Zufallskomponente im Störungsprozess.

Ein weiteres Problem betrifft die Verständlichkeit der Erklärungen. Shapley-Werte sind mathematisch fundiert, aber für Laien schwer zu interpretieren. Eine Erklärung, die nur Fachleute verstehen, erfüllt das Ziel der Nachvollziehbarkeit für Betroffene nicht.

Erklärungen können auch irreführend sein. Wenn ein post-hoc-Verfahren ein vereinfachtes Ersatzmodell erzeugt, bildet dieses Ersatzmodell das Originalmodell nur in einem begrenzten Bereich ab. Außerhalb dieses Bereichs kann die Erklärung falsche Rückschlüsse nahelegen.

Fachliche Einordnung: Rudin (2019) argumentiert in "Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead", dass post-hoc-Erklärungen bei sicherheitskritischen Anwendungen grundsätzlich unzureichend sind. Statt Black-Box-Modelle nachträglich zu erklären, sollten von Anfang an interpretierbare Modelle eingesetzt werden, sofern die Aufgabe es erlaubt.

Explainability in der Anwendungspraxis

In der medizinischen Diagnostik werden Erklärungsverfahren eingesetzt, um die Akzeptanz von KI-Empfehlungen bei Ärzten zu erhöhen. Ein Modell, das eine Diagnose vorschlägt und gleichzeitig die relevanten Befundmerkmale hervorhebt, wird eher als Entscheidungshilfe akzeptiert als eines, das nur ein Ergebnis ausgibt.

Beispiel: Ein dermatologisches KI-System klassifiziert ein Hautbild als möglicherweise malign. Zusätzlich markiert es die Bildregion, die zur Einschätzung beigetragen hat, mit einer Saliency Map. Die Ärztin vergleicht diese Markierung mit ihrer eigenen klinischen Einschätzung und entscheidet auf dieser Grundlage über die weitere Diagnostik.

Im Finanzsektor dient Explainability der regulatorischen Compliance und dem Risikomanagement. Banken müssen gegenüber der Aufsicht nachweisen, dass ihre Modelle keine diskriminierenden Muster aufweisen. SHAP-Analysen werden eingesetzt, um die Gewichtung von Merkmalen wie Geschlecht, Herkunft oder Postleitzahl zu prüfen.

Beispiel: Eine Bank analysiert ihr Kreditvergabemodell mit SHAP. Die Analyse zeigt, dass das Merkmal "Postleitzahl" einen signifikanten Einfluss auf die Ablehnungsrate hat. Bestimmte Postleitzahlen korrelieren stark mit ethnischer Zusammensetzung. Die Bank passt das Modell an, um diesen indirekten Diskriminierungseffekt (Proxy-Diskriminierung) zu reduzieren.

In autonomen Systemen ermöglicht Explainability die Fehleranalyse nach Vorfällen. Wenn ein autonomes Fahrzeug eine Fehlentscheidung trifft, müssen Ingenieure rekonstruieren können, welche Sensordaten und Modellberechnungen zum Fehlverhalten geführt haben.

Offene Forschungsfragen und Ausblick

Die Forschung arbeitet an mehreren ungelösten Problemen. Eines betrifft die Bewertung von Erklärungen selbst: Es gibt keinen etablierten Standard, um die Qualität einer Erklärung objektiv zu messen. Ist eine Erklärung "gut", wenn sie technisch korrekt ist, oder wenn der Empfänger sie versteht? Beide Kriterien führen zu unterschiedlichen Optimierungszielen.

Ein zweites Problem betrifft die Skalierung. Große Sprachmodelle mit Milliarden von Parametern lassen sich mit bestehenden Methoden nur eingeschränkt erklären. SHAP-Berechnungen werden bei dieser Größenordnung rechenintensiv und müssen stark approximiert werden. Neue Ansätze wie Mechanistic Interpretability versuchen, die internen Repräsentationen großer Modelle direkt zu analysieren.

Beispiel: Forschende untersuchen ein großes Sprachmodell und identifizieren einzelne Neuronen, die spezifisch auf toxische Sprache reagieren. Durch gezielte Deaktivierung dieser Neuronen lässt sich das Modellverhalten verändern. Dieser Ansatz geht über post-hoc-Erklärungen hinaus und ermöglicht direkte Eingriffe auf Basis der Erklärung.

Ein drittes Forschungsfeld betrifft kontrastive Erklärungen: Statt zu begründen, warum das Modell Ergebnis A gewählt hat, wird erklärt, warum es nicht Ergebnis B gewählt hat. Solche Erklärungen entsprechen eher der menschlichen Art, Entscheidungen zu hinterfragen.

Fachliche Einordnung: Das Feld der Mechanistic Interpretability, unter anderem vorangetrieben durch Anthropic und OpenAI, untersucht die kausalen Strukturen innerhalb neuronaler Netze. Erste Ergebnisse zeigen, dass sich in großen Modellen interpretierbare "Circuits" identifizieren lassen. Ob sich dieser Ansatz auf Modelle mit hunderten Milliarden Parametern skalieren lässt, ist Gegenstand aktiver Forschung.


Karl Kratz · 14.10.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz