Risikobewertung

Wenn ein Unternehmen ein neues KI-System einführt, stellt sich die Frage: Was kann schiefgehen, wie wahrscheinlich ist das, und wie schwer wären die Folgen? Die strukturierte Antwort auf diese Frage ist eine Risikobewertung.

Was eine Risikobewertung leistet

Risikobewertung ist ein systematischer Prozess. Potenzielle Gefahren werden identifiziert, nach Eintrittswahrscheinlichkeit und Schadenshöhe eingeschätzt und in eine Rangfolge gebracht. Das Ergebnis ist keine Garantie, sondern eine Entscheidungsgrundlage: Welche Risiken erfordern sofortiges Handeln, welche sind akzeptabel, welche lassen sich durch Maßnahmen reduzieren?

Beispiel: Ein Versicherungsunternehmen prüft vor der Einführung eines automatisierten Schadensbewertungssystems, ob das Modell bestimmte Kundengruppen systematisch benachteiligt. Die Eintrittswahrscheinlichkeit wird als mittel eingestuft, die potenzielle Schadenshöhe (Diskriminierungsklage, Reputationsverlust) als hoch. Das ergibt einen hohen Risikowert, der gezielte Gegenmaßnahmen auslöst.

Beispiel: Eine Personalabteilung setzt ein KI-gestütztes Screening für Bewerbungen ein. Die Risikobewertung identifiziert das Risiko, dass historische Einstellungsmuster zu geschlechtsspezifischen Verzerrungen führen. Das System wird mit zusätzlichen Fairness-Metriken überwacht.

Methoden der Risikoquantifizierung

Die Grundformel der Risikobewertung lautet: Risiko = Eintrittswahrscheinlichkeit × Schadenshöhe. In der Praxis existieren verschiedene Methoden, diese beiden Größen zu bestimmen und zu kombinieren.

Qualitative Methoden

Qualitative Ansätze ordnen Risiken in Kategorien ein (niedrig, mittel, hoch, kritisch). Die Einschätzung basiert auf Expertenwissen, nicht auf statistischen Daten. Das macht sie schnell anwendbar, aber anfällig für subjektive Verzerrungen.

Beispiel: Ein Workshop mit Fachexperten bewertet die Risiken eines Chatbot-Systems. Jeder Teilnehmer ordnet zehn identifizierte Risiken in eine 5×5-Matrix ein (Wahrscheinlichkeit × Auswirkung). Die aggregierten Ergebnisse zeigen, dass "halluzinierte Quellenangaben" von allen als hohes Risiko eingestuft wird.

Quantitative Methoden

Quantitative Ansätze arbeiten mit messbaren Größen: Fehlerquoten, historische Ausfalldaten, Monte-Carlo-Simulationen. Sie liefern präzisere Ergebnisse, setzen aber verlässliche Daten voraus.

Beispiel: Eine Bank berechnet den Value at Risk (VaR) ihres KI-gestützten Handelssystems. Basierend auf 10.000 simulierten Marktszenarien ergibt sich, dass der maximale Tagesverlust mit 99% Konfidenz unter 2,3 Millionen Euro liegt. Dieses Ergebnis fließt direkt in die Kapitalrücklage ein.

IdentifikationGefahren erfassen

AnalyseWahrscheinlichkeit + Schaden

PriorisierungRisikomatrix / Scoring

MaßnahmenReduzieren, Akzeptieren, Vermeiden

KI-spezifische Risikokategorien

KI-Systeme bringen Risikotypen mit sich, die in klassischen IT-Projekten selten auftreten. Sie lassen sich in technische, ethische und organisatorische Kategorien einteilen.

Technische Risiken

Modelle liefern falsche Ausgaben, ohne dass ein offensichtlicher Fehler vorliegt. Bei generativen Sprachmodellen äußert sich das als Halluzination: Das System produziert plausibel klingende, aber faktisch falsche Aussagen. Bei Klassifikationsmodellen zeigt sich das Risiko in systematisch verzerrten Vorhersagen, wenn die Trainingsdaten nicht repräsentativ sind.

Beispiel: Ein medizinisches Bilderkennungssystem wurde überwiegend mit Daten hellhäutiger Patienten trainiert. Bei dunklen Hauttypen sinkt die Erkennungsgenauigkeit für Melanome um 34 Prozentpunkte. Das Risiko war vor dem Produktiveinsatz nicht quantifiziert worden.

Ethische und gesellschaftliche Risiken

Algorithmische Entscheidungen können bestehende Diskriminierungen verstärken. Das geschieht nicht durch böse Absicht, sondern durch Muster in historischen Daten, die gesellschaftliche Ungleichheiten widerspiegeln.

Beispiel: Ein Kreditscoring-Modell nutzt die Postleitzahl als Feature. Da Postleitzahlen mit dem sozioökonomischen Status korrelieren, benachteiligt das System Antragsteller aus strukturschwachen Regionen systematisch. Die Risikobewertung hätte eine Analyse der Proxy-Variablen beinhalten müssen.

Organisatorische Risiken

Fehlende Dokumentation, unklare Verantwortlichkeiten und mangelndes Monitoring erzeugen Risiken, die sich erst im Betrieb zeigen. Ein Modell, das bei Einführung gut funktioniert, kann durch veränderte Eingabedaten (Data Drift) schleichend an Qualität verlieren.

Beispiel: Ein E-Commerce-Unternehmen setzt ein Empfehlungssystem ein. Nach sechs Monaten sinkt die Klickrate um 18%. Die Ursache: Das Sortiment hat sich verändert, das Modell wurde aber nie nachtrainiert. Es fehlte ein Monitoring-Prozess, der Abweichungen erkennt.

Regulatorische Anforderungen

Der EU AI Act macht Risikobewertungen für bestimmte KI-Systeme rechtsverbindlich. Die Verordnung teilt KI-Systeme in vier Risikoklassen ein: inakzeptabel, hoch, begrenzt und minimal. Für Hochrisiko-Systeme schreibt sie eine dokumentierte Risikobewertung vor, die während des gesamten Lebenszyklus aktuell gehalten werden muss.

Zusätzlich verlangt die DSGVO eine Datenschutz-Folgenabschätzung (DSFA), wenn KI-Systeme personenbezogene Daten verarbeiten. Die DSFA ist eine spezialisierte Form der Risikobewertung mit Fokus auf Datenschutzrisiken.

Beispiel: Ein Telekommunikationsanbieter entwickelt ein System zur automatisierten Kundensegmentierung. Da das System Profiling im Sinne der DSGVO betreibt, ist eine DSFA vorgeschrieben. Die Risikobewertung ergibt, dass die Verarbeitung von Standortdaten ein hohes Risiko für die Privatsphäre darstellt. Als Maßnahme wird die Standortauflösung auf Postleitzahlebene vergröbert.

Fachliche Einordnung: Die Risikobewertung im EU AI Act orientiert sich am New Legislative Framework der EU. Sie unterscheidet sich von ISO 31000 durch den Fokus auf Grundrechtsrisiken statt rein wirtschaftliche Risiken. Organisationen, die bereits ein Risikomanagement nach ISO 31000 betreiben, müssen ihr Framework um grundrechtsspezifische Kriterien erweitern.

Die Risikomatrix als Bewertungsinstrument

Eine Risikomatrix ist ein zweidimensionales Raster, das Eintrittswahrscheinlichkeit (y-Achse) gegen Schadenshöhe (x-Achse) aufträgt. Jedes identifizierte Risiko wird als Punkt in dieser Matrix verortet. Die resultierende Position bestimmt die Handlungspriorität.

Typische Abstufungen verwenden drei bis fünf Stufen pro Achse. Eine 5×5-Matrix ergibt 25 Felder, die üblicherweise in drei bis vier Farbzonen eingeteilt werden: grün (akzeptabel), gelb (beobachten), orange (Maßnahmen planen), rot (sofortiges Handeln).

Beispiel: Ein Logistikunternehmen bewertet sein KI-gestütztes Routenoptimierungssystem. Das Risiko "fehlerhafte Routenberechnung bei Extremwetter" wird mit Wahrscheinlichkeit 3 (mittel) und Schadenshöhe 4 (hoch) bewertet. Position in der Matrix: obere Mitte, Zone Orange. Maßnahme: Fallback auf manuelles Routing bei Wetterwarnungen.

Die Risikomatrix hat methodische Grenzen. Sie vereinfacht kontinuierliche Größen zu diskreten Stufen. Zwei Risiken mit identischer Matrixposition können in der Realität völlig unterschiedliche Profile aufweisen. Die Methode eignet sich gut für eine erste Übersicht, ersetzt aber keine detaillierte quantitative Analyse für kritische Risiken.

Risikobewertung in der Praxis

Die praktische Durchführung einer Risikobewertung folgt einem iterativen Ablauf. Sie beginnt mit der Festlegung des Bewertungsrahmens (Scope), geht über die Identifikation und Analyse zur Bewertung und endet mit der Maßnahmenplanung. Nach Umsetzung der Maßnahmen wird erneut bewertet.

In der KI-Entwicklung hat sich bewährt, die Risikobewertung in drei Phasen einzubetten: vor dem Training (Datenrisiken, Designentscheidungen), nach dem Training (Modellrisiken, Benchmark-Ergebnisse) und im Betrieb (Monitoring, Drift-Erkennung).

Beispiel: Ein Fintech-Startup entwickelt ein Modell zur Betrugserkennung. Vor dem Training zeigt die Risikobewertung, dass nur 0,3% der Transaktionsdaten tatsächlich Betrugsfälle sind. Dieses extreme Klassenungleichgewicht ist ein Datenrisiko, das die Modellleistung massiv beeinträchtigen kann. Als Maßnahme werden Oversampling-Techniken und angepasste Verlustfunktionen eingeplant.

Beispiel: Ein Industrieunternehmen betreibt ein prädiktives Wartungssystem. Das Monitoring zeigt nach vier Monaten eine steigende Falsch-Positiv-Rate. Die Ursache ist Data Drift: Ein Zulieferer hat die Sensorspezifikation geändert, die Eingabewerte liegen außerhalb des Trainingsbereichs. Die Risikobewertung hatte dieses Szenario als "mittleres Risiko" eingestuft, aber keinen automatischen Drift-Detektor vorgesehen.

Grenzen und Einordnung

Risikobewertungen sind Modelle der Realität, nicht die Realität selbst. Sie unterliegen mehreren systematischen Einschränkungen.

Erstens: Unbekannte Risiken werden nicht erfasst. Eine Risikobewertung kann nur bewerten, was identifiziert wurde. Neuartige Angriffsvektoren, unvorhergesehene Wechselwirkungen zwischen Modellkomponenten oder gesellschaftliche Veränderungen im Nutzungskontext bleiben unsichtbar, bis sie eintreten.

Zweitens: Subjektive Einschätzungen prägen das Ergebnis. Auch bei quantitativen Methoden fließen Annahmen über Verteilungen, Korrelationen und Szenarien ein. Verschiedene Expertengruppen kommen bei identischen Informationen zu unterschiedlichen Risikobewertungen.

Drittens: Risikobewertungen altern. Ein KI-System, das zum Zeitpunkt der Bewertung sicher erscheint, kann durch veränderte Datenverteilungen, neue Angriffsverfahren oder geänderte regulatorische Anforderungen in eine höhere Risikokategorie fallen.

Beispiel: Ein Gesichtserkennungssystem wurde 2023 mit einer Fehlerrate von 2% als risikoarm bewertet. Zwei Jahre später zeigt eine Studie, dass die Fehlerrate bei Personen mit Gesichtsmasken bei 23% liegt. Die ursprüngliche Risikobewertung hatte dieses Nutzungsszenario nicht berücksichtigt.

Fachliche Einordnung: Die Grenzen der Risikobewertung verweisen auf das Problem der epistemischen Unsicherheit im Unterschied zur aleatorischen Unsicherheit. Aleatorische Unsicherheit (z.B. Schwankungen in Sensordaten) lässt sich statistisch modellieren. Epistemische Unsicherheit (z.B. unbekannte Angriffsszenarien) entzieht sich der Quantifizierung. Fortgeschrittene Ansätze wie Bayessche Risikomodelle versuchen, beide Unsicherheitstypen zu unterscheiden, stoßen aber bei genuinen Black-Swan-Ereignissen an ihre Grenzen.

Karl Kratz · 18.06.2025 (aktualisiert 03.04.2026)

Business Compliance