Machine Learning

Ein System erhält Daten, erkennt darin Zusammenhänge und trifft auf dieser Basis Vorhersagen. Es wird nicht Schritt für Schritt programmiert, sondern leitet eigene Regeln ab. Das Fachgebiet, das solche lernenden Systeme erforscht und entwickelt, heißt Machine Learning.

Wie ein System aus Daten lernt

Ein Machine-Learning-System durchläuft drei Phasen: Datenaufnahme, Mustererkennung und Regelableitung. In der ersten Phase erhält es einen Datensatz. Das können Bilder, Texte, Messwerte oder Transaktionsdaten sein. In der zweiten Phase sucht es nach statistischen Regelmäßigkeiten. In der dritten Phase verdichtet es die erkannten Muster zu einem Modell, das auf neue, unbekannte Daten angewendet werden kann.

Beispiel: Ein Online-Shop speichert für jeden Kunden, welche Produkte angesehen und welche gekauft wurden. Das System erkennt, dass Kunden, die Laufschuhe kaufen, häufig auch Funktionssocken bestellen. Bei neuen Kunden mit ähnlichem Verhalten schlägt es Funktionssocken vor, noch bevor eine explizite Suche stattfindet.

Beispiel: Eine Produktionsanlage erfasst Temperatur, Druck und Vibration an 200 Sensoren. Das ML-System lernt aus 12 Monaten Betriebsdaten die normalen Wertebereiche. Weicht ein Sensor-Cluster ab, meldet es eine Anomalie, bevor ein mechanischer Defekt auftritt.

Der entscheidende Unterschied zu herkömmlicher Software: Bei klassischer Programmierung formuliert ein Entwickler explizite Regeln ("Wenn Temperatur > 80 Grad, dann Warnung"). Beim Machine Learning leitet das System solche Schwellenwerte selbst aus den Daten ab.

Fachliche Einordnung: Machine Learning ist ein Teilgebiet der Informatik und der Statistik. Die theoretischen Grundlagen reichen zurück auf das Perceptron-Modell von Frank Rosenblatt (1958) und die statistische Lerntheorie von Vapnik und Chervonenkis. In der Praxis hat sich das Feld ab 2012 durch die Verfügbarkeit großer Datensätze und leistungsfähiger GPUs stark beschleunigt.

Drei Lernverfahren im Vergleich

Machine Learning unterscheidet drei grundlegende Lernverfahren. Sie unterscheiden sich darin, welche Art von Rückmeldung das System während des Trainings erhält.

Lernen mit beschrifteten Daten

Das System erhält Eingabedaten zusammen mit der korrekten Ausgabe. Es lernt, den Zusammenhang zwischen Eingabe und Ausgabe nachzubilden. Dieses Verfahren heißt Supervised Learning.

Beispiel: Ein Kreditinstitut klassifiziert Kreditanträge. Der Datensatz enthält 50.000 frühere Anträge mit Merkmalen wie Einkommen, Beschäftigungsdauer und Schufa-Score. Jeder Antrag ist mit dem Ergebnis versehen: genehmigt oder abgelehnt. Das Modell lernt die Entscheidungsgrenze und bewertet neue Anträge automatisch.

Lernen ohne Zielvorgabe

Das System erhält nur Eingabedaten ohne Beschriftung. Es sucht eigenständig nach Gruppen, Häufungen oder Ausreißern. Dieses Verfahren heißt Unsupervised Learning.

Beispiel: Ein Telekommunikationsanbieter analysiert das Nutzungsverhalten von 2 Millionen Kunden. Das System findet fünf Cluster: Vieltelefonierer, Daten-Nutzer, Wenignutzer, Roaming-Nutzer und Prepaid-Nutzer. Kein Mensch hat diese Gruppen definiert. Das System hat sie aus den Nutzungsmustern abgeleitet.

Lernen durch Belohnung und Bestrafung

Das System interagiert mit einer Umgebung und erhält nach jeder Aktion eine Belohnung oder Bestrafung. Es optimiert seine Strategie, um die kumulative Belohnung zu maximieren. Dieses Verfahren heißt Reinforcement Learning.

Beispiel: Ein Roboterarm in einer Logistikhalle greift Pakete von einem Förderband. Jeder erfolgreiche Griff ergibt +1 Punkt, jedes Fallenlassen -1. Nach 100.000 Versuchen hat der Arm eine Griffstrategie erlernt, die 94 Prozent Erfolgsrate erreicht.

DatenBilder, Texte, Messwerte

SupervisedBeschriftete Daten

UnsupervisedOhne Zielvorgabe

ReinforcementBelohnung/Bestrafung

Trainiertes ModellGelernte Regeln

Vorhersage

Verbreitete Algorithmen und ihre Einsatzgebiete

Innerhalb der drei Lernverfahren existieren zahlreiche Algorithmen. Jeder eignet sich für bestimmte Datentypen und Aufgabenstellungen.

Lineare Regression modelliert den Zusammenhang zwischen einer oder mehreren Eingabegrößen und einer numerischen Zielgröße. Sie eignet sich für Vorhersagen, bei denen der Zusammenhang annähernd linear ist.

Beispiel: Ein Immobilienportal schätzt den Verkaufspreis einer Wohnung anhand von Wohnfläche, Baujahr, Lage und Stockwerk. Das Modell berechnet für jedes Merkmal einen Gewichtungsfaktor. Für eine 75-Quadratmeter-Wohnung im 3. Stock in München ergibt die Summe der gewichteten Merkmale einen prognostizierten Preis von 485.000 Euro.

Entscheidungsbäume teilen den Datenraum durch eine Folge von Ja-Nein-Fragen in immer feinere Segmente auf. Jeder Knoten des Baums repräsentiert eine Bedingung, jedes Blatt eine Entscheidung. In der Praxis werden oft Hunderte solcher Bäume kombiniert. Dieses Ensemble-Verfahren heißt Random Forest.

Beispiel: Eine Versicherung prüft Schadenmeldungen. Der Entscheidungsbaum fragt: Schadenshöhe über 10.000 Euro? Ja. Unfallort im Ausland? Nein. Polizeibericht vorhanden? Ja. Ergebnis: automatische Freigabe. Bei einem Random Forest aus 500 Bäumen stimmen die Bäume ab. Wenn 420 von 500 "Freigabe" sagen, wird der Schaden freigegeben.

Support Vector Machines (SVM) suchen in hochdimensionalen Räumen die Trennfläche, die zwei Klassen mit dem größten Abstand trennt. Sie eignen sich besonders bei kleinen bis mittleren Datensätzen mit vielen Merkmalen.

Beispiel: Ein Labor klassifiziert Gewebeproben als gutartig oder bösartig anhand von 30 Zellkern-Merkmalen (Radius, Textur, Symmetrie). Der SVM-Algorithmus findet eine Hyperebene im 30-dimensionalen Raum, die beide Klassen optimal trennt. Auf dem Testdatensatz erreicht er 97 Prozent Genauigkeit.

Was während des Trainings passiert

Training ist der Vorgang, bei dem ein ML-System seine internen Parameter an den Datensatz anpasst. Der Ablauf folgt einem festen Muster: Das System berechnet eine Vorhersage, vergleicht sie mit dem tatsächlichen Ergebnis, quantifiziert den Fehler über eine Verlustfunktion und korrigiert die Parameter in die Richtung, die den Fehler verringert.

Die Korrektur der Parameter erfolgt über ein Optimierungsverfahren. Das bekannteste ist Gradient Descent: Die Verlustfunktion wird nach jedem Parameter abgeleitet, und die Parameter werden entlang des steilsten Abfalls verschoben. Die Schrittweite heißt Lernrate. Eine zu hohe Lernrate führt dazu, dass das Optimum übersprungen wird. Eine zu niedrige verlängert das Training und kann in lokalen Minima steckenbleiben.

Beispiel: Ein Spracherkennungssystem wird auf 10.000 Stunden Audiodaten trainiert. In Epoche 1 liegt die Wortfehlerrate bei 45 Prozent. Nach 20 Epochen sinkt sie auf 8 Prozent. Ab Epoche 25 stagniert sie. Der Entwickler reduziert die Lernrate um den Faktor 10 und trainiert weitere 10 Epochen. Die Fehlerrate sinkt auf 5,2 Prozent.

Die Aufteilung des Datensatzes folgt einem Standardschema: Ein Trainingssatz (typisch 70 bis 80 Prozent) dient dem eigentlichen Lernen. Ein Validierungssatz (10 bis 15 Prozent) wird genutzt, um Hyperparameter zu optimieren und Overfitting früh zu erkennen. Ein Testsatz (10 bis 15 Prozent) misst die Leistung auf Daten, die das System nie gesehen hat.

Tiefe Netze und Deep Learning

Wenn ein neuronales Netz mehr als zwei verborgene Schichten besitzt, spricht man von einem tiefen Netz. Das zugehörige Forschungsfeld heißt Deep Learning. Tiefe Netze können Repräsentationen auf mehreren Abstraktionsebenen lernen: Frühe Schichten erkennen einfache Muster wie Kanten oder Frequenzen. Spätere Schichten kombinieren diese zu komplexeren Konzepten wie Gesichtern oder Wörtern.

Beispiel: Ein Bilderkennungssystem für Röntgenbilder hat 50 Schichten. Schicht 1 erkennt Hell-Dunkel-Kontraste. Schicht 10 erkennt Knochenstrukturen. Schicht 30 erkennt Frakturmuster. Schicht 50 gibt eine Wahrscheinlichkeit aus: "Fraktur des Radius mit 91 Prozent Konfidenz."

Die Transformer-Architektur hat ab 2017 die Verarbeitung von Sprache und anderen sequenziellen Daten verändert. Statt Daten Position für Position zu verarbeiten, berechnet ein Transformer die Beziehung jedes Elements zu jedem anderen Element gleichzeitig. Diesen Mechanismus nennt man Self-Attention.

Beispiel: Ein Übersetzungssystem auf Transformer-Basis übersetzt den Satz "Die Bank am Fluss ist grün" korrekt als Sitzbank, weil der Attention-Mechanismus den Kontext "Fluss" und "grün" mit "Bank" verknüpft. Ein älteres Modell ohne Attention übersetzte denselben Satz häufig mit der Bedeutung Geldinstitut.

Machine Learning in der Praxis

Der Weg von einem Prototyp zu einem produktiven ML-System umfasst mehrere Stufen, die über die reine Modellentwicklung hinausgehen.

Datenqualität. Die Leistung eines ML-Systems hängt stark von der Qualität der Trainingsdaten ab. Fehlende Werte, inkonsistente Formate und systematische Verzerrungen in den Daten übertragen sich auf das Modell. In der Praxis entfallen 60 bis 80 Prozent der Projektzeit auf die Datenaufbereitung.

Beispiel: Ein Einzelhändler trainiert ein Nachfrage-Prognosemodell. Die Verkaufsdaten aus 2020 enthalten einen pandemiebedingten Einbruch. Ohne Bereinigung prognostiziert das Modell für März jeden Jahres einen Rückgang von 40 Prozent. Erst nach dem Entfernen der Ausreißer-Monate liefert es brauchbare Prognosen.

Feature Engineering. Rohdaten werden selten direkt an ein Modell übergeben. Stattdessen werden aussagekräftige Merkmale (Features) daraus abgeleitet. Aus einem Zeitstempel lassen sich Wochentag, Monat, Feiertags-Flag und Tageszeit extrahieren.

Beispiel: Ein Taxiunternehmen prognostiziert die Nachfrage pro Stadtviertel. Aus den GPS-Daten der letzten drei Jahre extrahiert das Team: Wochentag, Uhrzeit, Niederschlag, Großereignisse in der Nähe und Feiertage. Das Modell mit diesen Features prognostiziert 23 Prozent genauer als eines, das nur Uhrzeit und Wochentag nutzt.

Deployment und Monitoring. Ein trainiertes Modell wird über eine API oder als Batch-Prozess in die bestehende IT-Infrastruktur eingebettet. Nach der Inbetriebnahme muss die Modellleistung kontinuierlich überwacht werden. Wenn sich die Eingabedaten im Laufe der Zeit verändern (Data Drift), sinkt die Vorhersagequalität. Regelmäßiges Nachtrainieren mit aktuellen Daten ist dann notwendig.

Grenzen und Risiken

Machine Learning hat klar definierte Grenzen, die sich aus der Methodik selbst ergeben.

Overfitting. Ein Modell, das den Trainingsdatensatz auswendig lernt statt allgemeine Muster zu extrahieren, versagt auf neuen Daten. Ein Entscheidungsbaum mit 10.000 Blättern auf einem Datensatz von 10.000 Einträgen hat jedes einzelne Beispiel memoriert. Seine Genauigkeit auf dem Trainingssatz beträgt 100 Prozent, auf dem Testsatz 52 Prozent.

Bias in Trainingsdaten. Wenn der Trainingsdatensatz systematische Verzerrungen enthält, reproduziert das Modell diese Verzerrungen.

Beispiel: Ein Recruiting-Tool wurde auf Bewerbungsdaten der letzten 10 Jahre trainiert. In diesem Zeitraum wurden überwiegend männliche Bewerber eingestellt. Das Modell lernte, Bewerbungen von Frauen systematisch schlechter zu bewerten, obwohl das Geschlecht nicht als Merkmal eingegeben wurde. Der Bias wirkte indirekt über korrelierte Merkmale wie Vereinsmitgliedschaften und Formulierungen.

Erklärbarkeit. Viele ML-Modelle arbeiten als Black Box. Ein tiefes neuronales Netz mit 100 Millionen Parametern liefert eine Vorhersage, aber keine nachvollziehbare Begründung. In regulierten Branchen wie Medizin, Finanzwesen und Strafrecht ist diese fehlende Transparenz problematisch. Methoden wie SHAP und LIME versuchen, die Entscheidungsfaktoren nachträglich sichtbar zu machen, liefern aber nur Annäherungen.

Beispiel: Eine Bank muss nach EU-Recht begründen, warum ein Kreditantrag abgelehnt wurde. Das neuronale Netz gibt nur eine Ablehnungswahrscheinlichkeit von 78 Prozent aus. Erst eine SHAP-Analyse zeigt: Die drei wichtigsten Faktoren waren niedriges Einkommen, kurze Beschäftigungsdauer und hohe bestehende Kreditlast.

Datenabhängigkeit. ML-Systeme können nur Muster erkennen, die in den Trainingsdaten vorhanden sind. Ein System, das auf Daten aus Deutschland trainiert wurde, versagt möglicherweise bei Daten aus Japan, auch wenn die Aufgabenstellung identisch ist.

Rechenressourcen. Große Modelle benötigen erhebliche Rechenleistung. Das Training eines Sprachmodells mit mehreren Milliarden Parametern kann Wochen auf spezialisierten GPU-Clustern dauern und Energiekosten im sechsstelligen Bereich verursachen.

Fachliche Einordnung: Die Diskussion um Erklärbarkeit und Fairness von ML-Systemen hat seit 2018 an Intensität gewonnen. Regulierungsrahmen wie der EU AI Act (in Kraft seit 2024) klassifizieren ML-Systeme nach Risikostufen und schreiben für Hochrisiko-Anwendungen Transparenz- und Prüfpflichten vor. Die technische Forschung zu Explainable AI (XAI) ist aktiv, hat aber bislang keine universelle Lösung hervorgebracht.

Karl Kratz · 27.07.2025 (aktualisiert 25.08.2025)

Technologie Künstliche Intelligenz Machine Learning