Deep Learning

Wenn ein System aus Daten lernt, indem es sie durch viele aufeinander aufbauende Verarbeitungsschichten schickt, spricht man von Deep Learning. Jede Schicht erkennt zunehmend komplexere Zusammenhänge. Aus Pixeln werden Kanten, aus Kanten Formen, aus Formen Objekte.

Deep Learning ist ein Teilgebiet von Machine Learning. Der Unterschied liegt in der Tiefe: Statt mit einfachen Modellen zu arbeiten, nutzt Deep Learning neuronale Netze mit Dutzenden bis Hunderten von Schichten. Diese Tiefe ermöglicht es dem System, Repräsentationen automatisch zu lernen, statt auf manuell definierte Merkmale angewiesen zu sein.

Wie Schichten Abstraktion erzeugen

Ein tiefes neuronales Netz besteht aus einer Eingabeschicht, mehreren verdeckten Schichten (Hidden Layers) und einer Ausgabeschicht. Jede verdeckte Schicht transformiert die Daten der vorherigen Schicht. Dabei entstehen schrittweise abstraktere Repräsentationen.

Beispiel: Ein Bilderkennungssystem erhält ein Foto als Eingabe. Die erste Schicht erkennt Helligkeitsunterschiede und Kanten. Die zweite Schicht kombiniert Kanten zu Texturen. Die dritte Schicht erkennt Teile von Objekten, etwa Augen oder Räder. Die letzte Schicht ordnet das Bild einer Kategorie zu: "Katze" oder "Auto".

Beispiel: Ein Spracherkennungssystem verarbeitet Audiodaten. Die unteren Schichten erkennen Frequenzmuster und Phoneme. Die mittleren Schichten identifizieren Silben und Wörter. Die oberen Schichten erfassen Satzbedeutungen und Kontext.

Die entscheidende Eigenschaft: Niemand programmiert, welche Merkmale die einzelnen Schichten erkennen sollen. Das Netz lernt diese Hierarchie selbstständig aus den Trainingsdaten. Diesen Vorgang nennt man Repräsentationslernen (Representation Learning).

Architekturtypen und ihre Einsatzgebiete

Verschiedene Aufgaben erfordern verschiedene Netzarchitekturen. Drei Grundtypen dominieren:

Feedforward-Netze leiten Daten in eine Richtung durch die Schichten. Sie eignen sich für tabellarische Daten und einfache Klassifikationsaufgaben. Jede Schicht empfängt Eingaben nur von der vorherigen Schicht.

Beispiel: Ein Feedforward-Netz erhält Kundendaten (Alter, Kaufhistorie, Region) und prognostiziert die Wahrscheinlichkeit einer Kündigung. Die verdeckten Schichten lernen Kombinationen dieser Merkmale, die mit Abwanderung korrelieren.

Faltungsnetze (Convolutional Neural Networks, CNNs) verarbeiten räumlich strukturierte Daten. Sie schieben kleine Filter über die Eingabe und erkennen lokale Muster unabhängig von deren Position. CNNs bilden die Grundlage für Computer Vision.

Beispiel: Ein CNN für medizinische Bildanalyse erkennt Tumore in Röntgenbildern. Die Faltungsschichten erkennen Gewebestrukturen, Verdichtungen und Anomalien. Das Netz wurde mit Tausenden annotierten Röntgenbildern trainiert.

Rekurrente Netze (Recurrent Neural Networks, RNNs) verarbeiten sequenzielle Daten. Sie besitzen interne Gedächtniszustände, die Informationen aus früheren Zeitschritten speichern. Varianten wie LSTM (Long Short-Term Memory) lösen das Problem verschwindender Gradienten bei langen Sequenzen.

Beispiel: Ein LSTM-Netz analysiert Sensordaten einer Industriemaschine über Wochen. Aus dem zeitlichen Verlauf von Temperatur, Vibration und Drehzahl erkennt es Muster, die auf bevorstehende Ausfälle hindeuten.

Seit 2017 hat der Transformer RNNs in vielen Aufgaben abgelöst. Transformer verarbeiten Sequenzen parallel statt sequenziell und nutzen den Attention-Mechanismus, um Abhängigkeiten über beliebige Distanzen zu erfassen.

Wie ein tiefes Netz lernt

Deep Learning nutzt Backpropagation, um die Gewichte aller Schichten schrittweise anzupassen. Das Verfahren besteht aus zwei Phasen:

Vorwärtsdurchlauf (Forward Pass): Die Eingabe wandert durch alle Schichten bis zur Ausgabe. Das Netz erzeugt eine Vorhersage.

Rückwärtsdurchlauf (Backward Pass): Der Fehler zwischen Vorhersage und tatsächlichem Ergebnis wird berechnet. Dieser Fehler wird Schicht für Schicht zurückgeleitet. Jedes Gewicht erhält eine Information darüber, wie stark es zum Fehler beigetragen hat. Die Gewichte werden in Richtung geringeren Fehlers angepasst.

Dieser Prozess wird mit Millionen von Trainingsbeispielen wiederholt. Der Gradientenabstieg (Gradient Descent) bestimmt dabei die Schrittweite der Anpassung. Eine zu große Schrittweite führt zu Instabilität, eine zu kleine zu extrem langen Trainingszeiten.

Beispiel: Ein Netz soll handgeschriebene Ziffern erkennen (MNIST-Datensatz, 60.000 Trainingsbilder). In der ersten Trainingsepoche liegt die Genauigkeit bei etwa 30 %. Nach 10 Epochen erreicht ein gut konfiguriertes Netz über 98 %. Die Gewichte haben sich so eingestellt, dass die gelernten Merkmale zuverlässig zwischen den Ziffern 0 bis 9 unterscheiden.

EingabedatenBild, Text, Audio

Forward PassSchicht für Schicht

VorhersageKlassifikation / Wert

FehlerberechnungLoss Function

Backward PassGewichte anpassen

Die Rolle von Daten und Rechenleistung

Deep Learning unterscheidet sich von früheren Verfahren nicht nur durch die Architektur, sondern durch den Ressourcenbedarf. Tiefe Netze benötigen große Datenmengen und erhebliche Rechenkapazität.

Beispiel: Das Training von GPT-3 (175 Milliarden Parameter) erforderte etwa 3.640 Petaflop-Tage Rechenleistung. Das entspricht ungefähr 1.000 GPUs, die mehrere Wochen ununterbrochen rechnen. Der Trainingsdatensatz umfasste rund 570 Gigabyte bereinigten Text.

Beispiel: Ein mittelständisches Unternehmen trainiert ein CNN zur Qualitätskontrolle. Es benötigt 50.000 annotierte Bilder fehlerhafter und fehlerfreier Teile. Das Training auf einer einzelnen GPU dauert etwa 12 Stunden. Ohne ausreichende Daten generalisiert das Modell nicht: Es lernt die Trainingsbilder auswendig, versagt aber bei neuen Aufnahmen.

Dieses Auswendiglernen heißt Overfitting. Gegenmaßnahmen sind Dropout (zufälliges Deaktivieren von Neuronen während des Trainings), Datenaugmentation (künstliches Vergrößern des Datensatzes durch Transformationen) und Regularisierung (Bestrafung zu großer Gewichte).

Deep Learning in der Sprachverarbeitung

Die Verarbeitung natürlicher Sprache (NLP) hat sich durch Deep Learning seit 2013 in mehreren Durchbrüchen weiterentwickelt. Vor dieser Zeit basierten Sprachmodelle auf handgefertigten Regeln und statistischen Verfahren. Dann zeigten Embeddings (Word2Vec, GloVe), dass neuronale Netze semantische Beziehungen zwischen Wörtern lernen können.

Beispiel: In einem Word2Vec-Embedding liegt der Vektor von "König" minus "Mann" plus "Frau" nahe am Vektor von "Königin". Das Netz hat diese Beziehung aus Milliarden von Textpassagen gelernt, ohne dass jemand die Regel "Königin ist die weibliche Form von König" programmiert hat.

Der nächste Durchbruch kam 2018 mit vortrainierten Sprachmodellen (BERT, GPT). Diese Modelle werden auf riesigen Textmengen vortrainiert und dann für spezifische Aufgaben feinabgestimmt (Fine-Tuning). Ein einzelnes vortrainiertes Modell erreicht in Dutzenden verschiedener Aufgaben Spitzenwerte.

Beispiel: Ein auf medizinischen Fachtexten feinabgestimmtes BERT-Modell klassifiziert Patientenberichte. Es erkennt, ob ein Bericht eine bestimmte Diagnose enthält, und extrahiert relevante Symptome. Das Modell wurde mit 200.000 annotierten Berichten feinabgestimmt.

Aus diesen Grundlagen entwickelte sich Generative KI: Systeme, die auf Basis gelernter Muster neue Texte, Bilder oder Code erzeugen.

Grenzen und Limitationen

Deep Learning hat systematische Schwächen, die auch mit mehr Daten und Rechenleistung nicht verschwinden.

Mangelnde Erklärbarkeit: Tiefe Netze sind Blackboxes. Ein CNN kann ein Röntgenbild korrekt als "Pneumonie" klassifizieren, aber es kann nicht erklären, welche medizinischen Merkmale es erkannt hat. Methoden wie Grad-CAM visualisieren, welche Bildbereiche die Entscheidung beeinflusst haben, liefern aber keine kausale Begründung.

Beispiel: Ein Deep-Learning-Modell zur Kreditwürdigkeitsprüfung lehnt einen Antrag ab. Regulatorisch muss die Bank den Grund nennen können. Das Modell liefert nur einen Score, keine nachvollziehbare Begründung. In regulierten Branchen begrenzt das den Einsatz.

Datenabhängigkeit und Bias: Tiefe Netze reproduzieren Verzerrungen aus den Trainingsdaten. Wenn Bewerbungsunterlagen überwiegend von einer Geschlechtergruppe stammen, lernt das Modell diese Verzerrung als Muster. Amazon stellte 2018 ein solches Recruiting-System ein, weil es systematisch weibliche Bewerberinnen benachteiligte.

Beispiel: Ein Gesichtserkennungssystem, trainiert hauptsächlich mit Fotos hellhäutiger Personen, zeigt bei dunkelhäutigen Personen Fehlerraten von über 30 %, während die Fehlerrate bei hellhäutigen Personen unter 1 % liegt (NIST FRVT Report 2019).

Adversarial Attacks: Minimale, für Menschen unsichtbare Änderungen an Eingabedaten können die Ausgabe eines tiefen Netzes komplett verändern. Ein um wenige Pixel modifiziertes Stoppschild wird als Geschwindigkeitsbegrenzung klassifiziert. Diese Anfälligkeit ist ein grundsätzliches Problem der aktuellen Architekturen.

Energieverbrauch: Das Training großer Modelle verbraucht erhebliche Energie. Das Training von GPT-3 verursachte geschätzt 502 Tonnen CO₂-Emissionen. Die Inferenz (Nutzung des trainierten Modells) ist energetisch günstiger, aber bei Milliarden Anfragen pro Tag summiert sich auch dieser Verbrauch.

Fachliche Einordnung: Deep Learning erzielt in vielen Benchmark-Aufgaben (ImageNet, GLUE, SuperGLUE) übermenschliche Ergebnisse. Das bedeutet nicht, dass diese Systeme "verstehen". Sie optimieren statistische Korrelationen. Die Diskussion um emergente Fähigkeiten großer Modelle (In-Context Learning, Chain-of-Thought Reasoning) ist wissenschaftlich offen. Ob diese Phänomene echte Generalisierung oder sophisticated Pattern Matching darstellen, ist Gegenstand aktiver Forschung (Stand 2025).

Karl Kratz · 18.11.2025 (aktualisiert 20.01.2026)

Technologie Künstliche Intelligenz Machine Learning