Neural Network

Wenn ein System aus Beispielen lernt, Muster erkennt und Vorhersagen trifft, arbeitet häufig ein Netzwerk aus künstlichen Neuronen im Hintergrund. Diese Struktur heißt Neural Network.

Ein Neural Network ordnet künstliche Neuronen in Schichten an. Jede Schicht empfängt Eingaben, verarbeitet sie und gibt Ergebnisse an die nächste Schicht weiter. Die Verbindungen zwischen den Neuronen tragen Gewichte (Weights), die bestimmen, wie stark ein Signal weitergeleitet wird. Durch Anpassung dieser Gewichte während des Trainings lernt das Netzwerk, relevante Muster in den Daten zu erkennen.

Die Idee geht auf die 1940er Jahre zurück. Warren McCulloch und Walter Pitts beschrieben 1943 ein mathematisches Modell eines Neurons. Frank Rosenblatt baute 1958 das Perceptron, ein einfaches Netzwerk mit einer Schicht trainierbarer Gewichte. Erst die Verfügbarkeit großer Datensätze und leistungsfähiger Hardware ab den 2000er Jahren machte tiefe Netzwerke praktisch nutzbar.

Aufbau eines Neural Networks

Ein Neural Network besteht aus drei Typen von Schichten: einer Eingabeschicht (Input Layer), einer oder mehreren verdeckten Schichten (Hidden Layers) und einer Ausgabeschicht (Output Layer).

Die Eingabeschicht nimmt Rohdaten entgegen. Das können Zahlenwerte, Pixelintensitäten oder kodierte Textfragmente sein. Jedes Neuron der Eingabeschicht entspricht einem Merkmal der Eingabe.

In den verdeckten Schichten findet die eigentliche Berechnung statt. Jedes Neuron summiert seine gewichteten Eingaben, addiert einen Schwellenwert (Bias) und wendet eine nichtlineare Funktion an. Diese nichtlineare Funktion heißt Aktivierungsfunktion. Ohne sie könnte das Netzwerk nur lineare Zusammenhänge abbilden.

Beispiel: Ein Netzwerk zur Erkennung handgeschriebener Ziffern hat 784 Eingabeneuronen (28×28 Pixel), zwei verdeckte Schichten mit je 128 Neuronen und 10 Ausgabeneuronen (Ziffern 0 bis 9). Jedes Ausgabeneuron gibt eine Wahrscheinlichkeit für die jeweilige Ziffer an.

Beispiel: Ein Spamfilter erhält als Eingabe numerische Repräsentationen von E-Mail-Texten. Die verdeckte Schicht erkennt Muster wie bestimmte Wortkombinationen. Die Ausgabeschicht liefert einen Wert zwischen 0 (kein Spam) und 1 (Spam).

EingabeschichtRohdaten

Hidden Layer 1Gewichtete Summe + Aktivierung

Hidden Layer 2Gewichtete Summe + Aktivierung

AusgabeschichtVorhersage

Wie ein Neural Network lernt

Das Training eines Neural Networks folgt einem Zyklus: Vorhersage treffen, Fehler messen, Gewichte anpassen. Dieser Zyklus wiederholt sich über tausende bis millionen Durchläufe.

Im ersten Schritt (Forward Pass) fließen die Eingabedaten durch alle Schichten bis zur Ausgabe. Das Netzwerk produziert eine Vorhersage. Eine Verlustfunktion (Loss Function) berechnet die Abweichung zwischen Vorhersage und tatsächlichem Zielwert.

Im zweiten Schritt fließt das Fehlersignal rückwärts durch das Netzwerk. Dieser Vorgang heißt Backpropagation. Er berechnet für jedes Gewicht, wie stark es zum Gesamtfehler beigetragen hat.

Die Gewichte werden dann in die Richtung verschoben, die den Fehler verringert. Die Schrittweite dieser Anpassung bestimmt die Lernrate (Learning Rate). Eine zu hohe Lernrate führt dazu, dass das Netzwerk über das Optimum hinausschießt. Eine zu niedrige Lernrate verlangsamt das Training erheblich.

Beispiel: Ein Netzwerk soll Hauspreiese vorhersagen. Nach dem ersten Durchlauf weicht die Vorhersage um 50.000 Euro vom tatsächlichen Preis ab. Die Backpropagation berechnet, welche Gewichte (etwa für Wohnfläche oder Lage) den größten Fehleranteil tragen. Nach 10.000 Durchläufen liegt die durchschnittliche Abweichung bei 5.000 Euro.

Beispiel: Bei der Klassifikation medizinischer Bilder startet das Netzwerk mit zufälligen Gewichten und erreicht 50% Genauigkeit (Zufallsniveau bei zwei Klassen). Nach 100 Trainingsepochen steigt die Genauigkeit auf 94%. Das Netzwerk hat gelernt, relevante visuelle Merkmale wie Kanten, Texturen und Formen zu gewichten.

Fachliche Einordnung: Die Verlustfunktion definiert die Optimierungslandschaft. Bei konvexen Verlustfunktionen (z.B. Mean Squared Error mit linearer Ausgabe) existiert ein globales Minimum. Bei nichtkonvexen Verlustlandschaften tiefer Netzwerke gibt es zahlreiche lokale Minima und Sattelpunkte. Empirisch erreichen stochastische Optimierer wie Adam oder SGD mit Momentum dennoch Bereiche niedriger Verluste, weil viele lokale Minima ähnlich gute Generalisierungsleistung zeigen.

Aktivierungsfunktionen und ihre Wirkung

Die Aktivierungsfunktion eines Neurons entscheidet, ob und wie stark ein Signal weitergegeben wird. Sie führt Nichtlinearität in das Netzwerk ein. Ohne diese Eigenschaft wäre ein Netzwerk mit beliebig vielen Schichten mathematisch äquivalent zu einer einzigen linearen Transformation.

Die Sigmoid-Funktion bildet jeden Eingabewert auf das Intervall zwischen 0 und 1 ab. Sie war in frühen Netzwerken verbreitet, hat aber ein praktisches Problem: Bei sehr hohen oder sehr niedrigen Eingabewerten wird der Gradient extrem klein. Das Netzwerk lernt in diesen Bereichen kaum noch. Dieses Phänomen heißt Vanishing Gradient.

ReLU (Rectified Linear Unit) gibt alle positiven Werte unverändert weiter und setzt negative Werte auf null. ReLU ist rechnerisch effizient und vermeidet das Vanishing-Gradient-Problem für positive Werte. Ein Nachteil: Neuronen mit dauerhaft negativen Eingaben geben permanent null aus und lernen nicht mehr (Dead Neurons).

Varianten wie Leaky ReLU lassen auch für negative Eingaben einen kleinen Wert durch (z.B. 0,01 mal der Eingabe). GELU (Gaussian Error Linear Unit) glättet den Übergang bei null und wird in Transformer-Architekturen eingesetzt.

Beispiel: Ein Netzwerk mit Sigmoid-Aktivierung und 20 Schichten hat in den ersten Schichten Gradienten nahe null. Das Training stagniert. Der Austausch gegen ReLU löst das Problem: Die Gradienten bleiben in den positiven Bereichen konstant, und das Netzwerk konvergiert innerhalb weniger Epochen.

Beispiel: In einem Textklassifikator mit drei Hidden Layers zeigt die Analyse, dass 15% der Neuronen nach dem Training dauerhaft null ausgeben (Dead Neurons durch ReLU). Der Wechsel zu Leaky ReLU reduziert diesen Anteil auf 2%, und die Klassifikationsgenauigkeit steigt um 1,8 Prozentpunkte.

Netzwerkarchitekturen im Vergleich

Die einfachste Architektur ist das Feedforward-Netzwerk. Daten fließen in einer Richtung von der Eingabe zur Ausgabe. Jedes Neuron einer Schicht ist mit jedem Neuron der nächsten Schicht verbunden (Fully Connected). Diese Architektur eignet sich für tabellarische Daten und einfache Klassifikationsaufgaben.

Convolutional Neural Networks (CNNs) nutzen lokale Filter, die über die Eingabe gleiten. Statt jedes Neuron mit jedem zu verbinden, teilen sich Neuronen innerhalb eines Filters dieselben Gewichte. Das reduziert die Parameterzahl drastisch und nutzt die räumliche Struktur von Bildern aus.

Rekurrente Netzwerke (RNNs) verarbeiten sequenzielle Daten, indem sie ihren internen Zustand von einem Zeitschritt zum nächsten weitergeben. Varianten wie LSTM (Long Short-Term Memory) lösen das Problem des Vanishing Gradient bei langen Sequenzen durch spezielle Schaltmechanismen (Gates).

Transformer-Netzwerke verzichten auf Rekurrenz und verarbeiten alle Positionen einer Sequenz gleichzeitig über Self-Attention. Diese Architektur skaliert besser mit der Hardware und bildet die Grundlage aktueller Sprachmodelle.

Beispiel: Ein Bilderkennungssystem für industrielle Qualitätskontrolle verwendet ein CNN mit 5 Convolutional Layers. Es erkennt Kratzer, Risse und Verfräbungen auf Oberflächen mit einer Genauigkeit von 97,3%. Ein Feedforward-Netzwerk mit derselben Parameteranzahl erreicht nur 81%, weil es die räumliche Nachbarschaft der Pixel ignoriert.

Beispiel: Eine Spracherkennungssoftware nutzt ein LSTM-Netzwerk, das Audiodaten in 20-Millisekunden-Segmenten verarbeitet. Der interne Zustand speichert Kontext aus vorangegangenen Segmenten. So kann das Netzwerk zwischen "Wir" und "wir" am Satzanfang unterscheiden und "Bank" je nach Kontext als Finanzinstitut oder Sitzgelegenheit transkribieren.

Training in der Praxis

Das Training eines Neural Networks erfordert drei Komponenten: einen Datensatz, eine Verlustfunktion und einen Optimierer.

Der Datensatz wird typischerweise in drei Teile aufgeteilt: Trainingsdaten (70 bis 80%), Validierungsdaten (10 bis 15%) und Testdaten (10 bis 15%). Das Netzwerk lernt ausschließlich auf den Trainingsdaten. Die Validierungsdaten dienen dazu, während des Trainings die Generalisierungsfähigkeit zu überwachen. Die Testdaten werden erst nach Abschluss des Trainings zur finalen Bewertung herangezogen.

Overfitting entsteht, wenn das Netzwerk die Trainingsdaten auswendig lernt, statt allgemeine Muster zu extrahieren. Die Trainingsgenauigkeit steigt weiter, während die Validierungsgenauigkeit stagniert oder sinkt. Gegenmaßnahmen sind Dropout (zufälliges Deaktivieren von Neuronen während des Trainings), L2-Regularisierung (Bestrafung großer Gewichte) und frühes Stoppen des Trainings, wenn die Validierungsleistung nicht mehr steigt.

Batch-Normalisierung standardisiert die Ausgaben jeder Schicht auf einen Mittelwert von null und eine Varianz von eins. Das stabilisiert das Training und erlaubt höhere Lernraten. In der Praxis beschleunigt Batch-Normalisierung die Konvergenz um den Faktor 2 bis 5.

Beispiel: Ein Sentiment-Analyse-Modell erreicht nach 50 Epochen 99% Genauigkeit auf den Trainingsdaten, aber nur 72% auf den Validierungsdaten. Das Einfügen von Dropout mit Rate 0,3 (30% der Neuronen werden pro Durchlauf deaktiviert) senkt die Trainingsgenauigkeit auf 88%, hebt die Validierungsgenauigkeit aber auf 84%.

Beispiel: Ein Deep Learning-Modell zur Betrugserkennung bei Kreditkartentransaktionen wird auf 10 Millionen Transaktionen trainiert, von denen 0,1% betrügerisch sind. Ohne Gewichtung der Klassen klassifiziert das Netzwerk alle Transaktionen als legitim (99,9% Genauigkeit, aber 0% Erkennung von Betrug). Mit Class Weighting oder Oversampling der Minderheitsklasse erkennt es 89% der betrügerischen Transaktionen bei einer Falsch-Positiv-Rate von 3%.

Wie Netzwerke Bedeutung in Zahlen kodieren

Bevor Daten in ein Neural Network fließen, müssen sie in numerische Form gebracht werden. Bei Bildern geschieht das direkt über Pixelwerte. Bei Text, Kategorien oder anderen nicht-numerischen Daten erzeugt das Netzwerk interne Repräsentationen. Diese gelernten Zahlenvektoren heißen Embeddings.

Ein Embedding ordnet jedem Element (Wort, Produkt, Nutzer) einen Vektor mit fester Dimension zu. Durch das Training rücken ähnliche Elemente im Vektorraum näher zusammen. Die Distanz zwischen Vektoren spiegelt semantische Ähnlichkeit wider.

Beispiel: In einem trainierten Wort-Embedding mit 300 Dimensionen liegt der Vektor für "König" nahe bei "Monarch" und weit entfernt von "Fahrrad". Die Vektorarithmetik König minus Mann plus Frau ergibt einen Vektor nahe bei "Königin".

Beispiel: Ein Empfehlungssystem repräsentiert 500.000 Produkte und 2 Millionen Nutzer als 64-dimensionale Embeddings. Produkte, die häufig zusammen gekauft werden, erhalten ähnliche Vektoren. Das System empfiehlt einem Nutzer Produkte, deren Vektoren nahe an seinem Nutzerprofil-Vektor liegen.

Fachliche Einordnung: Embeddings bilden die Schnittstelle zwischen diskreten Symbolen und dem kontinuierlichen Rechenraum eines Neural Networks. Die Qualität eines Embeddings hängt direkt von der Trainingsaufgabe ab. Word2Vec trainiert auf Wort-Kontext-Paaren und erfasst lexikalische Ähnlichkeit. Kontextuelle Embeddings aus Transformer-Modellen repräsentieren dasselbe Wort je nach Satzkontext unterschiedlich. Welches Embedding geeignet ist, bestimmt die Downstream-Aufgabe.

Skalierung: Von kleinen Netzen zu Milliarden-Parameter-Modellen

Die Leistungsfähigkeit eines Neural Networks hängt von drei Faktoren ab: Modellgröße (Anzahl der Parameter), Datenmenge und verfügbare Rechenleistung. Empirische Untersuchungen zeigen, dass diese drei Faktoren in einem vorhersagbaren Verhältnis zueinander stehen (Scaling Laws).

Ein einfaches Feedforward-Netzwerk mit zwei Hidden Layers hat einige tausend Parameter. Ein modernes Sprachmodell wie GPT-4 hat Hunderte Milliarden Parameter. Der Zuwachs an Parametern allein bringt Verbesserungen, sofern die Trainigsdaten proportional mitwachsen.

Die Rechenkosten steigen mit der Parameterzahl. Das Training eines Modells mit 175 Milliarden Parametern erfordert tausende GPUs über Wochen. Techniken wie Fine-Tuning ermöglichen es, ein vortrainiertes Modell mit vergleichsweise wenig Aufwand an spezifische Aufgaben anzupassen.

Beispiel: Ein Unternehmen trainiert ein kleines Netzwerk mit 50.000 Parametern auf 10.000 Kundenbewertungen zur Sentiment-Analyse. Die Genauigkeit liegt bei 78%. Das Fine-Tuning eines vortrainierten Sprachmodells mit 110 Millionen Parametern auf denselben 10.000 Bewertungen erreicht 93% Genauigkeit, obwohl nur 5% der Parameter angepasst werden.

Grenzen und offene Probleme

Neural Networks liefern Ergebnisse, deren Zustandekommen schwer nachvollziehbar ist. Ein Netzwerk mit Millionen von Parametern trifft Entscheidungen auf Basis komplexer Gewichtskombinationen, die sich nicht auf einzelne Regeln zurückführen lassen. Methoden wie Grad-CAM (für Bilder) oder Attention-Visualisierung (für Text) machen Teile des Entscheidungsprozesses sichtbar, erklären aber nicht vollständig, warum ein Netzwerk eine bestimmte Ausgabe produziert.

Die Abhängigkeit von Trainingsdaten erzeugt systematische Verzerrungen. Wenn die Trainingsdaten bestimmte Gruppen überrepräsentieren, verstärkt das Netzwerk diese Ungleichgewichte. Ein Bewerbungsfilter, der auf historischen Einstellungsdaten trainiert wird, kann bestehende Diskriminierungsmuster reproduzieren.

Der Energieverbrauch großer Netzwerke ist erheblich. Das Training eines einzelnen großen Sprachmodells kann den CO2-Ausstoß eines transatlantischen Fluges um ein Vielfaches übersteigen. Methoden wie Knowledge Distillation (Komprimierung eines großen Modells in ein kleineres), Quantisierung (Reduktion der Zahlenpräzision) und Pruning (Entfernen unwichtiger Verbindungen) reduzieren Rechen- und Energiebedarf.

Neural Networks generalisieren innerhalb der Verteilung ihrer Trainingsdaten. Außerhalb dieser Verteilung (Out-of-Distribution) sinkt die Zuverlässigkeit ohne Vorwarnung. Ein auf Fotos bei Tageslicht trainiertes Erkennungssystem versagt bei Nachtaufnahmen, ohne dies als Unsicherheit zu signalisieren.

Beispiel: Ein Hautkrebs-Erkennungsmodell erreicht auf klinischen Datensätzen eine Genauigkeit von 95%. Bei Anwendung auf Smartphones unter variierenden Lichtbedingungen sinkt die Genauigkeit auf 71%. Die Verteilung der Smartphone-Fotos unterscheidet sich zu stark von den standardisierten Klinikbildern.

Neural Networks bilden die Grundlage für Deep Learning und sind der Rechenapparat hinter aktuellen Sprachmodellen, Bildgeneratoren und Empfehlungssystemen. Ihre Stärke liegt in der Fähigkeit, aus Daten zu lernen, ohne explizite Regeln zu benötigen. Ihre Grenzen liegen in der Erklärbarkeit, der Datenabhängigkeit und dem Ressourcenbedarf. Fortschritte in Architektur, Training und Hardware verschieben diese Grenzen, heben sie aber nicht auf.

Fachliche Einordnung: Die theoretische Grundlage liefert das Universal Approximation Theorem: Ein Feedforward-Netzwerk mit einer einzigen verdeckten Schicht und genügend Neuronen kann jede stetige Funktion auf einer kompakten Menge beliebig genau approximieren. Das Theorem sagt nichts über die praktische Erlernbarkeit oder die benötigte Anzahl an Neuronen aus. Die Kluft zwischen theoretischer Approximationsfähigkeit und praktischer Trainierbarkeit ist ein zentrales offenes Problem der Neural-Network-Forschung.

Karl Kratz · 03.09.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz