Biases in neuronalen Netzen

Jedes Neuron in einem künstlichen Netz berechnet eine gewichtete Summe seiner Eingänge. Der Bias ist ein zusätzlicher Verschiebungswert, der bestimmt, ab welchem Schwellenwert das Neuron aktiv wird. Ohne diesen Verschiebungswert müsste jede Aktivierungskurve durch den Nullpunkt verlaufen.

Was ein Bias konkret bewirkt

Ein einzelnes Neuron berechnet seine Ausgabe nach der Formel f(w · x + b). Der Vektor w enthält die Gewichte, x ist die Eingabe, b der Bias und f die Aktivierungsfunktion. Die Gewichte skalieren die Eingabe, der Bias verschiebt das gesamte Ergebnis um einen konstanten Betrag. Diese Verschiebung bestimmt, bei welchem Eingabewert die Aktivierungsfunktion ihren Übergangsbereich erreicht.

Beispiel: Ein Neuron mit Sigmoid-Aktivierung und Bias b = -3 gibt erst bei Eingaben deutlich über Null einen hohen Wert aus. Dasselbe Neuron mit b = +3 ist bereits bei Eingaben nahe Null fast vollständig aktiviert. Der Bias steuert also die Position der Aktivierungsschwelle auf der Eingabeachse.

Beispiel: In einem Klassifikator für Kreditwürdigkeit enthält die letzte Schicht ein Neuron, das die Entscheidung "Kredit gewähren" trifft. Sein Bias bestimmt, wie hoch die Gesamtbewertung der Merkmale sein muss, bevor das Neuron eine positive Entscheidung ausgibt.

Geometrische Interpretation

Ohne Bias kann eine lineare Schicht nur Hyperebenen erzeugen, die durch den Ursprung des Koordinatensystems verlaufen. Der Bias hebt diese Einschränkung auf: Er verschiebt die Entscheidungsgrenze frei im Raum. Bei einem einfachen binären Klassifikator in zwei Dimensionen trennt die Entscheidungsgrenze w1 · x1 + w2 · x2 + b = 0 die beiden Klassen. Der Bias b bestimmt den Abstand dieser Trennlinie vom Ursprung.

Beispiel: Ein Neuron soll erkennen, ob die Temperatur eines Servers über 70 °C liegt. Die Gewichte skalieren den Temperaturwert, der Bias setzt den Schwellenwert bei 70. Ohne Bias müsste der Schwellenwert bei 0 °C liegen, was für diese Aufgabe nutzlos wäre.

Beispiel: Bei einem Deep-Learning-Modell zur Bilderkennung verschiebt der Bias eines Filters die Reaktionsschwelle. Ein Filter für Kanten reagiert dadurch erst ab einem bestimmten Kontrastunterschied, nicht bei jedem minimalen Helligkeitswechsel.

Eingabe xRohdaten

Gewichte wSkalierung der Eingabe

Bias bVerschiebung

w · x + bGewichtete Summe

f( )Aktivierung

Wie Biases beim Training gelernt werden

Biases werden genau wie Gewichte durch Backpropagation optimiert. Der Gradient des Verlusts nach dem Bias eines Neurons entspricht dem Fehlersignal, das an diesem Neuron ankommt. In der Praxis konvergieren Biases oft schneller als Gewichte, weil ihre Gradienten nicht von der Eingabe abhängen: Der Gradient ∂L/∂b ist identisch mit dem lokalen Fehlersignal δ, während der Gradient nach einem Gewicht zusätzlich mit dem Eingabewert multipliziert wird (∂L/∂w = δ · x).

Beispiel: Beim Training eines Spam-Filters stellt das Netzwerk fest, dass die Ausgabeschicht zu viele E-Mails als "nicht Spam" klassifiziert. Der Optimierer erhöht den Bias des Spam-Neurons, sodass die Aktivierungsschwelle sinkt und das Neuron früher anschlägt.

Bei der Initialisierung werden Biases üblicherweise auf Null gesetzt. Diese Konvention funktioniert gut, weil die symmetriebrechende Wirkung der zufällig initialisierten Gewichte ausreicht, um das Training in Gang zu bringen. In speziellen Fällen kann eine angepasste Bias-Initialisierung sinnvoll sein.

Beispiel: Bei einem Netzwerk mit ReLU-Aktivierung setzen manche Implementierungen den Bias auf einen kleinen positiven Wert (etwa 0,01), damit Neuronen zu Beginn des Trainings nicht sofort in den inaktiven Bereich fallen. Dieses Problem ist als "dying ReLU" bekannt.

Biases und Regularisierung

Bei Weight Decay werden Biases standardmäßig von der Bestrafung ausgenommen. Der Grund: Weight Decay bestraft große Parameterwerte, um Überanpassung zu vermeiden. Gewichte steuern die Komplexität des gelernten Modells, weil sie bestimmen, wie stark das Netz auf Eingabevariationen reagiert. Biases verschieben lediglich den Arbeitspunkt und beeinflussen die Modellkomplexität nicht im gleichen Maß.

Beispiel: In der PyTorch-Implementierung von AdamW werden die Parameter eines Modells häufig in zwei Gruppen aufgeteilt: eine Gruppe mit Weight Decay (Gewichte) und eine ohne (Biases und Layer-Normalization-Parameter). Der Code dafür sieht typischerweise so aus: no_decay = ["bias", "LayerNorm.weight"].

Diese Aufteilung hat praktische Konsequenzen für das Fine-Tuning vortrainierter Modelle. Wird versehentlich Weight Decay auf Biases angewendet, kann das die gelernten Aktivierungsschwellen verzerren und die Leistung nach dem Fine-Tuning verschlechtern.

Architekturen ohne Biases

Mehrere moderne Transformer-Architekturen verzichten vollständig auf Bias-Parameter. LLaMA (Meta), PaLM (Google) und einige Varianten von GPT verwenden in ihren linearen Schichten keine Biases. Der Grund liegt in der Kombination aus Layer Normalization und der enormen Modellgröße: Layer Normalization normiert die Aktivierungen auf Mittelwert Null und Standardabweichung Eins und führt dann eigene lernbare Skalierungs- und Verschiebungsparameter ein. Diese übernehmen die Funktion, die Biases in klassischen Architekturen erfüllen.

Beispiel: Das LLaMA-Modell mit 7 Milliarden Parametern verwendet RMSNorm statt klassischer Layer Normalization und setzt in allen linearen Schichten bias=False. Die eingesparten Bias-Parameter sind gemessen an der Gesamtzahl vernachlässigbar (wenige Tausend gegenüber Milliarden), aber das Weglassen vereinfacht die Implementierung und kann bei bestimmten Hardware-Konfigurationen die Rechengeschwindigkeit geringfügig erhöhen.

In Attention-Mechanismen existieren Biases in den Projektionsmatrizen für Query, Key und Value. Auch hier zeigen aktuelle Architekturen, dass diese Biases nicht zwingend nötig sind. Die Self-Attention-Berechnung funktioniert ohne Bias-Terme, solange die Eingaben vorher normalisiert werden.

Beispiel: Bei GPT-3 enthalten die Attention-Projektionen Biases, bei LLaMA nicht. Beide Architekturen erreichen vergleichbare Ergebnisse bei Sprachmodellierungsaufgaben. Das deutet darauf hin, dass die Biases in den Projektionsmatrizen bei ausreichender Modellgröße redundant sind.

Begriffliche Abgrenzung: Parameter-Bias und kognitiver Bias

Der Begriff "Bias" hat in der KI-Forschung zwei grundlegend verschiedene Bedeutungen. Der Parameter-Bias (b in der Formel w · x + b) ist ein mathematischer Verschiebungswert ohne inhaltliche Wertung. Der kognitive oder gesellschaftliche Bias bezeichnet systematische Verzerrungen in Daten oder Modellverhalten: Wenn ein Modell bestimmte Bevölkerungsgruppen benachteiligt, handelt es sich um einen Fairness-Bias. Diese beiden Konzepte teilen nur den Namen.

Beispiel: Ein Sprachmodell, das bei Berufsbezeichnungen systematisch männliche Pronomen bevorzugt, hat einen gesellschaftlichen Bias. Dieses Problem entsteht aus den Trainingsdaten, nicht aus den Bias-Parametern der Neuronen. Die Bias-Parameter eines Neurons haben keinen direkten Zusammenhang mit diskriminierendem Modellverhalten.

In der Statistik existiert zusätzlich der Schätz-Bias (Estimation Bias): Die systematische Abweichung eines Schätzers vom wahren Wert. Auch dieser Begriff ist unabhängig vom neuronalen Bias-Parameter. Im Machine-Learning-Kontext taucht außerdem der induktive Bias auf: die strukturellen Vorannahmen, die eine Modellarchitektur in die Lernaufgabe einbringt.

Beispiel: Faltungsnetze (CNNs) haben einen induktiven Bias für lokale räumliche Muster. Transformer haben einen induktiven Bias für die Modellierung von Abhängigkeiten über beliebige Distanzen. In beiden Fällen beschreibt "Bias" eine architektonische Eigenschaft, keinen trainierbaren Parameter.

Anteil der Biases an der Gesamtparameterzahl

In typischen neuronalen Netzen machen Biases weniger als 0,1 Prozent der trainierbaren Parameter aus. Der Grund liegt in der Asymmetrie zwischen Gewichtsmatrizen und Bias-Vektoren: Eine lineare Schicht mit n Eingängen und m Ausgängen hat n × m Gewichte, aber nur m Biases.

Beispiel: In einem Transformer-Block mit einer verborgenen Dimension von 768 und einem Feed-Forward-Netzwerk mit 3072 inneren Neuronen enthält die erste lineare Schicht 768 × 3072 = 2.359.296 Gewichte und 3072 Biases. Die Rückprojektion fügt weitere 3072 × 768 = 2.359.296 Gewichte und 768 Biases hinzu. Die Biases machen hier etwa 0,08 Prozent der Schichtparameter aus.

Trotz ihres geringen Anteils an der Parameterzahl sind Biases nicht bedeutungslos. In kleinen Netzwerken, etwa bei Embedding-Modellen mit wenigen Schichten, kann der Bias-Anteil auf einige Prozent steigen. Hier wirkt sich das Weglassen der Biases messbarer auf das Lernverhalten aus als bei Modellen mit Milliarden von Parametern.

Grenzen und offene Fragen

Die Frage, ob Biases nötig sind, ist nicht abschließend geklärt. Die empirische Beobachtung, dass große Transformer-Modelle ohne Biases funktionieren, gilt nicht zwangsläufig für alle Architekturen und Aufgaben. Bei kleinen Netzwerken, bei Aufgaben mit stark verschobenen Datenverteilungen oder bei Architekturen ohne Normalisierungsschichten können Biases weiterhin relevant sein.

Beispiel: Ein kleines Netzwerk mit drei Schichten und jeweils 64 Neuronen, das Sensordaten eines Industrieroboters verarbeitet, profitiert messbar von Biases. Die Sensordaten haben physikalisch bedingte Offsets (etwa Temperaturdrift), die das Netzwerk über Biases effizient kompensieren kann.

Die Interaktion zwischen Biases und verschiedenen Normalisierungstechniken ist ein aktives Forschungsthema. Batch Normalization, Layer Normalization und RMSNorm behandeln Biases unterschiedlich. Bei Batch Normalization wird der Bias der vorhergehenden Schicht durch die Normalisierung aufgehoben und durch den Verschiebungsparameter der Normalisierungsschicht ersetzt. Das macht den ursprünglichen Bias redundant.

Beispiel: In einem Faltungsnetz mit Batch Normalization nach jeder Faltungsschicht werden die Bias-Parameter der Faltungen typischerweise auf Null gesetzt oder ganz entfernt. Die Batch-Normalization-Schicht übernimmt mit ihrem eigenen β-Parameter die Verschiebungsfunktion.

Fachliche Einordnung: Die Entwicklung weg von expliziten Bias-Parametern in modernen Architekturen spiegelt einen breiteren Trend in der neuronalen Netzwerkforschung wider. Normalisierungstechniken haben nicht nur die Funktion von Biases absorbiert, sondern auch das Trainingsverhalten stabilisiert. Die Frage, ob kleine spezialisierte Modelle von Biases stärker profitieren als große Sprachmodelle, bleibt empirisch unterforscht. Aktuelle Arbeiten zu effizienten Architekturen (etwa bei Edge-Geräten) könnten hier neue Erkenntnisse liefern.

Karl Kratz · 14.05.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz Neural Networks