Residual
Residual Connections addieren den Input zum Output einer Schicht für besseren Gradientenfluss.
Residual Connections (auch Skip Connections genannt) sind Verbindungen in neuronalen Netzen, die den Eingang einer Schicht direkt zu deren Ausgang addieren. In der Transformer-Architektur umgibt je eine Residual Connection die Attention-Schicht und das Feed-Forward Network jedes Blocks.
Das Prinzip ist einfach: Statt nur die Ausgabe einer Schicht weiterzureichen, wird die ursprüngliche Eingabe zur Ausgabe hinzuaddiert. Mathematisch bedeutet das: Wenn eine Schicht die Funktion F(x) berechnet, ist die tatsächliche Ausgabe x + F(x). Die Schicht muss also nur die Differenz zum Eingang lernen - den sogenannten Residual -, nicht die gesamte gewünschte Transformation.
Residual Connections lösen ein fundamentales Problem tiefer Netze: das Verschwinden des Gradienten. Ohne diese Verbindungen müssten Gradienten beim Training durch Dutzende oder Hunderte Schichten zurückfließen und würden dabei zunehmend kleiner werden. Die direkte Verbindung bietet dem Gradienten einen ungehinderten Pfad durch das gesamte Netzwerk und macht das Training tiefer Modelle erst praktisch möglich.
Das Konzept stammt aus den ResNets (Residual Networks) von 2015, die im Bereich der Bildverarbeitung entwickelt wurden. In der Transformer-Architektur sind Residual Connections unverzichtbar - ohne sie wäre das Training von Modellen mit der heute üblichen Tiefe von 50 bis über 100 Schichten nicht stabil durchführbar.