Transformer-Block
Transformer-Block ist eine Einheit aus Attention, Feed-Forward und Normalisierung, die gestapelt wird.
Ein Transformer-Block ist die grundlegende Verarbeitungseinheit der Transformer-Architektur. Er wird vielfach gestapelt - moderne Sprachmodelle verwenden Dutzende bis über hundert solcher Blöcke hintereinander - und jeder Block verfeinert die Repräsentation der Eingabe schrittweise.
Der Aufbau eines Transformer-Blocks folgt einem festen Schema. Zunächst durchläuft die Eingabe eine Multi-Head-Attention-Schicht, in der Beziehungen zwischen Tokens berechnet werden. Das Ergebnis wird über eine Residual Connection mit der ursprünglichen Eingabe addiert und anschließend durch eine Layer-Normalisierung stabilisiert. Danach folgt ein Feed-Forward-Network, das jede Token-Repräsentation unabhängig transformiert, erneut gefolgt von Residual Connection und Normalisierung.
Es gibt zwei verbreitete Anordnungsvarianten: Pre-Norm und Post-Norm. Bei der ursprünglichen Post-Norm-Variante erfolgt die Normalisierung nach der Addition. Bei Pre-Norm, die sich in der Praxis als stabiler beim Training erwiesen hat, wird die Normalisierung vor die Attention- bzw. Feed-Forward-Schicht gezogen. Die meisten modernen Modelle verwenden die Pre-Norm-Variante.
Jeder Block hat seine eigenen trainierbaren Gewichte und lernt damit andere Aspekte der Sprachverarbeitung. Frühe Blöcke erfassen tendenziell einfachere Muster wie Wortarten und lokale Syntax, während spätere Blöcke abstraktere Zusammenhänge wie Bedeutung und Argumentation abbilden.