Transformer-Layer
Transformer-Layer ist eine einzelne Schicht in der Transformer-Architektur.
Ein Transformer-Layer bezeichnet eine einzelne Verarbeitungsschicht innerhalb der Transformer-Architektur. Der Begriff wird häufig synonym mit Transformer-Block verwendet, kann aber auch eine einzelne Teilkomponente innerhalb eines Blocks meinen - etwa nur die Attention-Schicht oder nur das Feed-Forward-Network.
Die Anzahl der Layer ist einer der zentralen Architekturparameter eines Transformer-Modells. Das größte GPT-2-Modell (1,5B) verwendet 48 Layer, GPT-3 besteht aus 96 Layern, und größere Modelle können noch deutlich mehr aufweisen. Mit jedem zusätzlichen Layer steigt die Fähigkeit des Modells, komplexere Muster zu erlernen, aber auch der Rechen- und Speicherbedarf.
Innerhalb eines Layers werden die Eingabevektoren transformiert und mit kontextueller Information angereichert. Jeder Layer hat eigene trainierbare Parameter (Gewichtsmatrizen), die während des Trainings optimiert werden. Residual Connections zwischen den Layern stellen sicher, dass Information auch über viele Schichten hinweg nicht verloren geht und das Training numerisch stabil bleibt.
Forschungsarbeiten zur Interpretierbarkeit zeigen, dass verschiedene Layer unterschiedliche Rollen übernehmen. Untere Layer verarbeiten vorwiegend syntaktische und lexikalische Information, mittlere Layer erfassen semantische Beziehungen, und obere Layer integrieren diese Informationen zu abstrakteren Repräsentationen, die für die endgültige Vorhersage genutzt werden.