RoPE

RoPE (Rotary Position Embedding) kodiert Positionsinformation durch Rotation.

RoPE (Rotary Position Embedding) ist ein Verfahren zur Kodierung von Positionsinformation in Transformer-Modellen. Es wurde 2021 vorgestellt und hat sich als eine der effektivsten Methoden etabliert, um einem Modell die Reihenfolge der Tokens mitzuteilen.

Das Grundprinzip von RoPE besteht darin, die Query- und Key-Vektoren in der Attention-Berechnung positionsabhängig zu rotieren. Jede Position erhält einen spezifischen Rotationswinkel, der auf die Vektorpaare angewendet wird. Da das Skalarprodukt zweier rotierter Vektoren nur von der relativen Rotation - also dem Positionsabstand - abhängt, kodiert RoPE automatisch relative Positionen, ohne dass diese explizit berechnet werden müssen.

Ein entscheidender Vorteil von RoPE gegenüber absoluten Positionseinbettungen ist die bessere Generalisierbarkeit auf Sequenzlängen, die über das Training hinausgehen. Durch Techniken wie NTK-Scaling oder YaRN lässt sich RoPE nachträglich auf längere Kontexte erweitern, ohne das Modell komplett neu trainieren zu müssen. Dies hat maßgeblich zur Entwicklung von Modellen mit sehr langen Kontextfenstern beigetragen.

RoPE wird unter anderem in Llama, Mistral, Qwen und vielen weiteren modernen Sprachmodellen verwendet. Es hat ältere Verfahren wie sinusoidale Positionseinbettungen und gelernte absolute Positionseinbettungen in der Praxis weitgehend abgelöst.


Karl Kratz · 08.02.2025 (aktualisiert 15.03.2026)

Technologie Künstliche Intelligenz Llm