BERT (Bidirectional Encoder Representations from Transformers)

Um die Bedeutung eines Wortes zu bestimmen, muss ein Sprachmodell den gesamten Satz kennen, nicht nur die Wörter davor. Die 2018 von Google vorgestellte Architektur BERT war das erste große Sprachmodell, das Text systematisch in beide Richtungen gleichzeitig verarbeitet.

Warum Leserichtung wichtig ist

Das Wort "Bank" hat verschiedene Bedeutungen: Geldinstitut, Sitzgelegenheit, Sandbank. Welche Bedeutung gemeint ist, ergibt sich aus dem Kontext. In dem Satz "Er setzte sich auf die Bank im Park" klärt erst das Ende des Satzes die Bedeutung.

Ältere Sprachmodelle lasen Text nur in eine Richtung: von links nach rechts. Beim Wort "Bank" war der Rest des Satzes noch nicht bekannt. Das führte zu Mehrdeutigkeiten, die das Modell nicht auflösen konnte.

Die Lösung: Ein Modell, das bei jedem Wort gleichzeitig den gesamten Satz berücksichtigt, also sowohl den Text davor als auch danach. Diese Art der Verarbeitung heißt bidirektional. Die Architektur, die diesen Ansatz erstmals in großem Maßstab umsetzte, trägt den Namen BERT (Bidirectional Encoder Representations from Transformers).

Beispiel 1: "Die Bank hat den Kredit genehmigt." Ein bidirektionales Modell sieht "Kredit" und "genehmigt" gleichzeitig mit "Bank" und erkennt: Geldinstitut. Ein unidirektionales Modell muss bis "Kredit" raten.

Beispiel 2: "Apple hat ein neues Produkt vorgestellt." Ohne Kontext ist unklar, ob es um das Unternehmen oder die Frucht geht. "Produkt vorgestellt" klärt: Unternehmen. BERT erfasst das, weil es den ganzen Satz gleichzeitig sieht.

Wie BERT trainiert wird

BERT wird in zwei Phasen trainiert. Die erste Phase heißt Pre-Training und nutzt zwei Aufgaben, für die keine manuell erstellten Trainingsdaten nötig sind.

Masked Language Modeling (MLM)

Das Modell erhält Sätze, in denen zufällig 15 % der Wörter durch einen Platzhalter ersetzt sind. Die Aufgabe: das verdeckte Wort vorhersagen.

Beispiel: Eingabe: "Der Hund [MASK] im Park." Das Modell soll vorhersagen, dass das fehlende Wort "spielt", "liegt" oder "rennt" sein könnte. Dafür muss es sowohl "Hund" als auch "im Park" berücksichtigen.

Next Sentence Prediction (NSP)

Das Modell erhält zwei Sätze und soll entscheiden, ob der zweite Satz im Originaltext direkt auf den ersten folgt.

Beispiel: Satz A: "Die Sonne scheint." Satz B: "Er nimmt seine Sonnenbrille mit." Das Modell soll erkennen: Ja, B folgt plausibel auf A. Bei Satz B: "Datenbanken speichern Informationen." soll es erkennen: Nein, kein Zusammenhang.

Durch diese beiden Aufgaben lernt BERT Wörter im Kontext zu verstehen und Beziehungen zwischen Sätzen zu erkennen.

Eingabetextmit maskierten Wörtern

BERT Encoderbidirektionale Verarbeitung

MLM-Vorhersagefehlendes Wort ergänzen

NSP-VorhersageSatzfolge prüfen

Vom Pre-Training zur Anwendung

Nach dem Pre-Training versteht BERT Sprache, kann aber noch keine konkrete Aufgabe lösen. In einer zweiten Phase, dem Fine-Tuning, wird das Modell auf eine spezifische Aufgabe angepasst: Textklassifikation, Fragebeantwortung, Named Entity Recognition oder Ähnlichkeitsvergleich.

Beispiel: Ein vortrainiertes BERT-Modell wird auf Kundenbewertungen fine-getuned. Es lernt, Bewertungen als "positiv", "neutral" oder "negativ" zu klassifizieren. Das Pre-Training liefert das Sprachverständnis, das Fine-Tuning die aufgabenspezifische Anpassung.

Beispiel: Für eine Fragebeantwortung wird BERT auf Paare aus Frage und Textabschnitt trainiert. Es lernt, die Stelle im Text zu markieren, die die Frage beantwortet.

BERT-Varianten

Seit der Veröffentlichung 2018 sind zahlreiche Varianten entstanden, die BERT für bestimmte Sprachen, Aufgaben oder Größen anpassen.

BERT-base: 110 Millionen Parameter, 12 Encoder-Schichten. Das Standardmodell.
BERT-large: 334 Millionen Parameter, 24 Encoder-Schichten. Leistungsfähiger, aber ressourcenintensiver.
mBERT (Multilingual BERT): Auf Texten in 104 Sprachen vortrainiert.
gbert-large: Speziell für Deutsch trainierte Variante. Basis für deutsche Einbettungsmodelle wie German_Semantic_V3.
mxbai-embed-large-v1: Nutzt BERT-large als Basis und erzeugt Vektoren für semantische Suche.

Beispiel: Ein deutschsprachiges Unternehmen baut ein RAG-System. Für die Vektorsuche wird ein auf gbert-large basierendes Einbettungsmodell eingesetzt, weil es deutsche Texte besser repräsentiert als ein englischsprachiges BERT-Modell.

Bedeutung für Einbettungsmodelle

BERT selbst ist kein Einbettungsmodell. Es erzeugt kontextabhängige Repräsentationen für einzelne Wörter. Ein Einbettungsmodell braucht aber einen einzelnen Vektor für einen ganzen Text. Modelle wie Sentence-BERT (SBERT) bauen auf BERT auf und erzeugen Satzvektoren, die sich für Ähnlichkeitsvergleiche und semantische Suche eignen.

Beispiel: BERT erzeugt für den Satz "Der Hund spielt im Park" einen Vektor pro Wort (also fünf Vektoren). SBERT erzeugt einen einzelnen Vektor für den gesamten Satz. Dieser Satzvektor kann mit anderen Satzvektoren verglichen werden, etwa per Cosine-Similarity.

Die BERT-Architektur bildet damit die Grundlage für einen großen Teil der heute eingesetzten Einbettungsmodelle. Die Qualität der Vektoren hängt direkt davon ab, wie gut das zugrunde liegende BERT-Modell Sprache versteht.

Grenzen von BERT

BERT hat klare Einschränkungen, die bei der Modellauswahl berücksichtigt werden müssen.

Kontextlänge: BERT verarbeitet maximal 512 Tokens. Längere Texte müssen vorher in Chunks aufgeteilt werden.
Nur Encoder: BERT ist ein reines Encoder-Modell. Es kann Texte verstehen und klassifizieren, aber keinen neuen Text generieren. Für Textgenerierung werden Decoder-Modelle (wie GPT) oder Encoder-Decoder-Modelle (wie T5) eingesetzt.
Rechenaufwand: BERT-large benötigt für die Verarbeitung eines einzelnen Satzes deutlich mehr Rechenleistung als leichtere Modelle. Für Echtzeitanwendungen mit hohem Durchsatz kann das ein Problem sein.
Trainingsstand: Ein vortrainiertes BERT-Modell kennt nur Wissen aus seinen Trainingsdaten. Aktuelle Ereignisse oder domänenspezifisches Fachwissen fehlen, sofern kein Fine-Tuning oder RAG-System ergänzt wird.

Beispiel: Eine Wissensdatenbank enthält Dokumente mit durchschnittlich 2.000 Tokens. BERT kann maximal 512 Tokens verarbeiten. Deshalb müssen die Dokumente vor der Vektorisierung in Chunks aufgeteilt werden. Die Wahl der Chunk-Größe beeinflusst direkt die Suchqualität.

Fachliche Einordnung: Seit BERT sind neuere Architekturen entstanden, die einige seiner Einschränkungen adressieren. Modelle wie Longformer oder BigBird erweitern die Kontextlänge auf mehrere Tausend Tokens. Modelle wie E5 oder GTE erreichen in aktuellen Benchmarks höhere Werte als BERT-basierte Ansätze. BERT bleibt als Architekturgrundlage relevant, wird aber zunehmend durch spezialisierte Modelle ergänzt.

Karl Kratz · 29.01.2026

Technologie Künstliche Intelligenz Embeddings