Generative KI

Ein System bekommt eine Aufgabe: "Schreibe einen Absatz über Lichtbrechung." Sekunden später liefert es einen Text, den kein Mensch vorformuliert hat. Ein anderes System erhält die Beschreibung "Eine Katze auf einem Surfbrett bei Sonnenuntergang" und erzeugt ein Bild, das vorher nicht existierte. Diese Systeme heißen generative KI. Sie erzeugen neue Inhalte aus erlernten Mustern.

Was generative KI leistet

Klassische KI-Systeme ordnen Daten ein: Sie erkennen Spam, klassifizieren Bilder oder sagen Werte voraus. Generative KI geht einen Schritt weiter. Sie produziert neue Artefakte: Text, Bilder, Audio, Video, Code, dreidimensionale Modelle oder molekulare Strukturen. Die Grenze zwischen Analyse und Erzeugung trennt diese beiden Kategorien.

Die Grundlage bilden statistische Modelle, die auf großen Datenmengen trainiert wurden. Während des Trainings lernt das Modell Regelmäßigkeiten: Satzstrukturen, Farbverteilungen in Fotos, harmonische Beziehungen in Musik. Bei der Erzeugung kombiniert es diese Regelmäßigkeiten zu Ausgaben, die den Trainingsdaten ähneln, aber nicht identisch sind.

Beispiel: Ein Textmodell hat Millionen von Nachrichtenartikeln verarbeitet. Es kennt typische Satzanfänge, Themenzusammenhänge und Stilebenen. Auf die Eingabe "Fasse die Funktionsweise einer Solarzelle zusammen" produziert es einen kohärenten Absatz, der so nie in den Trainingsdaten stand.

Beispiel: Ein Bildmodell hat Fotografien mit zugehörigen Beschreibungen gelernt. Bei der Eingabe "Luftaufnahme einer Küstenstadt bei Nebel" erzeugt es ein Bild, das Perspektive, Farbgebung und Tiefenschärfe konsistent kombiniert.

Architekturen und Verfahren

Drei Architekturtypen dominieren die generative KI. Jeder nutzt einen anderen Mechanismus, um neue Inhalte zu erzeugen.

Autoregressive Modelle

Das Modell erzeugt eine Sequenz Element für Element. Jedes neue Element hängt von den vorherigen ab. Große Sprachmodelle (LLMs) arbeiten so: Sie sagen das nächste Token voraus, hängen es an die bisherige Sequenz an und wiederholen den Vorgang. Die Transformer-Architektur bildet die Basis der meisten aktuellen Sprachmodelle.

Beispiel: GPT-4 erhält den Anfang "Die drei Aggregatzustände von Wasser sind" und erzeugt Token für Token: "fest", ",", "flüssig", "und", "gasförmig". Jedes Token wird unter Berücksichtigung aller bisherigen Tokens gewählt.

Diffusionsmodelle

Der Prozess beginnt mit reinem Rauschen. In vielen kleinen Schritten entfernt das Modell gezielt Rauschen, bis ein kohärentes Bild entsteht. Beim Training lernt das Modell den umgekehrten Weg: Es beobachtet, wie Bilder schrittweise verrauscht werden, und lernt, diesen Prozess rückgängig zu machen. Stable Diffusion, DALL-E 3 und Midjourney arbeiten nach diesem Prinzip.

Beispiel: Ein Diffusionsmodell startet mit einem 512x512-Pixel-Rauschbild. Nach 50 Entrauschungsschritten, jeweils geleitet durch den Prompt "Ein Aquarellgemälde einer Bibliothek", entsteht ein Bild mit erkennbaren Bücherregalen, Lichteinfall und Farbverläufen.

Variational Autoencoders (VAE)

Ein Encoder komprimiert die Eingabe in einen kompakten Zahlenraum (Latent Space). Ein Decoder rekonstruiert daraus eine Ausgabe. Durch gezielte Veränderungen im Latent Space entstehen neue Varianten. VAEs kommen bei Bildvariation, Musikerzeugung und molekularem Design zum Einsatz.

Beispiel: Ein VAE trainiert auf Gesichtsfotos kodiert jedes Gesicht als Punkt in einem 128-dimensionalen Raum. Verschiebt man diesen Punkt leicht, erzeugt der Decoder ein neues Gesicht mit veränderten Merkmalen: andere Haarfarbe, schmalere Nase, älteres Erscheinungsbild.

Eingabe (Prompt, Bild, Audio)

Autoregressive ModelleToken für Token

DiffusionsmodelleRauschen entfernen

VAELatent Space

Neuer Inhalt (Text, Bild, Code)

Drei Architekturen, ein Ziel: neue Inhalte erzeugen

Wie das Training funktioniert

Generative Modelle lernen aus Daten, nicht aus Regeln. Der Trainingsprozess bestimmt die Qualität und die Grenzen des späteren Outputs.

Im ersten Schritt sammelt und filtert man große Datenmengen. Für Sprachmodelle umfasst das Webseiten, Bücher, Artikel und Code. Für Bildmodelle sind es Bild-Text-Paare. Die Qualität der Trainingsdaten beeinflusst direkt, was das Modell später produziert: verzerrte Daten führen zu verzerrten Ausgaben.

Beim Pre-Training lernt das Modell allgemeine Muster. Ein Sprachmodell lernt Grammatik, Faktenwissen und Schlussfolgerungsmuster aus Milliarden von Sätzen. Dieser Schritt erfordert tausende Grafikprozessoren über Wochen oder Monate.

Danach verfeinert Fine-Tuning das Modell für bestimmte Aufgaben. Ein allgemeines Sprachmodell wird durch gezieltes Training auf Dialogführung, medizinische Texte oder Code-Erzeugung spezialisiert. Reinforcement Learning from Human Feedback (RLHF) richtet das Modell zusätzlich an menschlichen Präferenzen aus: Bewerter beurteilen Modellausgaben, und das Modell passt seine Gewichte an, um bevorzugte Antworten häufiger zu produzieren.

Beispiel: Ein Basismodell erzeugt auf die Frage "Wie behandle ich Kopfschmerzen?" sowohl medizinisch korrekte als auch fragwürdige Antworten. Nach RLHF bevorzugt es Antworten, die auf evidenzbasierte Maßnahmen verweisen und bei Unsicherheit einen Arztbesuch empfehlen.

Fachliche Einordnung: Die Trainingskosten für große generative Modelle liegen im zweistelligen Millionenbereich (USD). GPT-4 hat geschätzt über 100 Millionen Dollar gekostet. Diese Asymmetrie zwischen Trainingsaufwand und Inferenzkosten prägt die Marktstruktur: Wenige Organisationen trainieren Basismodelle, viele nutzen sie über APIs.

Anwendungsbereiche

Generative KI produziert Inhalte in praktisch jedem Medium. Die Anwendungen reichen von Texterstellung bis zur Arzneimittelforschung.

Textgenerierung

Sprachmodelle verfassen E-Mails, Artikel, Zusammenfassungen, Dokumentationen und Übersetzungen. Die Tokenisierung zerlegt Eingabetexte in verarbeitbare Einheiten. Über Retrieval-Augmented Generation (RAG) lässt sich externes Wissen einbinden, das über die Trainingsdaten hinausgeht.

Beispiel: Ein Unternehmen bindet seine interne Wissensdatenbank per RAG an ein Sprachmodell an. Mitarbeiter stellen Fragen in natürlicher Sprache und erhalten Antworten, die auf firmeninternen Dokumenten basieren, mit Quellenangabe.

Bilderzeugung und -bearbeitung

Diffusionsmodelle erzeugen fotorealistische Bilder, Illustrationen und Designentwürfe aus Textbeschreibungen. Inpainting ersetzt ausgewählte Bildbereiche. Outpainting erweitert bestehende Bilder über ihre Ränder hinaus. Style Transfer überträgt den Stil eines Bildes auf ein anderes.

Beispiel: Ein Architekt beschreibt "Ein Bürogebäude mit Holzfassade, drei Stockwerke, umgeben von Birken, fotografisch" und erhält in 30 Sekunden zehn verschiedene Entwürfe, die als Diskussionsgrundlage für den Kunden dienen.

Code-Generierung

Modelle wie Codex, StarCoder und Claude erzeugen Code aus Beschreibungen in natürlicher Sprache, vervollständigen angefangene Funktionen und erklären bestehenden Code. Die Systeme beherrschen Dutzende Programmiersprachen und Frameworks.

Beispiel: Ein Entwickler tippt einen Kommentar "Funktion, die eine CSV-Datei einliest und die Spalte 'Umsatz' nach Monat aggregiert" in die IDE. Das Modell erzeugt eine vollständige Python-Funktion mit pandas, inklusive Fehlerbehandlung für fehlende Spalten.

Audio, Video und 3D

Generative Modelle erzeugen Sprache aus Text (Text-to-Speech), klonen Stimmen, komponieren Musik, generieren kurze Videoclips aus Beschreibungen und erstellen dreidimensionale Objekte aus Textprompts oder einzelnen Fotos.

Wie ein Sprachmodell Text erzeugt

Die Texterzeugung in großen Sprachmodellen folgt einem präzisen Ablauf. Jeder Schritt transformiert die Eingabe in eine Wahrscheinlichkeitsverteilung über mögliche nächste Tokens.

Zunächst zerlegt der Tokenizer die Eingabe in Tokens. Das sind Wortteile, ganze Wörter oder Satzzeichen. Der Satz "Generative KI erzeugt Bilder" wird zu etwa fünf Tokens. Jedes Token erhält eine numerische ID und einen Embedding-Vektor, der seine Bedeutung kodiert.

Dann durchlaufen diese Vektoren die Attention-Schichten des Transformer-Netzwerks. In jeder Schicht berechnet das Modell, wie stark jedes Token auf jedes andere Token achten soll. So fließen Kontextinformationen über den gesamten Eingabetext zusammen.

Am Ende steht eine Wahrscheinlichkeitsverteilung über das gesamte Vokabular (typisch 30.000 bis 100.000 Tokens). Die Auswahl des nächsten Tokens erfolgt über Sampling-Strategien: Greedy (immer das wahrscheinlichste), Top-k (zufällige Auswahl aus den k wahrscheinlichsten) oder Nucleus-Sampling (zufällige Auswahl aus der kleinsten Menge, deren kumulative Wahrscheinlichkeit einen Schwellenwert erreicht).

Beispiel: Nach dem Kontext "Die Hauptstadt von Frankreich ist" weist das Modell dem Token "Paris" eine Wahrscheinlichkeit von 0,94 zu. "Lyon" erhält 0,02, "Marseille" 0,01. Bei Greedy-Sampling wählt das Modell immer "Paris". Bei Top-k-Sampling mit k=5 wählt es zufällig unter den fünf wahrscheinlichsten Tokens.

Steuerung und Kontrolle

Die Ausgabe generativer Modelle lässt sich über mehrere Stellschrauben beeinflussen, ohne das Modell selbst zu verändern.

Der Prompt ist das primäre Steuerungsinstrument. Präzise Formulierungen, Kontextangaben, Beispiele im Prompt (Few-Shot) und Systemnachrichten lenken das Modell in die gewünschte Richtung. Prompt Engineering ist die systematische Optimierung dieser Eingaben.

Sampling-Parameter regeln die Variabilität der Ausgabe. Temperature steuert die Zufälligkeit: niedrige Werte (0,1 bis 0,3) erzeugen vorhersagbare, fokussierte Texte; hohe Werte (0,8 bis 1,2) produzieren kreativere, aber weniger zuverlässige Ausgaben. Top-p (Nucleus-Sampling) begrenzt die Auswahl auf die wahrscheinlichsten Tokens bis zu einem kumulativen Schwellenwert.

Beispiel: Für die Erzeugung von Vertragstexten setzt man die Temperature auf 0,1 und erhält konsistente, konservative Formulierungen. Für kreative Slogans setzt man sie auf 0,9 und erhält vielfältige, unerwartete Varianten.

Weitere Steuerungsmöglichkeiten sind Ausgabelängenbegrenzung (max_tokens), Stoppsequenzen, die die Generierung bei bestimmten Zeichenfolgen beenden, und strukturierte Ausgabeformate wie JSON-Mode, bei dem das Modell ausschließlich valides JSON produziert.

Beispiel: Ein System extrahiert Produktdaten aus Freitext-Beschreibungen. Der Prompt definiert ein JSON-Schema mit den Feldern "name", "preis" und "kategorie". Das Modell erzeugt pro Eingabe ein strukturiertes JSON-Objekt, das direkt in eine Datenbank geschrieben wird.

Qualität und Bewertung

Die Ausgaben generativer Modelle lassen sich nicht einfach als "richtig" oder "falsch" klassifizieren. Die Bewertung erfordert mehrere Dimensionen.

Automatische Metriken messen einzelne Aspekte: BLEU und ROUGE vergleichen generierte Texte mit Referenztexten auf Wortüberlappung. FID (Fréchet Inception Distance) bewertet die Qualität generierter Bilder über die statistische Ähnlichkeit zu echten Bildern. Perplexity misst, wie "überrascht" ein Sprachmodell von einem Text ist.

Menschliche Bewertung bleibt der Goldstandard. Bewerter beurteilen Kohärenz, Korrektheit, Relevanz und Stil. Vergleichende Bewertung (A ist besser als B) liefert zuverlässigere Ergebnisse als absolute Bewertung auf einer Skala.

Beispiel: Ein Unternehmen bewertet zwei Sprachmodelle für den Kundensupport. 200 echte Kundenanfragen werden von beiden Modellen beantwortet. Menschliche Bewerter beurteilen jede Antwort auf Korrektheit (stimmt die Information?), Vollständigkeit (fehlt etwas?) und Ton (passt der Stil zum Unternehmen?). Modell A gewinnt bei Korrektheit, Modell B bei Ton.

Fachliche Einordnung: Automatische Metriken korrelieren nur mäßig mit menschlicher Bewertung. BLEU-Scores über 0,3 galten lange als gut, werden aber zunehmend durch modellbasierte Bewertungen ergänzt (LLM-as-a-Judge). Dabei bewertet ein starkes Sprachmodell die Ausgaben eines anderen. Die Methode ist schneller als menschliche Bewertung, aber anfällig für systematische Verzerrungen.

Grenzen und Risiken

Generative KI hat strukturelle Einschränkungen, die sich aus der Funktionsweise ergeben. Diese Grenzen bestimmen, wo die Technologie zuverlässig einsetzbar ist und wo nicht.

Faktische Fehler

Sprachmodelle erzeugen plausibel klingenden Text ohne interne Faktenprüfung. Sie kombinieren Muster und produzieren dabei regelmäßig Aussagen, die sachlich falsch sind. In der Fachliteratur heißt dieses Phänomen Halluzination. Die Fehlerrate steigt bei Nischenthemen, aktuellen Ereignissen und präzisen Zahlenangaben.

Beispiel: Ein Sprachmodell erfindet eine wissenschaftliche Studie inklusive plausiblem Titel, Autorennamen und Zeitschrift. Der Stil ist einwandfrei. Die Studie existiert nicht. Ohne externe Prüfung ist der Fehler nicht erkennbar.

Verzerrungen

Modelle reproduzieren und verstärken Verzerrungen aus ihren Trainingsdaten. Wenn die Trainingsdaten bestimmte Perspektiven überrepräsentieren, spiegelt sich das in den Ausgaben. Bildgeneratoren zeigen bei dem Prompt "CEO" überproportional häufig männliche Personen. Sprachmodelle assoziieren bestimmte Berufe mit bestimmten Geschlechtern.

Beispiel: Ein Recruiting-Tool nutzt ein Sprachmodell, um Bewerbungsanschreiben zu bewerten. Das Modell bewertet Anschreiben mit Namen, die auf eine bestimmte Herkunft hindeuten, systematisch schlechter. Die Verzerrung stammt aus den Trainingsdaten und wird ohne gezielte Gegenmaßnahmen nicht sichtbar.

Kosten und Ressourcen

Training und Betrieb großer Modelle erfordern erhebliche Rechenressourcen. Der Energiebedarf für das Training eines großen Sprachmodells entspricht dem Jahresverbrauch mehrerer Hundert Haushalte. Die Inferenzkosten (pro Anfrage) sinken zwar, summieren sich aber bei hohem Volumen.

Rechtliche Unsicherheit

Urheberrechtsfragen sind ungeklärt: Wer besitzt die Rechte an generiertem Content? Dürfen urheberrechtlich geschützte Werke als Trainingsdaten verwendet werden? Gerichte in verschiedenen Ländern kommen zu unterschiedlichen Ergebnissen. Regulierung wie der EU AI Act schafft erste Rahmenbedingungen, lässt aber viele Detailfragen offen.

Missbrauch

Generative KI ermöglicht die Erzeugung von Deepfakes, automatisierter Desinformation und Phishing-Nachrichten in bisher unerreichter Qualität und Geschwindigkeit. Die Erkennungsmethoden halten mit der Erzeugungsqualität nicht Schritt.

Beispiel: Ein Deepfake-Video zeigt eine Geschäftsführerin, die Anweisungen zur Überweisung gibt. Stimme, Mimik und Hintergrund sind synthetisch erzeugt. Mitarbeiter erkennen die Fälschung nicht. Der finanzielle Schaden entsteht in Minuten.

Fachliche Einordnung: Die Grenze zwischen nützlicher Anwendung und Missbrauch ist fließend. Dieselbe Technologie, die realistische Synchronisation ermöglicht, ermöglicht auch Deepfakes. Technische Gegenmaßnahmen (Wasserzeichen, Detektoren) befinden sich im Wettlauf mit immer besseren Generierungsverfahren. Regulierung allein reicht nicht. Es braucht technische, organisatorische und gesellschaftliche Antworten gleichzeitig.

Karl Kratz · 20.11.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz