Code-Generierung

Ein Entwickler beschreibt in einem Kommentar, was eine Funktion tun soll. Ein Sprachmodell liest diesen Kommentar und erzeugt daraus ausführbaren Programmcode. Diesen Vorgang nennt man Code-Generierung.

Code-Generierung bezeichnet die automatische Erzeugung von Programmcode durch ein Sprachmodell. Das Modell erhält eine natürlichsprachliche Beschreibung oder einen unvollständigen Codeabschnitt und erzeugt daraus syntaktisch korrekten, ausführbaren Quelltext. Die Grundlage bildet das gleiche autoregressive Prinzip, mit dem Sprachmodelle auch natürliche Sprache erzeugen: Das Modell sagt Zeichen für Zeichen (genauer: Token für Token) voraus, welches Zeichen als nächstes folgen sollte.

Der Unterschied zur herkömmlichen Autovervollständigung in Entwicklungsumgebungen liegt in der Kontexttiefe. Klassische Autovervollständigung arbeitet mit Syntaxbäumen und Typsignaturen. Ein Sprachmodell bezieht zusätzlich den semantischen Kontext ein: vorhandene Imports, Variablennamen, Kommentare, die Struktur des umliegenden Codes und die im Prompt formulierte Absicht.

Vom Prompt zum Programmcode

Der Ablauf einer Code-Generierung folgt dem gleichen Muster wie jede andere Textgenerierung durch ein Sprachmodell. Das Modell erhält eine Eingabe (den Prompt), verarbeitet sie über seine Transformer-Architektur und gibt eine Sequenz von Tokens aus, die zusammengesetzt den generierten Code ergeben.

Beispiel: Ein Entwickler schreibt den Kommentar # Sortiere eine Liste von Wörterbüchern nach dem Schlüssel "name". Das Modell erzeugt daraus sorted_list = sorted(data, key=lambda x: x["name"]). Es hat aus dem Kommentar die Programmiersprache (Python), die Datenstruktur (Liste von Dictionaries) und die gewünschte Operation (Sortierung nach Schlüssel) abgeleitet.

Beispiel: In einer TypeScript-Datei mit vorhandenen React-Komponenten erzeugt ein Modell eine neue Komponente, die zum bestehenden Stil passt: gleiche Namenskonvention, gleiche Hooks, gleiche Fehlerbehandlung. Die Kontextinformation stammt nicht aus dem Prompt, sondern aus dem umliegenden Code.

Die Qualität der Generierung hängt direkt von der Präzision der Eingabe ab. Ein vager Prompt wie "Mach eine Funktion für Daten" erzeugt generischen Code. Ein präziser Prompt wie "Schreibe eine Python-Funktion, die eine CSV-Datei einliest und alle Zeilen herausfiltert, deren Spalte 'status' den Wert 'aktiv' hat" erzeugt spezifischen, verwendbaren Code.

EingabePrompt oder Codekontext

TokenizerText → Token-IDs

SprachmodellToken-für-Token-Vorhersage

DecodingToken-IDs → Text

AusgabeGenerierter Quellcode

Wie Modelle Programmiersprachen lernen

Sprachmodelle, die Code generieren, werden auf großen Mengen öffentlich verfügbarer Quelltext-Repositorien trainiert. Dabei lernt das Modell statistische Regelmäßigkeiten: Welche Token-Folgen treten in Python häufig auf? Wie sieht eine typische Fehlerbehandlung in Java aus? Welche Muster folgen auf einen bestimmten Import? Das Deep-Learning-Verfahren dahinter ist dasselbe wie beim Training auf natürlicher Sprache.

Beispiel: Ein Modell hat Millionen von Python-Dateien gesehen, die nach import pandas as pd Operationen wie pd.read_csv() oder pd.DataFrame() enthalten. Es hat daraus gelernt, dass nach diesem Import bestimmte Methodenaufrufe wahrscheinlich sind.

Beispiel: In JavaScript-Repositorien folgt auf fetch(url) in den meisten Fällen ein .then(response => response.json()) oder ein await-Pattern. Das Modell gibt beide Varianten als Vorschläge aus, abhängig davon, ob der umgebende Code async verwendet.

Die Trainingsdaten bestimmen, welche Sprachen ein Modell besser beherrscht. Python und JavaScript sind in öffentlichen Repositorien überrepräsentiert. Weniger verbreitete Sprachen wie Haskell, Erlang oder COBOL sind im Training unterrepräsentiert. Die Generierungsqualität korreliert direkt mit der Menge und Qualität der Trainingsdaten für die jeweilige Sprache.

Fachliche Einordnung: Die Trainingsdaten für Code-Modelle stammen überwiegend aus öffentlichen Repositorien (GitHub, GitLab, Stack Overflow). Die Lizenzfrage ist ungeklärt: Ob das Training auf GPL-lizenziertem Code die Ausgabe unter GPL stellt, ist rechtlich umstritten. Unternehmen wie Microsoft (Copilot) und Anthropic (Claude) verfolgen unterschiedliche Ansätze zur Lizenzkonformität. Eine höchstrichterliche Klärung steht aus.

Anwendungsformen der Code-Generierung

Code-Generierung tritt in verschiedenen Formen auf, je nachdem wie die Eingabe strukturiert ist und in welchem Kontext das Modell arbeitet.

Inline-Vervollständigung: Der Entwickler tippt Code, das Modell schlägt in Echtzeit die nächsten Zeilen vor. Dieses Muster wird in IDE-Integrationen wie GitHub Copilot oder Cursor verwendet. Das Modell erhält den aktuellen Dateiinhalt als Kontext und erzeugt eine Fortsetzung.

Beispiel: Ein Entwickler schreibt in einer Go-Datei func (s *Server) HandleRequest(w http.ResponseWriter, r *http.Request) {. Das Modell vervollständigt die Funktion mit Request-Parsing, Fehlerbehandlung und Response-Formatierung, basierend auf den bereits definierten Struct-Feldern von Server.

Prompt-basierte Generierung: Der Entwickler formuliert eine Aufgabe in natürlicher Sprache. Das Modell erzeugt eine vollständige Lösung. Dieser Modus wird bei Chat-Interfaces verwendet, etwa bei Claude, ChatGPT oder in IDE-Chatfenstern.

Beispiel: Die Eingabe "Schreibe eine REST-API in Flask mit zwei Endpunkten: GET /users gibt alle Benutzer zurück, POST /users legt einen neuen an" erzeugt eine lauffähige Flask-Applikation mit Routendefinitionen, Fehlerbehandlung und JSON-Serialisierung.

Code-Transformation: Das Modell erhält bestehenden Code und eine Anweisung zur Änderung. Es erzeugt eine modifizierte Version. Typische Aufgaben sind Refactoring, Sprachmigrationen oder die Anpassung an neue API-Versionen.

Beispiel: Die Anweisung "Konvertiere diese Python-2-Funktion nach Python 3" ersetzt print "Hallo" durch print("Hallo"), dict.has_key(k) durch k in dict und unicode(s) durch str(s).

Wie der Kontext die Ausgabe bestimmt

Das entscheidende Merkmal moderner Code-Generierung ist die Kontextverarbeitung. Das Modell liest nicht nur die unmittelbare Eingabe, sondern bezieht den gesamten verfügbaren Kontext ein. In IDE-Integrationen umfasst dieser Kontext die aktuelle Datei, geöffnete Tabs, importierte Module und teilweise die Projektstruktur.

Beispiel: Eine Datei importiert from sqlalchemy import Column, Integer, String, create_engine. Wenn der Entwickler eine neue Klasse beginnt, erzeugt das Modell eine SQLAlchemy-Modelldefinition mit __tablename__, typisierten Spalten und einer __repr__-Methode. Ohne den Import hätte dasselbe Modell eine einfache Python-Klasse erzeugt.

Der Attention-Mechanismus des Transformers ermöglicht diese Kontextverarbeitung. Jedes Token in der Eingabe kann auf jedes andere Token Bezug nehmen. Das Modell lernt, welche Teile des Kontexts für die aktuelle Vorhersage relevant sind: ein Variablenname 200 Zeilen weiter oben, eine Typdefinition in einer anderen Datei oder ein Kommentar am Anfang der Funktion.

Beispiel: In einem TypeScript-Projekt mit einer Datei types.ts, die interface User { id: number; name: string; email: string; } definiert, erzeugt das Modell in einer anderen Datei automatisch Funktionen, die das User-Interface korrekt verwenden, sofern types.ts im Kontext enthalten ist.

Die Größe des verfügbaren Kontextfensters begrenzt, wie viel Information das Modell gleichzeitig verarbeiten kann. Modelle mit 8.000 Tokens erfassen einzelne Dateien. Modelle mit 100.000 oder mehr Tokens können größere Codebases verarbeiten. Die Qualität nimmt bei sehr langen Kontexten ab, weil die Aufmerksamkeitsverteilung dünner wird.

Qualität und typische Fehlerquellen

Generierter Code ist syntaktisch korrekt in der Mehrzahl der Fälle. Die Benchmarks HumanEval und MBPP messen die funktionale Korrektheit: Erzeugt das Modell Code, der vorgegebene Testfälle besteht? Aktuelle Modelle erreichen auf HumanEval Werte zwischen 70 und 95 Prozent, je nach Modellgröße und Prompting-Strategie. Diese Zahlen gelten für isolierte Funktionen mit klarer Spezifikation.

Beispiel: Die HumanEval-Aufgabe "Schreibe eine Funktion, die prüft, ob eine Zahl eine Primzahl ist" lösen aktuelle Modelle zuverlässig. Die Aufgabe "Schreibe eine Funktion, die eine PostgreSQL-Verbindung mit Connection-Pooling, Retry-Logik und Timeout-Handling aufbaut" erfordert domänenspezifisches Wissen, das in Benchmarks nicht abgebildet wird.

Typische Fehler bei der Code-Generierung lassen sich kategorisieren:

Funktionale Fehler: Der Code läuft, liefert aber falsche Ergebnisse bei Randfällen. Ein generierter Sortieralgorithmus funktioniert für die meisten Eingaben, versagt aber bei leeren Listen oder Listen mit einem Element.

Sicherheitslücken: Das Modell erzeugt SQL-Abfragen ohne Parameterisierung, setzt Umgebungsvariablen mit hartcodierten Schlüsseln oder öffnet Netzwerk-Sockets ohne Authentifizierung. Es hat diese Muster in den Trainingsdaten gesehen, weil öffentliche Repositorien zahlreiche Beispiele mit Sicherheitsmängeln enthalten.

Beispiel: Ein Modell erzeugt für eine Login-Funktion SELECT * FROM users WHERE name='" + username + "' statt einer parametrisierten Abfrage. Das Muster stammt aus älteren Tutorials und StackOverflow-Antworten im Trainingskorpus.

Architektur-Inkompatibilität: Der generierte Code funktioniert isoliert, passt aber nicht in die bestehende Architektur. Er verwendet andere Namenskonventionen, andere Fehlerbehandlungsmuster oder andere Abstraktionsebenen als der restliche Code.

Bewertung von generiertem Code

Die Bewertung von generiertem Code erfordert andere Kriterien als die Bewertung von menschlich geschriebenem Code. Bei menschlichem Code wird die Absicht als gegeben vorausgesetzt. Bei generiertem Code muss zusätzlich geprüft werden, ob das Modell die Absicht korrekt interpretiert hat.

Beispiel: Die Anweisung "Schreibe eine Caching-Funktion" kann ein In-Memory-Cache mit Dictionary, ein LRU-Cache mit functools.lru_cache, ein dateibasierter Cache oder ein Redis-Client sein. Das Modell wählt eine Interpretation. Ob diese Wahl korrekt ist, hängt vom Projektkontext ab, den das Modell möglicherweise nicht vollständig erfasst.

Statische Analysewerkzeuge (Linter, Type-Checker, Sicherheitsscanner) können einen Teil der Prüfung automatisieren. Sie erkennen Typisierungsfehler, ungenutzten Code, bekannte Sicherheitsmuster und Stilverstöße. Sie erkennen nicht, ob der Code die richtige Aufgabe löst.

Beispiel: Ein Type-Checker meldet, dass eine Funktion Optional[str] zurückgibt, aber der Aufrufer keinen None-Check durchführt. Der generierte Code hat den Rückgabetyp korrekt annotiert, aber der Aufrufer wurde nicht angepasst. Statische Analyse erkennt diesen Fehler. Ob die Funktion überhaupt die richtige ist, erkennt sie nicht.

Fachliche Einordnung: HumanEval und MBPP testen isolierte Funktionen mit klaren Ein- und Ausgabespezifikationen. Reale Softwareentwicklung erfordert Zusammenarbeit über Modulgrenzen, Zustandsverwaltung, Nebenläufigkeit und Integration mit externen Systemen. Die Benchmark-Ergebnisse sind daher als obere Schranke für die Leistungsfähigkeit bei strukturierten Aufgaben zu verstehen, nicht als repräsentativ für allgemeine Entwicklungsarbeit.

Integration in den Entwicklungsworkflow

Code-Generierung integriert sich auf verschiedenen Ebenen in bestehende Entwicklungsprozesse. Die einfachste Form ist die IDE-Integration: Ein Plugin sendet den aktuellen Dateikontext an ein Modell und zeigt den Vorschlag inline an. Der Entwickler akzeptiert, modifiziert oder verwirft den Vorschlag.

Beispiel: In VS Code mit der Copilot-Erweiterung tippt ein Entwickler den Funktionsnamen def parse_csv_with_headers. Das Modell schlägt den Funktionskörper vor. Der Entwickler drückt Tab zum Akzeptieren oder tippt weiter, um den Vorschlag zu überschreiben.

Komplexere Integrationen nutzen API-Aufrufe in CI/CD-Pipelines. Generierte Tests, automatisierte Code-Reviews oder Dokumentationsgenerierung laufen als Teil des Build-Prozesses. Diese Anwendungen erfordern stabile API-Verfügbarkeit und deterministische Ausgaben, was bei stochastischen Modellen nur näherungsweise erreichbar ist.

Beispiel: Eine CI-Pipeline enthält einen Schritt, der für jede neue Funktion automatisch Unit-Tests generiert. Die generierten Tests werden ausgeführt. Scheitert ein Test, wird geprüft, ob der Test fehlerhaft ist oder ob er einen echten Bug aufdeckt.

Grenzen und Einschränkungen

Code-Generierung hat strukturelle Grenzen, die sich aus der Funktionsweise von Sprachmodellen ergeben.

Kein Programmverständnis: Das Modell simuliert Code-Erzeugung durch statistische Muster. Es führt den Code nicht aus, testet ihn nicht und versteht nicht, was er zur Laufzeit bewirkt. Es erzeugt Zeichenketten, die Programmcode ähneln, basierend auf Wahrscheinlichkeitsverteilungen.

Beispiel: Ein Modell erzeugt eine rekursive Funktion ohne Abbruchbedingung. Syntaktisch ist der Code korrekt. Zur Laufzeit führt er zu einem Stack Overflow. Das Modell hat kein Modell der Programmausführung.

Veraltetes Wissen: Die Trainingsdaten haben einen Stichtag. Code, der nach dem Training veröffentlichte APIs verwendet, kann nicht korrekt generiert werden. Ein Modell mit Trainingsdaten bis 2024 kennt keine Breaking Changes einer Bibliothek aus 2025.

Beispiel: Ein Modell generiert Code für die OpenAI-API mit openai.ChatCompletion.create(). Seit der Python-SDK-Version 1.0 lautet der korrekte Aufruf client.chat.completions.create(). Der generierte Code funktioniert nicht mit der aktuellen Bibliotheksversion.

Kontextgrenzen: Auch bei großen Kontextfenstern kann ein Modell nicht ein gesamtes Enterprise-Projekt mit Tausenden von Dateien gleichzeitig verarbeiten. Die Auswahl, welche Dateien als Kontext mitgegeben werden, bestimmt die Qualität der Ausgabe. Falsche oder fehlende Kontextauswahl führt zu Code, der isoliert funktioniert, aber im Projekt scheitert.

Reproduzierbarkeit: Sprachmodelle sind stochastisch. Derselbe Prompt erzeugt bei wiederholter Ausführung unterschiedlichen Code. In Umgebungen, die deterministische Builds erfordern, ist dies ein Problem. Niedrige Temperaturwerte reduzieren die Varianz, beseitigen sie aber nicht vollständig.

Lizenzrisiko: Generierter Code kann Passagen enthalten, die aus Trainingsdaten stammen und unter restriktiven Lizenzen stehen. Die juristische Bewertung ist offen. Unternehmen, die generierten Code in proprietärer Software einsetzen, tragen ein ungeklärtes Lizenzrisiko.

Fachliche Einordnung: Die fundamentale Grenze der Code-Generierung liegt in der Differenz zwischen Musterfortführung und Programmverständnis. Sprachmodelle operieren auf der Zeichenebene. Formale Verifikation, die beweist, dass ein Programm eine Spezifikation erfüllt, erfordert Methoden, die über statistische Mustererkennung hinausgehen. Aktuelle Forschung kombiniert Sprachmodelle mit symbolischen Verifikatoren und Testgeneratoren, um diese Lücke zu schließen.

Karl Kratz · 05.12.2025 (aktualisiert 03.04.2026)

Technologie Code-Analyse