PCA (Hauptkomponentenanalyse)

Wenn ein Datensatz 1000 Merkmale hat, aber die meiste Information in 20 davon steckt, braucht es ein Verfahren, das diese 20 zuverlässig findet. Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist dieses Verfahren: Sie berechnet, in welche Richtungen die Daten am stärksten streuen, und sortiert diese Richtungen nach Wichtigkeit.

Warum hochdimensionale Daten Reduktion brauchen

Viele Datensätze enthalten mehr Merkmale als nötig. Ein Bild mit 256×256 Pixeln hat 65.536 Dimensionen, ein Embedding-Vektor moderner Sprachmodelle oft 1024 oder mehr. Nicht alle diese Dimensionen tragen gleich viel zur Unterscheidung der Datenpunkte bei. Einige sind hochkorreliert, andere enthalten fast nur Rauschen.

Beispiel: Ein Embedding-Modell erzeugt Vektoren mit 1024 Dimensionen. In einer PCA-Analyse zeigt sich, dass 90% der Gesamtvarianz in den ersten 80 Hauptkomponenten liegen. Die verbleibenden 944 Dimensionen tragen zusammen nur 10% bei.

Beispiel: Ein Datensatz enthält die Körpergröße und das Gewicht von 5000 Personen. Beide Merkmale korrelieren stark. PCA fasst sie zu einer Hauptkomponente zusammen, die als "Körpergröße-Gewicht-Achse" interpretiert werden kann.

PCA sucht die Richtungen im Datenraum, entlang derer die Varianz maximal ist. Diese Richtungen heißen Hauptkomponenten (Principal Components). Die erste Hauptkomponente erklärt den größten Anteil der Varianz, die zweite den größten verbleibenden Anteil (orthogonal zur ersten), und so weiter.

Berechnung der Hauptkomponenten

Die Berechnung folgt einem festen Ablauf. Zunächst werden die Daten zentriert: Von jedem Merkmal wird dessen Mittelwert abgezogen. Dann wird die Kovarianzmatrix berechnet. Diese quadratische Matrix beschreibt, wie stark jedes Merkmalspaar gemeinsam variiert.

Aus der Kovarianzmatrix werden Eigenvektoren und Eigenwerte bestimmt. Jeder Eigenvektor definiert eine Richtung im Datenraum, der zugehörige Eigenwert gibt an, wie viel Varianz diese Richtung erklärt. Die Eigenvektoren werden nach absteigendem Eigenwert sortiert. Der Eigenvektor mit dem größten Eigenwert ist die erste Hauptkomponente.

Beispiel: Drei Sensoren messen Temperatur, Luftfeuchtigkeit und Luftdruck. Die Kovarianzmatrix ist 3×3. Ihre drei Eigenvektoren zeigen in die drei Hauptrichtungen der Datenwolke. Wenn der erste Eigenwert 85% der Gesamtvarianz ausmacht, reicht eine einzige Hauptkomponente, um den Großteil der Messungen zu beschreiben.

Beispiel: Bei einem Textkorpus mit TF-IDF-Vektoren der Dimension 10.000 hat die Kovarianzmatrix 10.000×10.000 Einträge. Die direkte Eigenwertzerlegung wäre rechenintensiv. In der Praxis werden iterative Verfahren oder die Singulärwertzerlegung (SVD) eingesetzt, die die Hauptkomponenten ohne explizite Kovarianzmatrix berechnen.

Rohdatenn Datenpunkte, d Merkmale
ZentrierungMittelwert abziehen
Kovarianzmatrixd × d Matrix
EigenwertzerlegungEigenvektoren + Eigenwerte
Projektiond → k Dimensionen

Erklärte Varianz und die Wahl der Komponentenzahl

Die zentrale Entscheidung bei PCA ist, wie viele Hauptkomponenten beibehalten werden. Dafür dient die kumulative erklärte Varianz: Sie summiert die Eigenwerte der ausgewählten Komponenten und setzt sie ins Verhältnis zur Gesamtvarianz.

Beispiel: Die ersten 5 von 100 Hauptkomponenten erklären zusammen 78% der Gesamtvarianz. Jede weitere Komponente fügt weniger als 2% hinzu. Ein Scree-Plot (Eigenwerte gegen Komponentennummer) zeigt einen Knick nach der fünften Komponente. Dieser Knick dient als heuristisches Kriterium für die Komponentenwahl.

Beispiel: In einem Empfehlungssystem mit 500 Produktmerkmalen zeigt der Scree-Plot keinen klaren Knick. Hier wird stattdessen ein Schwellenwert gewählt: Man behält so viele Komponenten, bis 95% der Varianz erklärt sind. Das ergibt 120 Komponenten.

Es gibt kein universelles Kriterium für die richtige Anzahl. Der Scree-Plot-Knick, prozentuale Schwellenwerte (90%, 95%, 99%) und aufgabenspezifische Evaluierung (wie verändert sich die Downstream-Leistung?) sind gängige Methoden. Keine davon ist objektiv überlegen.

PCA bei Embedding-Vektoren

Moderne Embedding-Modelle bilden Text auf hochdimensionale Vektoren ab. Ein Modell wie E5-large erzeugt 1024-dimensionale Vektoren. Ob alle 1024 Dimensionen effektiv genutzt werden, lässt sich mit PCA prüfen.

Beispiel: In einem Benchmark mit sieben Embedding-Modellen zeigt die PCA-Analyse, dass alle Modelle ihre 1024 Dimensionen ähnlich nutzen. Die effektive Dimensionsausnutzung liegt bei etwa 5%. Das bedeutet: Rund 50 Hauptkomponenten fangen den Großteil der Streuung ein. Das ist für Embedding-Modelle dieser Größe ein typischer Wert.

Dieses Ergebnis ist nicht automatisch ein Problem. Die verbleibenden Dimensionen können seltene, aber relevante Unterschiede kodieren. Ob eine Reduktion auf die dominanten Hauptkomponenten die Retrieval-Qualität verringert, muss empirisch geprüft werden.

Beispiel: Nach Reduktion von 1024 auf 64 Dimensionen per PCA sinkt die Cosine Similarity zwischen semantisch ähnlichen Dokumentpaaren um 3%. Die Ranking-Reihenfolge in einem Retrieval-System bleibt in 94% der Fälle identisch. Speicherbedarf und Suchzeit sinken um den Faktor 16.

Voraussetzungen und Annahmen

PCA beruht auf linearen Zusammenhängen. Das Verfahren sucht Richtungen maximaler Varianz, und Varianz misst lineare Streuung. Nichtlineare Strukturen in den Daten werden nicht berücksichtigt.

Beispiel: Datenpunkte liegen auf einem Kreis in zwei Dimensionen. PCA findet zwei Hauptkomponenten mit ähnlicher Varianz und kann die kreisförmige Struktur nicht auf eine Dimension reduzieren. Nichtlineare Verfahren wie t-SNE oder UMAP erkennen die Ringstruktur und bilden sie auf einen niedrigdimensionalen Raum ab.

Weitere Voraussetzungen: Die Daten müssen zentriert sein (Mittelwert Null). Bei unterschiedlich skalierten Merkmalen (z.B. Alter in Jahren und Einkommen in Euro) ist eine Normalisierung vor der PCA notwendig, da sonst das Merkmal mit der größeren Skala die Hauptkomponenten dominiert.

PCA maximiert Varianz. Das ist nicht in jedem Kontext gleichbedeutend mit "informativ". Wenn die Klassen in einem Datensatz nicht entlang der varianzreichsten Richtungen getrennt sind, kann PCA relevante Unterschiede verwerfen. In solchen Fällen ist Linear Discriminant Analysis (LDA) eine Alternative, die Klassentrennung explizit berücksichtigt.

Typische Einsatzgebiete

PCA wird in sehr unterschiedlichen Bereichen eingesetzt. Die Grundmotivation ist immer gleich: Hochdimensionale Daten auf ihre wesentlichen Richtungen reduzieren.

Beispiel: In der Bildverarbeitung werden Gesichtsbilder (z.B. 100×100 Pixel = 10.000 Dimensionen) mit PCA auf wenige hundert Hauptkomponenten reduziert. Die resultierenden "Eigenfaces" bilden eine Basis, in der sich Gesichter effizient vergleichen lassen. Das Verfahren geht auf Turk und Pentland (1991) zurück.

Beispiel: In der Genomik haben Datensätze oft 20.000 Gene pro Probe, aber nur wenige hundert Proben. PCA reduziert die 20.000 Dimensionen auf 2 oder 3 und ermöglicht es, Populationsstrukturen oder Ausreißer visuell zu erkennen.

Beispiel: Beim RAG-Pipeline-Design wird PCA genutzt, um die Dimension der Embedding-Vektoren zu verringern, bevor sie in einer Vektordatenbank gespeichert werden. Das verringert Speicherbedarf und beschleunigt die Nächster-Nachbar-Suche.

Fachliche Einordnung: PCA ist eines der ältesten und am gründlichsten untersuchten Verfahren der multivariaten Statistik. Karl Pearson beschrieb das Prinzip 1901, Harold Hotelling formalisierte es 1933. Trotz seiner Linearitätsbeschränkung bleibt PCA ein Standardwerkzeug, weil es effizient berechenbar, mathematisch geschlossen lösbar und gut interpretierbar ist. Nichtlineare Erweiterungen (Kernel-PCA, Autoencoders) bauen auf dem gleichen Grundgedanken auf.

Grenzen und häufige Fehlinterpretationen

PCA optimiert ausschließlich die Varianzerhaltung. Das führt zu mehreren Einschränkungen, die in der Praxis oft übersehen werden.

Hohe erklärte Varianz garantiert nicht, dass die reduzierten Daten für eine bestimmte Aufgabe geeignet sind. Wenn die aufgabenrelevante Information in den varianzarmen Dimensionen liegt, verwirft PCA genau die relevanten Merkmale.

Beispiel: Ein Datensatz enthält 100 Produktbewertungen mit Preis und Qualität. Der Preis variiert stark, die Qualität nur gering. PCA wählt den Preis als erste Hauptkomponente. Wenn die Aufgabe darin besteht, Qualitätsunterschiede zu erkennen, ist diese Reduktion kontraproduktiv.

Die Hauptkomponenten sind Linearkombinationen aller Originalmerkmale. Sie sind oft schwer zu interpretieren. Die erste Hauptkomponente eines Textkorpus ist keine einzelne Wortbedeutung, sondern eine gewichtete Mischung aller Wörter.

Beispiel: Bei einer PCA über Wirtschaftsindikatoren (BIP, Inflation, Arbeitslosenquote, Handelsvolumen) erklärt die erste Hauptkomponente 62% der Varianz. Sie lädt positiv auf BIP und Handelsvolumen, negativ auf Arbeitslosenquote. Man könnte sie als "wirtschaftliche Gesamtlage" interpretieren, aber das ist eine nachträgliche Zuschreibung, keine vom Verfahren gelieferte Bezeichnung.

PCA setzt voraus, dass die Daten stationär sind. Bei Zeitreihen, die sich über die Zeit verändern, können die Hauptkomponenten eines frühen Zeitfensters für spätere Daten nicht mehr gültig sein.

Fachliche Einordnung: Die Linearität von PCA ist gleichzeitig ihre größte Stärke (mathematische Einfachheit, eindeutige Lösung) und ihre größte Schwäche (nichtlineare Strukturen werden ignoriert). In der Praxis wird PCA deshalb oft als Vorverarbeitungsschritt eingesetzt, nicht als alleinstehende Methode. Die Entscheidung, wie viele Komponenten beibehalten werden, bleibt immer aufgabenabhängig.


Karl Kratz · 29.01.2026

Technologie Künstliche Intelligenz Embeddings