Computer Vision

Kameras liefern Rohdaten: Millionen von Farbwerten in einem Raster. Computer Vision umfasst die Verfahren, mit denen Software aus diesen Rastern Bedeutung extrahiert. Ein Bild wird dabei nicht betrachtet, sondern systematisch in numerische Repräsentationen überführt und gegen gelernte Muster abgeglichen.

Vom Pixelraster zur semantischen Aussage

Ein digitales Bild besteht aus Pixeln. Jedes Pixel speichert Farbwerte, typischerweise drei Kanäle (Rot, Grün, Blau) mit je 256 Stufen. Ein Bild mit 1024 mal 768 Pixeln enthält damit rund 2,4 Millionen Zahlenwerte. Die Aufgabe von Computer Vision besteht darin, aus dieser Zahlenmatrix strukturierte Information abzuleiten: Welche Objekte sind zu sehen? Wo befinden sie sich? In welchem Zustand sind sie?

Beispiel: Eine Industriekamera erfasst ein Bauteil auf einem Fließband. Das resultierende Bild hat 2048 mal 1536 Pixel. Ein Computer-Vision-System segmentiert die Oberfläche, erkennt einen 0,3 mm breiten Haarriss und klassifiziert das Teil als fehlerhaft. Die gesamte Verarbeitung dauert unter 50 Millisekunden.

Klassische Ansätze verwendeten handkonstruierte Merkmalsextraktoren: Kantenfilter wie Sobel oder Canny, Histogramme orientierter Gradienten (HOG) und Template-Matching. Diese Verfahren funktionieren bei kontrollierten Bedingungen (gleichmäßige Beleuchtung, fester Hintergrund), stoßen aber bei variablen Szenen an Grenzen.

Beispiel: Ein HOG-Detektor erkennt Fußgänger zuverlässig bei Tageslicht und aufrechter Körperhaltung. Sobald Personen teilweise verdeckt sind, sich bücken oder bei Gegenlicht erscheinen, sinkt die Erkennungsrate erheblich.

Fachliche Einordnung: Die Ablösung handkonstruierter Features durch gelerntes Repräsentationslernen markiert den zentralen Paradigmenwechsel in Computer Vision. Seit 2012 (AlexNet, ImageNet Challenge) dominieren lernbasierte Ansätze die Benchmarks in nahezu allen Teilaufgaben.

Kernaufgaben: Klassifikation, Detektion, Segmentierung

Computer Vision umfasst mehrere Teilaufgaben mit unterschiedlichem Granularitätsgrad:

Bildklassifikation ordnet einem gesamten Bild eine Kategorie zu. Die Eingabe ist ein Bild, die Ausgabe eine Klasse (z.B. "Katze", "Hund", "Fahrzeug"). Moderne Klassifikatoren erreichen auf dem ImageNet-Datensatz (1000 Klassen, 1,2 Millionen Trainingsbilder) Top-5-Fehlerraten unter 2 Prozent.

Objektdetektion lokalisiert einzelne Objekte innerhalb eines Bildes. Die Ausgabe besteht aus Bounding Boxes (Rechtecken um erkannte Objekte) mit Klassenbezeichnung und Konfidenzwert. Architekturen wie YOLO (You Only Look Once) verarbeiten Bilder in einem einzigen Netzwerk-Durchlauf und erreichen Echtzeit-Geschwindigkeit.

Beispiel: Ein Lagerverwaltungssystem erkennt mit YOLO auf einem Kamerabild gleichzeitig 23 verschiedene Pakete, lokalisiert jedes mit einer Bounding Box und liest per OCR die Paketkennzeichnung. Die Verarbeitung eines Frames dauert 18 Millisekunden auf einer GPU.

Semantische Segmentierung weist jedem einzelnen Pixel eine Klasse zu. Statt eines Rechtecks um ein Objekt entsteht eine pixelgenaue Maske. Bei der Instanzsegmentierung werden zusätzlich einzelne Objekte derselben Klasse voneinander unterschieden.

Beispiel: In der medizinischen Bildgebung segmentiert ein U-Net-Modell auf einer CT-Aufnahme der Lunge Tumorgewebe mit einer Dice-Genauigkeit von 0,87. Jedes Pixel wird als "Tumor", "gesundes Gewebe" oder "Hintergrund" klassifiziert.

Architekturen: Vom Faltungsnetz zum Vision Transformer

Faltungsnetzwerke (Convolutional Neural Networks, CNNs) bilden seit 2012 das Rückgrat der meisten Computer-Vision-Systeme. Ein CNN wendet kleine Filtermatrizen (Kernel) auf das Eingabebild an. Jeder Kernel erkennt ein bestimmtes lokales Muster. In frühen Schichten sind das Kanten und Ecken, in tieferen Schichten komplexe Strukturen wie Augen oder Räder.

Beispiel: Ein ResNet-50 (ein CNN mit 50 Schichten und Residualverbindungen) verarbeitet ein 224 mal 224 Pixel großes Bild durch 50 Faltungsschichten. Die ersten Schichten reagieren auf horizontale und vertikale Kanten, mittlere Schichten auf Texturen und Formen, die letzten Schichten auf semantische Konzepte wie "Gesicht" oder "Rad".

Seit 2020 setzen sich zunehmend Transformer-basierte Architekturen durch. Vision Transformer (ViT) teilen ein Bild in feste Patches (z.B. 16 mal 16 Pixel), behandeln jeden Patch als Token und verarbeiten die Sequenz mit dem Attention-Mechanismus. Dadurch kann das Modell globale Zusammenhänge im Bild erfassen, ohne auf die lokale Rezeptivfeldgröße eines CNN beschränkt zu sein.

Beispiel: Ein ViT-Large verarbeitet ein 384 mal 384 Pixel Bild als Sequenz von 576 Patches. Über den Attention-Mechanismus kann Patch 12 (oben links) direkt Information von Patch 540 (unten rechts) erhalten. Bei einem CNN müsste diese Information durch dutzende Schichten propagieren.

Eingabebild224 x 224 x 3

CNN-PfadFaltung + Pooling

ViT-PfadPatches + Attention

Lokale MerkmaleKanten, Texturen

Globale MerkmalePatch-Beziehungen

KlassifikationAusgabeklasse + Konfidenz

Training: Daten, Augmentierung und Vortrainierte Modelle

Computer-Vision-Modelle lernen aus annotierten Bilddaten. Für Klassifikation bedeutet das: Jedes Trainingsbild trägt ein Label. Für Detektion: Jedes Objekt ist mit einer Bounding Box und Klasse annotiert. Für Segmentierung: Jedes Pixel hat eine Klassenannotation. Die Annotationskosten steigen mit der Granularität erheblich.

Beispiel: Die Annotation eines Bildes für Klassifikation dauert etwa 2 Sekunden (ein Klick). Die Annotation desselben Bildes für Instanzsegmentierung (pixelgenaue Umrisse aller Objekte) dauert 30 bis 90 Minuten. Bei einem Datensatz von 10.000 Bildern ergibt sich ein Unterschied von 6 Stunden gegenüber 5.000 bis 15.000 Stunden Annotationsarbeit.

Datenaugmentierung erweitert den Trainingsdatensatz künstlich. Typische Transformationen sind Rotation, Spiegelung, Skalierung, Farbverschiebung und Zuschnitt. Fortgeschrittene Methoden wie CutMix oder MixUp kombinieren Ausschnitte verschiedener Bilder zu neuen Trainingsbeispielen.

Beispiel: Ein Datensatz mit 5.000 Röntgenbildern wird durch Augmentierung auf 50.000 Trainingsbeispiele erweitert. Jedes Originalbild erzeugt 9 Varianten: horizontal gespiegelt, um 10 Grad rotiert, leicht verzerrt, mit verändertem Kontrast und in verschiedenen Kombinationen dieser Transformationen.

Vortrainierte Modelle (Pretraining auf ImageNet oder größeren Datensätzen) liefern eine Merkmalsrepräsentation, die auf neue Aufgaben übertragen werden kann. Dieses Verfahren heißt Transfer Learning. Statt ein Modell von Grund auf zu trainieren (was Millionen Bilder und Hunderte GPU-Stunden erfordert), wird ein vortrainiertes Modell mit wenigen Tausend domänenspezifischen Bildern feinabgestimmt.

Beispiel: Ein auf ImageNet vortrainiertes ResNet-50 wird für die Erkennung von Hauterkrankungen feinabgestimmt. Mit 8.000 dermatologischen Bildern und 4 Stunden Training auf einer einzelnen GPU erreicht das Modell eine Genauigkeit von 91 Prozent. Ein von Null trainiertes Modell bräuchte mit derselben Datenmenge deutlich länger und würde schlechter abschneiden.

Multimodale Modelle: Text und Bild zusammen verarbeiten

Eine neuere Entwicklung verbindet Bildverarbeitung mit Sprachverständnis. Modelle wie CLIP (Contrastive Language-Image Pre-training) lernen einen gemeinsamen Embedding-Raum für Text und Bild. Ein Bild und eine Textbeschreibung werden in denselben Vektorraum projiziert, sodass semantisch zusammengehörige Bild-Text-Paare nahe beieinander liegen.

Beispiel: CLIP erhält ein Foto und die Textoptionen "ein Hund im Park", "ein Auto auf der Straße" und "ein Dokument auf einem Schreibtisch". Das Modell berechnet die Ähnlichkeit zwischen dem Bild-Embedding und jedem Text-Embedding und wählt die Beschreibung mit dem höchsten Wert. Dieses Verfahren ermöglicht Zero-Shot-Klassifikation: Das Modell erkennt Kategorien, die es im Training nie explizit mit einem Label gesehen hat.

Generative Modelle wie Stable Diffusion kehren den Prozess um: Aus einer Textbeschreibung wird ein Bild erzeugt. Die zugrunde liegende Architektur (ein Diffusionsmodell mit einem U-Net oder Transformer-Backbone) arbeitet iterativ. Ausgehend von reinem Rauschen entfernt das Modell in jedem Schritt einen Teil des Rauschens, gesteuert durch die Textbedingung.

Beispiel: Die Eingabe "Ein Foto eines Lagerhauses mit gestapelten Kartons, Industriebeleuchtung" durchläuft einen Text-Encoder (CLIP) und steuert über Cross-Attention die Rauschentfernung in 50 Diffusionsschritten. Das Ergebnis ist ein fotorealistisches Bild, das dieser Beschreibung entspricht.

Bewertung: Wie die Leistung gemessen wird

Die Leistungsmessung hängt von der Aufgabe ab. Für Klassifikation ist die Top-1-Accuracy (Anteil korrekt klassifizierter Bilder) die Standardmetrik. Für Detektion wird die Mean Average Precision (mAP) verwendet, die sowohl die Korrektheit der Klassifikation als auch die Qualität der Bounding-Box-Lokalisierung berücksichtigt. Für Segmentierung dient der Intersection-over-Union-Wert (IoU), der die Überlappung zwischen vorhergesagter und tatsächlicher Pixelmaske misst.

Beispiel: Ein Detektionsmodell erreicht eine mAP von 0,72 auf dem COCO-Datensatz (80 Objektklassen, 118.000 Trainingsbilder). Das bedeutet: Über alle Klassen und verschiedene IoU-Schwellenwerte gemittelt, liegt die Präzision-Recall-Fläche bei 72 Prozent. Große, gut sichtbare Objekte erreichen dabei höhere Werte als kleine oder teilweise verdeckte.

Benchmarks wie ImageNet, COCO und ADE20K bilden den Standard für Vergleiche. Diese Datensätze enthalten definierte Train/Val/Test-Splits, sodass Ergebnisse verschiedener Modelle vergleichbar sind. Die Leistung auf einem Benchmark überträgt sich aber nicht automatisch auf produktive Anwendungen, in denen Beleuchtung, Kamerawinkel, Objektvarianz und Datenverteilung abweichen können.

Anwendungsbereiche und technische Anforderungen

Computer Vision wird in zahlreichen Domänen eingesetzt, jeweils mit spezifischen technischen Anforderungen:

Autonomes Fahren kombiniert Objektdetektion, Tiefenschätzung und Szenenverständnis. Mehrere Kameras, LiDAR und Radar liefern Daten, die fusioniert werden. Latenzanforderung: unter 100 Millisekunden für die gesamte Verarbeitungspipeline.

Medizinische Bildanalyse umfasst Segmentierung von Organen, Detektion von Läsionen und Klassifikation histologischer Schnitte. Die Anforderung an Recall (Sensitivität) ist hier besonders hoch: Ein übersehener Tumor (False Negative) hat gravierendere Folgen als ein Fehlalarm (False Positive).

Beispiel: Ein Retina-Screening-System für diabetische Retinopathie analysiert Fundusaufnahmen des Auges. Bei einem Schwellenwert, der 95 Prozent Sensitivität gewährleistet, liegt die Spezifität bei 82 Prozent. Das bedeutet: Von 100 erkrankten Augen werden 95 korrekt erkannt, aber von 100 gesunden Augen werden 18 fälschlicherweise als auffällig markiert.

Dokumentenverarbeitung nutzt OCR (Optical Character Recognition) und Layout-Analyse. Moderne Ansätze behandeln ein Dokument als visuelles Objekt und extrahieren Text, Tabellen und Strukturinformation in einem gemeinsamen Modell.

Qualitätskontrolle in der Fertigung erfordert hohe Durchsatzraten und konsistente Genauigkeit. Systeme verarbeiten bis zu 100 Teile pro Minute und erkennen Defekte ab 0,1 mm Größe bei entsprechender Kameraauflösung und Beleuchtung.

Grenzen und offene Probleme

Trotz der Fortschritte bestehen systematische Einschränkungen:

Verteilungsverschiebung (Domain Shift): Ein Modell, das auf Bildern einer bestimmten Kamera, Beleuchtung und Perspektive trainiert wurde, verliert Genauigkeit, wenn sich diese Parameter ändern. Ein Produktionsmodell, das bei Kunstlicht trainiert wurde, kann bei Tageslicht andere Fehlerraten zeigen.

Beispiel: Ein Defekterkennungsmodell erreicht auf Testdaten aus derselben Fabrik 97 Prozent Genauigkeit. Beim Einsatz in einer zweiten Fabrik mit anderer Beleuchtung sinkt die Genauigkeit auf 71 Prozent, obwohl dieselben Defekttypen auftreten.

Adversariale Robustheit: Kleine, für Menschen unsichtbare Änderungen an Pixelwerten können die Klassifikation eines Modells vollständig verändern. Ein Bild, das zu 99 Prozent als "Panda" klassifiziert wird, kann durch eine gezielte Störung von wenigen Pixelwerten als "Gibbon" klassifiziert werden.

Rechenaufwand: Große Modelle (ViT-Huge mit 632 Millionen Parametern, Swin Transformer V2 mit 3 Milliarden Parametern) erfordern erhebliche GPU-Ressourcen für Training und Inferenz. Für Edge-Deployment (Mobilgeräte, eingebettete Systeme) werden komprimierte Modellvarianten wie MobileNet oder EfficientNet benötigt.

Bias in Trainingsdaten: Wenn Trainingsdatensätze bestimmte Gruppen unterrepräsentieren, spiegelt sich das in der Modellleistung wider. Gesichtserkennungssysteme zeigen messbare Genauigkeitsunterschiede zwischen demografischen Gruppen, wenn die Trainingsdaten unausgewogen sind.

Beispiel: Eine Studie zu kommerziellen Gesichtserkennungssystemen zeigte Fehlerraten von 0,8 Prozent für hellhäutige Männer und 34,7 Prozent für dunkelhäutige Frauen. Der Unterschied ist direkt auf die Zusammensetzung der Trainingsdaten zurückzuführen.

Fachliche Einordnung: Computer Vision hat seit 2012 erhebliche Fortschritte gemacht, bleibt aber in offenen, unstrukturierten Umgebungen fehleranfällig. Die Kombination aus Verteilungsverschiebung, adversarialer Verwundbarkeit und Trainingsdaten-Bias bedeutet, dass jedes produktive System eine sorgfältige Evaluierung auf der Zieldomäne erfordert. Benchmark-Ergebnisse sind notwendig, aber nicht hinreichend für die Beurteilung der Produktionsreife.

Karl Kratz · 18.01.2025 (aktualisiert 03.04.2026)

Technologie Künstliche Intelligenz