Data Scientist

Aus Kundentransaktionen, Sensormesswerten oder Textdatenbanken lassen sich Muster ableiten, die ohne systematische Analyse unsichtbar bleiben. Die Berufsrolle, die diese Analyse übernimmt, heißt Data Scientist.

Ein Data Scientist arbeitet an der Schnittstelle von Statistik, Programmierung und Fachdomäne. Die Aufgabe besteht darin, aus strukturierten und unstrukturierten Daten Erkenntnisse zu gewinnen, die als Entscheidungsgrundlage dienen. Das unterscheidet die Rolle von reiner Softwareentwicklung: Nicht das Bauen von Systemen steht im Vordergrund, sondern das Beantworten konkreter Fragen mit Hilfe von Daten.

Vom Rohdatensatz zur Entscheidungsgrundlage

Der typische Arbeitsprozess eines Data Scientist folgt einer Kette von Schritten, die sich in fast jedem Projekt wiederholt. Am Anfang steht das Sammeln und Bereinigen von Daten. Danach folgt eine explorative Analyse, bei der Verteilungen, Ausreißer und Zusammenhänge sichtbar werden. Auf dieser Basis entstehen Hypothesen, die mit statistischen Modellen oder Machine-Learning-Verfahren geprüft werden. Am Ende steht die Kommunikation der Ergebnisse an Entscheidungsträger.

Beispiel: Ein Onlineshop verzeichnet sinkende Wiederkaufsraten. Der Data Scientist analysiert Transaktionsdaten der letzten 18 Monate, segmentiert Kunden nach Kaufverhalten und identifiziert eine Gruppe, die nach dem Erstkauf keinen zweiten Kauf tätigt. Eine logistische Regression zeigt, dass fehlende Folgekommunikation innerhalb der ersten sieben Tage der stärkste Prädiktor für Abwanderung ist.

Beispiel: Eine Versicherung will Schadensmeldungen automatisiert nach Dringlichkeit priorisieren. Der Data Scientist trainiert einen Textklassifikator auf historischen Meldungen, bei dem die manuelle Priorisierung als Label dient. Das Modell erreicht auf dem Testdatensatz eine Precision von 0,87 bei der Kategorie "dringend".

Daten sammelnQuellen, Formate, Qualität

BereinigenFehlende Werte, Duplikate

Explorative AnalyseVerteilungen, Korrelationen

ModellierungTraining, Validierung

KommunikationErgebnis → Entscheidung

Werkzeuge und Programmiersprachen

Die meisten Data Scientists arbeiten mit Python oder R als Hauptsprache. Python hat sich als Standardsprache etabliert, weil Bibliotheken wie pandas (Datenmanipulation), scikit-learn (klassisches Machine Learning), PyTorch und TensorFlow (Deep Learning) ein geschlossenes Ökosystem bilden. Jupyter Notebooks dienen als interaktive Arbeitsumgebung, in der Code, Visualisierungen und Dokumentation in einem Dokument zusammenlaufen.

Beispiel: Ein Data Scientist untersucht die Abwanderungsrate eines SaaS-Produkts. In einem Jupyter Notebook lädt er Nutzungsdaten über pandas, berechnet die durchschnittliche Sitzungsdauer pro Kohorte, visualisiert den Trend mit matplotlib und trainiert ein Gradient-Boosting-Modell mit scikit-learn, das vorhersagt, welche Nutzer innerhalb von 30 Tagen kündigen werden.

Beispiel: Für eine Textanalyse lädt der Data Scientist 200.000 Kundenbewertungen in einen DataFrame, bereinigt HTML-Tags und Sonderzeichen mit regulären Ausdrücken, tokenisiert die Texte mit einem Tokenizer und berechnet TF-IDF-Vektoren, um die häufigsten Beschwerdethemen zu identifizieren.

Neben Programmiersprachen gehören SQL für Datenbankabfragen, Git für Versionskontrolle und Cloud-Plattformen (AWS SageMaker, Google BigQuery, Azure ML) zum Standardwerkzeug. Die Wahl des Werkzeugs hängt vom Kontext ab: Schnelle Prototypen entstehen in Notebooks, produktionsreife Pipelines erfordern modularen Code mit Tests und Deployment-Automatisierung.

Statistische Grundlagen

Statistik bildet das Rückgrat der Arbeit eines Data Scientist. Ohne ein solides Verständnis von Wahrscheinlichkeitsverteilungen, Hypothesentests und Konfidenzintervallen lassen sich Modellergebnisse nicht bewerten. Ein Modell kann auf Trainingsdaten hervorragende Ergebnisse liefern und trotzdem auf neuen Daten versagen. Dieses Phänomen heißt Overfitting. Die Gegenmaßnahme ist eine saubere Aufteilung in Trainings-, Validierungs- und Testdaten.

Beispiel: Ein Data Scientist entwickelt ein Modell zur Vorhersage von Maschinenausfällen. Das Modell erreicht auf den Trainingsdaten eine Genauigkeit von 99,2 %. Auf dem Testdatensatz fällt die Genauigkeit auf 71 %. Die Ursache: Das Modell hat Geräte-IDs als Feature genutzt und damit die Trainingsdaten auswendig gelernt, statt generalisierbare Muster zu finden.

Beispiel: Ein A/B-Test soll zeigen, ob ein neues Checkout-Design die Conversion-Rate erhöht. Der Data Scientist berechnet die benötigte Stichprobengröße vorab (Power-Analyse), um sicherzustellen, dass ein Unterschied von 2 Prozentpunkten mit 80 % Power erkannt werden kann. Nach zwei Wochen zeigt ein zweiseitiger t-Test einen p-Wert von 0,03. Der Unterschied gilt als statistisch signifikant.

Fachliche Einordnung: Die Grenze zwischen explorativer Analyse und konfirmatorischer Statistik verschwimmt in der Praxis häufig. Wenn ein Data Scientist zuerst Muster in den Daten sucht und anschließend auf denselben Daten einen Hypothesentest durchführt, besteht die Gefahr des p-Hacking. Streng genommen erfordert ein valider Hypothesentest eine vorab formulierte Fragestellung und einen separaten Datensatz.

Methoden des maschinellen Lernens

Data Scientists greifen auf ein breites Spektrum von Verfahren zurück. Lineare Regression eignet sich für die Vorhersage numerischer Werte bei linearen Zusammenhängen. Entscheidungsbäume und Random Forests funktionieren gut bei tabellarischen Daten mit nichtlinearen Mustern. Für Textdaten kommen zunehmend Transformer-Modelle zum Einsatz, die auf vortrainierten Sprachmodellen wie BERT aufbauen.

Beispiel: Ein Logistikunternehmen will Lieferzeiten vorhersagen. Der Data Scientist testet drei Ansätze: lineare Regression (MAE: 4,2 Stunden), Random Forest (MAE: 2,8 Stunden) und ein Gradient-Boosting-Modell (MAE: 2,3 Stunden). Das Gradient-Boosting-Modell gewinnt, benötigt aber auch die längste Trainingszeit und das sorgfältigste Hyperparameter-Tuning.

Beim überwachten Lernen (Supervised Learning) liegen gelabelte Trainingsdaten vor. Das Modell lernt die Zuordnung von Eingabe zu Ausgabe. Beim unüberwachten Lernen (Unsupervised Learning) gibt es keine Labels. Stattdessen erkennt das Modell Strukturen in den Daten, etwa Cluster ähnlicher Kunden oder latente Themen in Textsammlungen.

Beispiel: Ein Medienunternehmen will seine Leserschaft besser verstehen. Der Data Scientist wendet k-Means-Clustering auf Nutzungsdaten an (Artikel-Kategorien, Lesedauer, Tageszeit). Es entstehen fünf distinkte Lesergruppen. Eine Gruppe liest ausschließlich morgens Wirtschaftsnachrichten, eine andere konsumiert abends lange Reportagen. Diese Segmente fließen in die Content-Strategie ein.

Daten aufbereiten und Merkmale konstruieren

Die Qualität eines Modells hängt weniger vom Algorithmus ab als von den Eingabedaten. Feature Engineering bezeichnet den Prozess, aus Rohdaten informative Merkmale (Features) zu extrahieren oder zu konstruieren. Ein guter Feature-Engineering-Schritt kann die Modellleistung stärker verbessern als der Wechsel zu einem komplexeren Algorithmus.

Beispiel: Bei der Vorhersage von Kreditausfällen enthält der Rohdatensatz das Geburtsdatum des Antragstellers. Der Data Scientist berechnet daraus das Alter zum Zeitpunkt der Antragstellung. Zusätzlich erzeugt er Features wie "Anzahl der Kreditanfragen in den letzten 6 Monaten" und "Verhältnis von Kreditbetrag zu Jahreseinkommen". Diese abgeleiteten Features haben eine höhere Prädiktionskraft als die Rohdaten.

Bei Textdaten wandelt der Data Scientist Wörter in numerische Repräsentationen um. Einfache Methoden wie Bag-of-Words zählen Worthigkeiten. Fortgeschrittene Methoden nutzen Embedding-Verfahren, die semantische Ähnlichkeiten abbilden. Ein Embedding ordnet jedes Wort einem Vektor zu, wobei bedeutungsähnliche Wörter nah beieinander liegen.

Beispiel: Für ein Empfehlungssystem berechnet der Data Scientist Embedding-Vektoren für Produkte auf Basis von Kaufhistorien. Produkte, die häufig zusammen gekauft werden, erhalten ähnliche Vektoren. Die Kosinusdistanz zwischen Vektoren dient als Ähnlichkeitsmaß für Empfehlungen.

Abgrenzung zu verwandten Rollen

Die Berufsbezeichnung Data Scientist wird häufig mit verwandten Rollen verwechselt. Die Abgrenzungen sind in der Praxis fließend, aber die Schwerpunkte unterscheiden sich.

Ein Data Engineer baut und betreibt die Infrastruktur, die Daten verfügbar macht: Datenbanken, ETL-Pipelines, Data Warehouses. Der Data Engineer sorgt dafür, dass Daten zuverlässig fließen. Der Data Scientist setzt dort an, wo die Daten bereitstehen.

Ein ML Engineer (Machine Learning Engineer) bringt Modelle in Produktivsysteme. Er kümmert sich um Modell-Serving, Monitoring, Skalierung und Deployment. Der Data Scientist entwickelt das Modell, der ML Engineer stellt sicher, dass es unter Last stabil läuft.

Ein Data Analyst beantwortet Geschäftsfragen mit vorhandenen Daten, häufig über Dashboards und SQL-Abfragen. Der Data Scientist geht darüber hinaus: Er baut prädiktive Modelle und arbeitet mit Methoden, die über deskriptive Statistik hinausgehen.

Beispiel: In einem E-Commerce-Unternehmen baut der Data Engineer eine Pipeline, die Klickdaten in Echtzeit in ein Data Warehouse lädt. Der Data Analyst erstellt ein Dashboard mit Conversion-Raten pro Produktkategorie. Der Data Scientist trainiert ein Modell, das vorhersagt, welche Nutzer in den nächsten 7 Tagen kaufen werden. Der ML Engineer deployt dieses Modell als API-Endpunkt, den das Frontend für personalisierte Empfehlungen aufruft.

Grenzen und häufige Fehlerquellen

Die Arbeit eines Data Scientist unterliegt Einschränkungen, die in der Praxis oft unterschätzt werden.

Datenqualität: Modelle sind nur so gut wie ihre Trainingsdaten. Verzerrte Daten führen zu verzerrten Modellen. Wenn ein Datensatz zur Bewerberauswahl überwiegend männliche Einstellungen enthält, lernt das Modell diese Verzerrung und reproduziert sie. Dieses Problem heißt Bias in den Trainingsdaten.

Beispiel: Ein Modell zur Kreditvergabe wurde auf historischen Daten trainiert, in denen bestimmte Postleitzahlen systematisch schlechtere Bewertungen erhielten. Das Modell lernt diese Korrelation und benachteiligt Antragsteller aus diesen Gebieten, obwohl die Postleitzahl kein kausaler Faktor für Kreditwürdigkeit ist.

Korrelation und Kausalität: Datenanalysen zeigen Zusammenhänge, aber keine Ursachen. Dass Eisverkauf und Sonnenbrand korrelieren, bedeutet nicht, dass Eis Sonnenbrand verursacht. Ein Data Scientist muss diese Unterscheidung bei jeder Analyse kommunizieren. Kausale Aussagen erfordern kontrollierte Experimente oder spezielle kausale Inferenzmethoden.

Beispiel: Die Analyse zeigt, dass Kunden, die den Support kontaktieren, eine höhere Abwanderungsrate haben. Die naive Schlussfolgerung wäre, den Supportkontakt zu reduzieren. Der Data Scientist erkennt, dass die Kausalrichtung umgekehrt ist: Unzufriedene Kunden kontaktieren häufiger den Support und wandern häufiger ab. Der Supportkontakt ist ein Symptom, nicht die Ursache.

Interpretierbarkeit: Komplexe Modelle wie Deep-Learning-Netze erreichen oft hohe Genauigkeit, aber ihre Entscheidungen lassen sich schwer nachvollziehen. In regulierten Branchen (Finanzwesen, Medizin) kann das den Einsatz solcher Modelle einschränken oder verhindern.

Fachliche Einordnung: Die Forderung nach Erklärbarkeit (Explainable AI) steht in einem Spannungsfeld mit der Modellleistung. Einfache, interpretierbare Modelle wie lineare Regression oder Entscheidungsbäume sind transparent, erreichen aber bei komplexen Aufgaben niedrigere Genauigkeit. Methoden wie SHAP (Shapley Additive Explanations) und LIME (Local Interpretable Model-agnostic Explanations) versuchen, komplexe Modelle im Nachhinein erklärbar zu machen. Diese Erklärungen sind Approximationen und können die tatsächliche Entscheidungslogik des Modells nur annähern.

Karl Kratz · 31.08.2025

Technologie Daten Machine Learning