Kategorie

Kontakt

Was ist Data Science? Daten als Wettbewerbsvorteil

Maschinen liefern Sensordaten, ERP-Systeme protokollieren Geschäftsprozesse, CRM-Tools speichern Kundeninteraktionen – doch in den meisten Unternehmen bleiben über 70 Prozent dieser Daten ungenutzt. Sie liegen in Silos, in unterschiedlichen Formaten, ohne Kontext. Data Science macht aus diesen Rohdaten verwertbare Erkenntnisse: Muster, Prognosen, Handlungsempfehlungen.

Dieser Artikel erklärt, was Data Science ist, wie der Prozess in der Praxis funktioniert und wo Unternehmen in der Schweiz – ob in der Industrie, im öffentlichen Verkehr oder in der Verwaltung – den grössten Nutzen daraus ziehen.

Data Science auf den Punkt gebracht

Data Science ist ein interdisziplinäres Feld, das Methoden aus Statistik, Informatik und Fachwissen kombiniert, um aus Daten systematisch Wissen zu gewinnen. Ziel ist nicht das Sammeln von Daten, sondern das Beantworten konkreter Geschäftsfragen.

Die Abgrenzung zu verwandten Begriffen:

Business Intelligence (BI) beschreibt, was passiert ist – etwa über Dashboards und Reports auf Basis eines Data Warehouse. Data Science geht einen Schritt weiter und beantwortet die Frage: Was wird passieren? Und was sollten wir tun?

Künstliche Intelligenz (KI) und Machine Learning sind Werkzeuge innerhalb von Data Science. Nicht jedes Data-Science-Projekt braucht KI – manchmal reichen statistische Modelle oder gezielte Datenvisualisierungen.

Data Engineering baut die Infrastruktur: Data Pipelines, Datenbanken, Transformationen mit Werkzeugen wie dbt. Data Science nutzt diese Infrastruktur, um daraus Erkenntnisse zu ziehen.

Der Data-Science-Prozess in sechs Schritten

In der Praxis verläuft Data Science nicht linear, sondern iterativ. Trotzdem lässt sich der Ablauf in sechs Phasen gliedern – vom Geschäftsproblem bis zur Umsetzung.

1. Fragestellung definieren

Das klingt trivial, ist aber der häufigste Grund für gescheiterte Projekte: Die Frage ist zu breit. «Wir wollen unsere Daten nutzen» ist keine brauchbare Fragestellung. «Können wir vorhersagen, welche Maschine in den nächsten 30 Tagen ausfällt?» schon.

Substring beginnt Data-Science-Projekte deshalb mit einem strukturierten Workshop – oft im Rahmen einer Datenlandkarte oder einer Datenstrategie, um Use Cases zu priorisieren, die tatsächlich Geschäftswert haben.

2. Daten sammeln und verstehen

Im zweiten Schritt wird geprüft, welche Daten vorhanden sind, wo sie liegen und in welcher Qualität. Typische Fragen: Sind die Daten aktuell? Gibt es Lücken? Dürfen wir sie verwenden (Data Governance)?

Hier zeigt sich oft, ob ein Unternehmen eine Datenplattform hat oder nicht. Ohne zentrale Datenhaltung – etwa in einem Data Warehouse oder Data Lake – muss zuerst die Infrastruktur geschaffen werden. Data Science ohne Datenplattform ist wie kochen ohne Küche.

3. Daten bereinigen und transformieren

Dieser Schritt frisst in der Praxis die meiste Zeit: Rund 60–80 Prozent eines Data-Science-Projekts entfallen auf Data Cleaning und Feature Engineering. Duplikate entfernen, fehlende Werte behandeln, Formate vereinheitlichen, neue Merkmale aus Rohdaten ableiten.

Tools wie dbt und automatisierte Data Pipelines helfen, diesen Aufwand zu reduzieren – und vor allem wiederholbar zu machen. Denn ein Modell, das auf manuell bereinigten Daten trainiert wurde, lässt sich nicht in Produktion betreiben.

4. Explorative Analyse (EDA)

Bevor Modelle gebaut werden, exploriert man die Daten visuell: Verteilungen, Korrelationen, Ausreisser, Muster. Diese Phase deckt oft Überraschungen auf – etwa dass ein vermuteter Zusammenhang in den Daten gar nicht existiert oder dass eine Variable viel stärker wirkt als erwartet.

Die explorative Analyse ist auch der Moment, in dem Data Science und Fachexpertise zusammenkommen müssen. Ein Datenwissenschaftler erkennt statistische Muster – aber ob diese geschäftsrelevant sind, weiss nur die Fachabteilung.

5. Modellierung und Validierung

Je nach Fragestellung kommen unterschiedliche Methoden zum Einsatz:

→ Vergleichstabelle: Data-Science-Methoden im Überblick (siehe HTML-Tabelle unten)

Die Modellwahl hängt von der Fragestellung ab, nicht von der Technologie. In vielen Fällen liefert ein gut strukturiertes statistisches Modell bessere Ergebnisse als ein komplexes neuronales Netz – bei einem Bruchteil des Aufwands.

6. Kommunikation und Operationalisierung

Die besten Erkenntnisse sind wertlos, wenn sie in einem Jupyter-Notebook verstauben. Data Science muss kommuniziert und operationalisiert werden: als Dashboard, als automatisierter Alert, als Empfehlung in einem Geschäftsprozess oder als Modell in Produktion (MLOps).

Data-Science-Methoden im Vergleich

Methode Fragestellung Typisches Beispiel Komplexität
Deskriptive Analyse Was ist passiert? Monatlicher Umsatzreport, Fehlerstatistik, KPI-Dashboard Niedrig
Diagnostische Analyse Warum ist es passiert? Ursachenanalyse bei Qualitätsabweichungen, Drill-Down auf Ausreisser Niedrig–Mittel
Prädiktive Analyse Was wird passieren? Maschinenausfall-Vorhersage, Nachfrageprognose, Churn-Prediction Mittel
Preskriptive Analyse Was sollten wir tun? Optimale Wartungsplanung, Routenoptimierung, Ressourcenallokation Hoch
Clustering Welche Gruppen gibt es? Kundensegmentierung, Anomalie-Erkennung, Muster in Sensordaten Mittel
Klassifikation In welche Kategorie gehört das? Dokumenten-Triage, Schadensklassifikation, Bildklassifikation Mittel–Hoch
Zeitreihenanalyse Wie entwickelt sich ein Wert über die Zeit? Energieverbrauch, Passagieraufkommen, Sensorwerte, Lagerbestände Mittel–Hoch

Praxisbeispiele: Data Science in Industrie, ÖV und Verwaltung

Industrie – Predictive Maintenance statt reaktiver Reparatur

Ein Maschinenbauer erfasst pro Anlage Temperatur, Vibration, Drehzahl und Stromverbrauch. Manuell lassen sich daraus keine Muster ableiten. Data Science identifiziert Kombinationen von Sensorwerten, die auf einen bevorstehenden Ausfall hindeuten – Tage, bevor er eintritt.

Das Ergebnis: geplante statt ungeplante Stillstände, tiefere Wartungskosten, höhere Anlagenverfügbarkeit. Substring begleitet Industrieunternehmen auf diesem Weg – von der Sensoranbindung über die Datenplattform auf Microsoft Fabric bis zum produktiven Modell.

Referenz: Die Schweizerische Post nutzt datenbasierte Ansätze für Predictive Maintenance in der Sortierlogistik.

Öffentlicher Verkehr – Prognosen für Betrieb und Planung

Verkehrsunternehmen verfügen über umfangreiche Zeitreihendaten: Passagierzahlen, Fahrzeiten, Wetterdaten, Eventkalender. Data Science verknüpft diese Quellen und liefert Prognosen, die operative Entscheidungen verbessern – etwa Fahrzeugeinsatz, Personalplanung oder Fahrplangestaltung.

Referenz: Substring arbeitet mit Verkehrsbetrieben wie dem BVB und BERNMOBIL an datengestützten Lösungen – von der akustischen Schienenkopfkonditionierung bis zur Plattformstrategie.

Verwaltung – Prozesse durch Daten effizienter gestalten

Verwaltungen bearbeiten täglich Tausende von Anträgen, Meldungen und Anfragen. Data Science kann diese Prozesse unterstützen: automatisierte Triage eingehender Dokumente, Priorisierung nach Dringlichkeit, Erkennung von Duplikaten.

Dabei gelten besondere Anforderungen an Erklärbarkeit und Data Governance: Ein Modell, das Anträge priorisiert, muss nachvollziehbar sein. Substring unterstützt Verwaltungen deshalb nicht nur technisch, sondern auch methodisch – mit dokumentierten Entscheidungskriterien und reproduzierbaren Pipelines.

Data Science vs. Business Intelligence – wann brauche ich was?

Die Frage ist nicht «entweder oder», sondern «in welcher Reihenfolge».

BI zuerst: Wer seine Daten noch nicht sauber in einem Data Warehouse hat, wer keine verlässlichen Reports erstellen kann, der sollte nicht mit Machine Learning starten. Eine solide BI- und Datenplattform ist die Grundlage für alles Weitere.

Data Science als Erweiterung: Sobald die Datenbasis steht, lassen sich Data-Science-Methoden als Erweiterung einsetzen. Die Features, die ein BI-Team für Reports aufbereitet, können oft direkt als Input für ML-Modelle dienen. Wer beides integriert denkt, spart doppelte Arbeit.

Substring verfolgt deshalb einen stufenweisen Ansatz: DatenlandkarteDatenstrategie → Datenplattform (Microsoft Fabric, Snowflake, Azure) → BI-Reports → Data Science → MLOps.

Fünf Stolpersteine – und wie Sie sie vermeiden

Zu breite Fragestellung. «Wir wollen was mit unseren Daten machen» führt nirgendwohin. Starten Sie mit einem konkreten, messbaren Business-Problem.

Datenqualität unterschätzt. Die meisten Data-Science-Projekte scheitern nicht am Algorithmus, sondern an fehlenden, inkonsistenten oder veralteten Daten. Investieren Sie zuerst in Data Pipelines und Data Governance.

Prototyp ohne Produktionspfad. Ein Modell im Notebook ist kein Produkt. Planen Sie von Anfang an, wie das Modell in Betrieb geht, wer es überwacht und wann es neu trainiert wird (MLOps).

Data Science ohne Fachexpertise. Algorithmen finden Muster – ob diese sinnvoll sind, entscheiden Fachleute. Data Science funktioniert nur im Tandem mit der Fachabteilung.

Fehlende Datenkultur. Wenn Entscheider Dashboards ignorieren und weiterhin nach Bauchgefühl handeln, verpufft jede Analyse. Data Science braucht organisatorische Verankerung.

Wie starten? Fünf pragmatische Schritte

  1. Bestehendes Problem nehmen. Kein Greenfield-Projekt, sondern eine konkrete Frage, die heute manuell oder gar nicht beantwortet wird.
  2. Datenlage prüfen. Erstellen Sie eine Datenlandkarte: Welche Daten gibt es, wo liegen sie, wer verantwortet sie?
  3. Quick Win identifizieren. Ein Projekt, das in vier bis sechs Wochen ein sichtbares Ergebnis liefert – etwa eine Analyse, die eine konkrete Entscheidung verbessert.
  4. Datenplattform aufbauen. Parallelisieren Sie: Während der Quick Win läuft, schaffen Sie die Infrastruktur für nachhaltige Data Science – Data Warehouse, Data Pipelines, dbt-Transformationen.
  5. Skalieren mit Methode. Wenn der erste Use Case funktioniert, definieren Sie einen Prozess: Wie werden neue Use Cases priorisiert? Wie kommen Modelle in Produktion? Das ist der Moment für MLOps und eine Datenstrategie.

Wie Substring Sie unterstützt

Substring verbindet Data Science mit Datenplattform-Kompetenz. Wir starten nicht mit Algorithmen, sondern mit Ihrer Datenlage – und bauen darauf die passende Lösung:

→ Kontakt aufnehmen – wir zeigen Ihnen, wo Data Science in Ihrem Unternehmen den grössten Hebel hat.

Weiterführende Glossar-Artikel

kontakt

Wir freuen uns, von Ihnen zu hören!