Kategorie

Kontakt

Dr. Marc Tesch

Daten-OT/IT im industriellen Umfeld: Wie stark sind die Grossen?

1. Umfrage der digitalen Treiber in der Industrie

77 namhafte Schweizer Industrien haben sich 2024 bei einer Umfrage der Next Industries beteiligt. Was sind dieaktuellen Treiber der Digitalisierung industrieller Unternehmen, und welche digitalen Technologien werden im 2025 dafür relevant sein? Abb. 1 zeigt die Ergebnisse.

Abb. 1:  Treiber der Digitalisierung (links),«Relevanz digitaler Technologien» in der Industrie (rechts) – Quelle: Umfrage Next Industries 2024

Mit 92% steht die Notwendigkeit weiterer Effizienzsteigerungen der Produktion mit Abstand an erster Stelle, weit vor der Erfüllung der Markt und Kundenanforderungen. Die digitalen Umsetzungsmittel sehen die Industrien in der künstlichen Intelligenz mit 72%, mit Hilfe von Maschinenkonnektivität, IoT und Prozessautomatisierung. Aber auch die Verlagerung in die Cloud steht weiterhin an vorderster Front. Substring setzt genau diese Themen seit vielen Jahren für unsere industriellen Kunden erfolgreich um. Deshalb wollen wir unsere Erfahrungen hier teilen.  

2. Datenplattformen zur Effizienzsteigerung

Im industriellen Umfeld gibt es die Besonderheit der OT (Operational Technology, Betriebstechnologie) der Produktion. Die OT unterscheidet sich von der IT, auch wenn die beiden Welten durch die Digitalisierung immer stärker zusammenwachsen. Die OT besteht aus der Technologie industrieller Kontroll- und Messysteme, Steuereinheiten und Sensoreinheiten auf Maschinenebene bis hin zu übergeordneten SCADA Systemen (Supervisory Control and Data Acquisition) und DCS (Distributed Control Systems). Trotz diverser Normen ist die OT kaum standardisiert und beinhaltet immer mehr IT-Komponenten, die einem individuellen, komplexen Release Management unterworfen sind und deshalb ein unternehmerisches Sicherheitsrisiko darstellen. Es besteht die Notwendigkeit aus Sicherheitsgründen die OT von der IT zu trennen, etwa durch Zonenkonzepte nach ISA/IEC 62443, oder ähnlichem.

Um die in der Umfrage dominante Zielsetzung der Effizienzsteigerung der Produktion anzugehen, benötigen die Industrien Datenanalytik, ein eindeutiges Thema der IT.  Deshalb müssen Daten über die Zonen hinweg fliessen, mit gesicherten Protokollen, und immer stärker in Echtzeit. Je mehr produktions- und maschinenrelevante Daten zentral in der IT zur Verfügung stehen, desto weniger sind externe Schnittstellen direkt auf die Maschinen (bspw. durch die Maschinenhersteller) notwendig und sinnvoll. Maschinenhersteller werden es auch in Zukunft nicht ganz einfach haben, Ihre eigenen Clouddienste den Produktionsbetrieben zu verkaufen, da solche Dienste auch über die IT zentral verfügbar gemacht werden können.

Wohin geht also die OT/IT-Reise ab 2025 für Industrien und was sind die Trends, resiliente Architekturen bei der Umsetzung der obigen Treiberthemen? Seit 30 Jahren verfolgen wir die Entwicklung im datenanalytischen und BI-Umfeld (Business Intelligence). Es findet eine stetige Entwicklung statt, einiges bleibt und Neues kommt hinzu.

Die Cloud Welt rückt weiter vor, damit auch die Konnektivität in die Cloud über IoT im Shopfloor. Die Migration von On-Premise-Lösungen zu Cloud-basierten Systemen ist heutzutage eine der wichtigsten technologischen Entwicklungen für Unternehmen weltweit. Laut Forrester sind bereits 60% der IT-Workloads in der Cloud (Stand 2023) und laut Gartner planen 55% der Unternehmen, bis 2025 mehr als 50% ihrer verbleibendenden Workloads in die Cloud zu migrieren. Die Verlagerung in die Cloud geht rasant vorwärts und scheint unvermeidbar. Besonders durch die Ausbreitung der KI-Dienste hat sich dieser Trend in den letzten 2 Jahren nochmals beschleunigt.

Ein weiterer Trend ist die Dominanz weniger grosser Cloud-Anbieter: In Europa sind dies die altbekannten Drei:  

- Amazon AWS: 33-35% Marktanteil

- Microsoft Azure: 28-30% Marktanteil

- Google Cloud: 8-10% Marktanteil

Bereits 70% des gesamten Marktanteils in Europa wird durch die 3 grossen Amerikaner aufgeteilt, aus europäischer Sicht beunruhigend. Auch wenn nationale Anbieter wie die Swisscom mitwachsen, so werden diese doch leider mehr zu Nischenanbietern.

Auch im BI-Umfeld findet eine Konzentration statt, die vor einigen Jahren noch als unmöglich galt. So waren beispielsweise Qlik oder Alteryx (siehe auch Aktienkurs) vor 5 Jahren dominante Marktplayer, sind aber zwischenzeitlich markant zurückgefallen und befinden sich heute nicht mehr unter den Top 10. Einen nochmaligen IPO von Qlik an der Börse wird unter diesen Umständen, obwohl häufig diskutiert, für wenig wahrscheinlich gehalten. Power BI und Tableau haben in den letzten Jahren Ihre Vormachtstellung massiv ausgebaut, aber gleichzeitig hat der BI Open Source Markt eine bemerkenswerte Stärke erlangt. Tools und Grafikbibliotheken wie D3.js, Plotly und Apache Superset konnten einen markanten Marktanteil aufbauen.

Maschinenhersteller und Produktionsbetriebe setzen auf hybride Lösungen. Einerseits sollen Anlagen und Maschinen ohne Cloudanbindung voll funktionsfähig sein, man spricht hier von Edge-Lösungen. Andererseits können nur zentrale Datenlösungen über viele Maschinen und Produktionen hinweg zu einer Prozessoptimierung und Effizienzsteigerung führen. On Premise wird in der Produktion immer einen Stellenwert bewahren, aber der Trend in die Cloud ist im vollen Gange (solange bei einem Ausfall der Konnektivität die Produktion weitergeht). Viele unserer Kunden setzen auf eine Mischung von Eigenlösungen auf der Basis von Open Source Produkten sowie kommerziellen Suiten für die zentrale Datenanalytik.

Bei unseren Kunden wird die grundlegende Frage diskutiert, ob eine separate Produktionsdatenhaltung, also eine Entkopplung der Datenanalytik zu angrenzenden Abteilungen wie Finanzen, Verkauf oder Einkauf Vorteile mit sich bringt. Aus Substring-Sicht ist die Antwort eindeutig: Wir sind überzeugt, dass die OEE (Overall Equipment Effectiveness) sich in Richtung OPE (Overall Process Effectiveness) weiterentwickeln wird. Es sind nicht nur die Produktionsprozesse auf Ebene Shopfloor, sondern die gesamten Lieferprozesse in die Prozessoptimierung einzubeziehen, um das Effizienzpotential auszuschöpfen. Damit befinden wir uns in einer abteilungsübergreifenden Aufgabenstellung, die nur über eine zentrale Datenhaltung, also zentrale Daten-IT gelöst werden kann. Die Wahl der Datenplattform und damit zusammenhängenden IT-Daten-Architektur ist eine Entscheidung von grosser Tragweite.

3. Microsoft Fabric–Architekturen und Erfahrungen

Die IT wird von Microsoft weiter in die Zange genommen, ob uns das gefällt oder nicht. Power BI hat sich schon immer als kostengünstiges Tool positioniert, welches sich in die Office Palette integriert. Der Nachteil von Power BI nicht in die Datenbanken schreiben zu können (wie bspw. Jedox dies kann), also als Planungslösung verwendet zu werden oder Kommentare abzuspeichern, hat sich relativiert, seitdem es die MS Power Apps und weitere nützliche Tools gibt. Nun hat Microsoft mit Fabric eine weitere Lücke geschlossen, die vorher Lösungen wie Databricks und Snowflake vorbehalten war. Microsoft Fabric wurde offiziell im Mai 2023 auf der Microsoft Build Konferenz vorgestellt. Die generelle Verfügbarkeit (GA – General Availability) wurde am 1. November 2023 bekannt gegeben und im Verlaufe vom 2024 hat die Substring bereits mehrere Projekte auf Fabric umgesetzt.

Diagramm der Software-as-a-Service-Grundlage unter den verschiedenen Umgebungen in Fabric.
Abb. 2 Microsoft Fabric Workloads (Quelle)

Microsoft Fabric nutzt einen Data Lake (genannt OneLake) als einheitlichen Speicherort für die Unternehmensdaten (Siehe Abb. 2). Dabei spielen die Synapse Warehouses und Lakehouses eine zentrale Rolle. In ihnen werden grosse Datenmengen im offenem Datenformat (Delta Tables) gespeichert, die und unter anderem über SQL-Analyseendpunkte abgefragt werden können.

Mit den unterschiedlichen Workloads werden verschiedene datenanalytische Use Cases bedient, die teilweise auf bereits existierenden Microsoft-Produkten aufbauen (z.B. Azure Data Factory & Synapse):

- Data Factory: Low-code ELT -Tool (Extract, Load, Transform) mit besonderem Fokus auf die Datenextraktion mittels ca. 200 vorhandenen Konnektoren auf diverse Datenquellen. Mittels On-Premise-Data-Gateway können auch lokale Daten sicher in die Cloud transferiert werden.

- Data Engineering: Vielfältige Toolsuite zur Erstellung, Verwaltung, Transformation von Daten, sowie deren Orchestrierung. Dabei können Tools wie Apache Spark, Dataflows Gen2 oder auch SQL basierte Transformation zum Einsatz kommen.

- Data Warehouse: Speicherung der Daten in typischen Warehouse Datenmodellen mit zugrunde liegender Delta Lake Architektur.

- Data Science: Erstellen und Betrieb von Machine Learning Modellen.

Real Time Intelligence: Mit dem Realtime Hub, Fabric Eventstream oder Spark Streaming können Streaming Daten in Fabric integriert und in Echtzeit analysiert werden.

- Power BI: Umsetzung und Betrieb von Reports und Dashboards.

Die Vielfalt der verfügbaren Tools zur Erledigung einer Aufgabe ist eine Stärke von Fabric. Dabei können die Anforderungen von Use Cases oder auch die technischen Fähigkeiten der Anwender das passende Tool diktieren. Das bereits umfangreiche Toolset von Fabric erweitern wir bei Substring um den Einsatz von GIT (Azure DevOps / GitHub / GitLab) zur Versionierung von Änderungen. Im Bereich der Datentransformation empfehlen wir zusätzlich den Einsatz von dbt, da es besonders viele Vorteile in den Bereichen Testing, Data Lineage, Dokumentation und Versionierung bietet und die Transformationslogik unabhängig von der Plattform (Fabric) hält.

Das Pricing-Modell von Fabric bricht mit dem Pay-as-you-go-Paradigma vieler Cloud-Alternativen, wie auch der Vorgängerprodukte (z. B. Azure DataFactory). Stattdessen wird ein fixer, zeitbasierter Stundensatz verrechnet, wenn die Fabric-Instanz aktiv ist (siehe Fabric Pricing). Es gibt verschiedene Grössen der Fabric-Instanz, welche die Rechenleistung («Compute Units») bestimmen. Compute Units werden bei jeder Aktivität in Fabric konsumiert. Nach unserer Erfahrung lassen sich bereits viele Use Cases mit kostengünstigen Kapazitätsgrössen realisieren, womit Fabric äusserst kosteneffizient ist.

Um sowohl beim Bezug der Daten aus den Datenquellen wie auch die Performance auf der Reporting- und Dashbaord-Seite sicherzustellen, wurde die ursprüngliche Kimball bzw. Immon Architektur durch Databricks in die neue Welt der Data Lakes weiterentwickelt. Es bietet sich die Medaillon Architektur an (Siehe Abb.3), die wir in unseren Projekten auch bei Microsoft Data Factory einsetzen.

Abb. 3: Typische Medaillon Architekturimplementierung in Microsoft Fabric (Quelle)

In der Medaillon Architektur werden Daten in ihrem ursprünglichen Format der Quellsysteme in den Bronze Layer abgelegt. Anschliessend werden die Daten bereinigt und standardisiert und im Silver Layer gespeichert. Die letzte Stufe ist der Gold Layer: Die Daten sind verbrauchsfertig und auf die Projektbedürfnisse angepasst. Das Datenmodell ist in der Regel ein Star-Schema, wobei die Daten in Fakten- und Dimensionstabellen aufgeteilt sind.

Die Medaillon Architektur verbindet damit die Performance-Anforderungen der ETL-Seite wie die des Front Ends (Abfrageseite) unter Berücksichtigung der wichtigen Datenqualitätsthematik. Wir als Substring sehen diese Architektur für Data Lakes als zukunftsfähig an und sind damit erfolgreich.

4. Wie stark sind die Grossen?

In den letzten 5 Jahren haben wir Snowflake und Databricks umgesetzt, im 2024 nun verstärkt Microsoft Fabric. Deshalb eine interessante Frage: Wird sich Microsoft Fabric gegenüber Snowflake, Databricks und anderen bisher «Best in Class» durchsetzen? Hier einige Vorteile und Herausforderungen von Microsoft Fabric:

Vorteile von Microsoft Fabric:

- Tief in das Microsoft-Ökosystem integriert, insbesondere Power BI

- Einheitliche Plattform für alle Daten-Workloads (BI, AI, Data Engineering)

- Planbare Betriebskosten mit attraktiver Preisgestaltung

- Grosse Toolsuite: von einfachen Low-Code-Ansätzen für Business-User bis zu etablierten Power-User-Tool

Herausforderungen für Microsoft Fabric:

- Geringe Maturität: Häufige Änderungen im UX, Features noch in Entwicklung

- Vendor Lock-in auf Microsoft

- Weniger spezialisiert auf Data Science & AI als Databricks

- Nicht so Multi-Cloud-fähig wie Snowflake

Unsere Erfahrungen in den letzten Jahrzehnten sowie unsere Umsetzungen von Projekten mit Microsoft Fabric führen uns zu folgender Einschätzung:  Firmen wie Qlik, Jedox, Databricks und Snowflake sind klare Early Adopters, sie sind über weite Strecken Best in Class und bleiben über Jahre Marktführer. Über Ihre Erfolge können sie den Fortschritt gegenüber den Grossen wie Microsoft lange halten und teilweise sogar ausbauen. Aber eine Marktführerschaft auf Langzeit ist herausfordernd in einem derart kompetitiven Umfeld, in welchem an der Zukunft gebaut wird.

Microsoft bietet in Verbindung mit Azure und der alteingesetzten Tool-Landschaft Kostenvorteile. Aber die Migration von etablierter Cloud-Infrastruktur zu einem anderen Anbieter ist erfahrungsgemäss anspruchsvoll, weshalb eine vollständige Dominanz eines einzelnen Anbieters mittelfristig nicht zu erwarten ist. Und es wird immer wieder neue Early Adopters mit technologischen Vorteilen geben, häufig aus Open Source entstehend. Wir werden unsere Kunden dazu stets auf dem Laufenden halten.

Wichtig in eigener Sache für die Effizienzsteigerung im industriellen Umfeld: Wir haben verschiedenste Prozessoptimierungsthemen und Predictive Maintenance Projekte für grosse und kleine Industrien umgesetzt, auf all diesen oben genannten Tools. Mit LeanPredict liegt ein über 10 Jahre entwickeltes KI-(Machine Learning)-Framework vor, auf das unsere Kunden lizenzfrei zugreifen können. Damit sind Effizienzsteigerungsprojekte kostengünstig und auch für kleine Firmen umsetzbar. Wir arbeiten in unseren Projekten mit agilen Methoden und in enger Zusammenarbeit mit unseren Kunden, bis und mit Betrieb der Lösungen. Auf OpenSource, kommerziellen Produkten und eigenen Applikationen.

kontakt

Wir freuen uns, von Ihnen zu hören!
Dr. Marc Tesch