Data Mesh - ein Beispiel aus der Industrie

Warum herkömmliche zentralisierte Datenarchitekturen zunehmend ineffektiv werden

IT-Systemlandschaften in Industrieunternehmen sind zumeist historisch gewachsen und bestehen aus einer Vielzahl eigenständiger Anwendungen, insbesondere auch etlicher Legacy Systeme. Gerade bei Letzteren handelt es sich häufig um proprietäre Systeme, die keine oder nur unzureichende Schnittstellen zur Verfügung stellen. In der Folge sind die Unternehmensdaten verteilt auf isolierte Datenspeicher unterschiedlichster Technologien und bestehen aus heterogenen Datenarten (z.B. relationale Datenbanken, Excel-Dateien, Bilder, etc.). Um fundierte datenbasierte Entscheidungen treffen zu können, sind aber ein ganzheitlicher Überblick und korrelierte Analysen über die Daten notwendig.
‍
Ein Lösungsansatz für dieses Problem ist die Implementierung einer zentralisierten Datenarchitektur, beispielsweise in Form eines Data Warehouse oder eines Data Lake. Hierbei werden (große Mengen) an Daten aus den verschiedenen Quellen extrahiert und an zentraler Stelle zusammengeführt und gespeichert. So entsteht eine konsolidierte und verlässliche Datenbasis für Analytics Aufgaben (Single Source of Truth).
Erfahrungen mit der Realisierung und dem Betrieb zentralisierter Datenarchitekturen haben aber gezeigt, dass die Vorteile mit einer Vielzahl von Herausforderungen verbunden sind:

Die Daten in den Quellsystemen liegen in unterschiedlichsten Formaten vor und müssen in ein einheitliches Datenmodell transformiert werden.
Die Daten sind nicht harmonisiert. Beispielsweise können redundante oder widersprüchliche Informationen vorliegen oder haben, je nach fachlichem Kontext, eine andere Semantik. Ein Konsolidieren, Bereinigen und Aufbereiten der Daten sind also zwingend erforderlich.
Die benötigten Daten müssen (regelmäßig) vom Quellsystem zum Zielsystem bewegt werden. Dies kann zeitintensiv sein und wirkt sich entsprechend negativ auf die Time to Insight aus.
Neben den technischen Aspekten ist zu prüfen, welche Daten überhaupt bewegt und für Analytics Aufgaben verfügbar gemacht werden dürfen. Dies kann beispielweise abhängig von regulatorischen, datenschutzrechtlichen oder Security-bezogenen Aspekten sein.

Die technische Umsetzung erfolgt im Rahmen von ETL/ELT-Prozessen. Ein zentrales Data Engineering Team implementiert Pipelines, die (kontinuierlich) Daten aus den Quellsystemen extrahieren, transformieren und im Zielsystem speichern. Auch dies bringt verschiedene Herausforderungen mit sich:

Der Aufbau von Daten-Pipelines ist oft komplex und fehleranfällig. Dies kann einerseits zu fehlenden oder falschen Daten führen und andererseits die Verfügbarkeit benötigter Daten verzögern, wenn langwierige technische Fehleranalysen an den Pipelines notwendig werden.
Die Daten werden von IT-Mitarbeitern verarbeitet und bereitgestellt, die in der Regel wenig fachliches Knowhow über die Daten mitbringen und folglich schlecht beurteilen können, welche Informationen für die zukünftigen Datenkonsumenten relevant sind.
Änderungen oder Erweiterungen an den Daten müssen stets durch das zentrale IT/Data-Team durchgeführt werden. Dieses wird so zu einem Flaschenhals und die Verfügbarkeit von relevanten Geschäftsinformationen verzögert sich.

Effiziente Datennutzung durch Data Mesh

Data Mesh ist ein soziotechnischer Ansatz, der darauf abzielt, die Datenverarbeitung und -nutzung in einem Unternehmen effizienter zu gestalten, indem eine dezentrale Datenarchitektur geschaffen wird. Es basiert auf der Idee, dass die Fachbereiche, die die Daten erzeugen und besitzen, am besten wissen, wie ihre Daten genutzt und verwaltet werden sollen. Data Mesh basiert auf folgenden vier Grundprinzipien:

Domain Ownership
Die Fachbereiche sind die verantwortlichen Dateneigentümer. Sie erzeugen für ihren eigenen Gebrauch Daten und stellen diese anderen Einheiten zur Verfügung.
Data as a Product
Die Fachbereiche stellen Daten in Form von Datenprodukten zur Verfügung. Neben den eigentlichen Daten schließt dies alle Bestandteile mit ein, die für die Erstellung und Bereitstellung notwendig sind, beispielsweise Datentransformationen oder die Schnittstelle für die Nutzung. Ein Datenprodukt muss den unternehmensweit vereinbarten Qualitätsstandards entsprechen. Das Format der Daten ist an den Bedürfnissen der Datenkonsumenten orientiert.
Self-service Data Platform
Fertige Datenprodukte werden über eine Self-service Plattform verfügbar gemacht. Über einen Datenkatalog können Konsumenten relevante Daten identifizieren und sich anhand von Metadaten über Beschaffenheit und Nutzungsmöglichkeiten informieren. Auf diese Weise haben andere Fachbereiche schnell und unkompliziert die Möglichkeit, im Unternehmen vorhandene Daten in eigene Analysen zu integrieren oder durch Kombination von mehreren Datenprodukten ein höherwertiges Datenprodukt zu kreieren und dieses wiederum anderen Fachbereichen anzubieten.
Federated Governance
Die Governance-Struktur ist dezentralisiert und föderiert, wodurch die Verantwortung für die Datenverwaltung auf die Fachbereiche verteilt wird, während gleichzeitig einheitliche Standards und Policies gewährleistet werden.

Welche Herausforderungen Data Mesh lösen kann

Data Mesh löst mehrere Probleme, die typischerweise bei traditionellen zentralisierten Datenarchitekturen auftreten können. Dazu gehören:

Skalierbarkeit
Data Mesh ermöglicht es, dass Fachbereiche ihre eigenen Datenprodukte in kleineren, modulareren Teilen erstellen und bereitstellen können. Dadurch können sie schneller auf sich ändernde Anforderungen und Bedürfnisse reagieren und ihre Datenprodukte leichter skalieren.
Datenqualität und -konsistenz
Fachbereiche, die ihre eigenen Datenprodukte erstellen und verwalten, sind besser in der Lage, sicherzustellen, dass ihre Daten qualitativ hochwertig und konsistent sind. Sie haben ein besseres Verständnis dafür, wie ihre Daten generiert und verwendet werden und können sicherstellen, dass sie in Übereinstimmung mit den Anforderungen und Standards des Unternehmens sind.
Flexibilität und Innovation
Data Mesh ermöglicht es, dass Fachbereiche schneller und agiler arbeiten können, ohne von anderen Abteilungen oder einem zentralen IT-Team abhängig zu sein. Dadurch können sie neue Datenprodukte schneller erzeugen und innovativere Lösungen entwickeln.
Effizientere IT-Teams
Durch die Dezentralisierung der Datenproduktion und -verwaltung können Fachbereiche unabhängiger von der IT arbeiten. Die IT-Teams sich auf technologische Aufgaben konzentrieren und ihre Ressourcen effizienter nutzen.

Bedingungen für eine erfolgreiche Datenverwaltung

Damit eine solche Architektur effektiv funktioniert, müssen im Vorfeld einige Bedingungen für die Daten erfüllt werden:

Erstellung eines Daten-Katalogs: Zu jedem Datensatz müssen die erforderlichen Metainformationen vorhanden sein, damit die Daten schnell gefunden werden können.
Jeder Datensatz ist zudem mit einer eindeutigen Adresse versehen, sodass ein programmgesteuerter Zugriff möglich ist.
Prüfung und Sicherstellung, ob Daten gültig und aktuell sind.
Beschreibung der Semantik und Syntax von Daten, um leicht verwendbare Datensätze zu erstellen.
Festlegung von Guidelines und Standards für eine effiziente Datenintegration in unterschiedlichen Domänen.
Gewährleistung von sicherem Zugriff auf die Daten.

Wie könnte ein Beispiel in der Industrie aussehen?

Data Analytics ermöglicht es Unternehmen, evidenzbasierte Entscheidungen zu treffen, beispielsweise um Kunden mit hohem Abwanderungsrisiko zu identifizieren und Gegenmaßnahmen zu ergreifen. Die Herausforderung besteht darin, dass fundierte Entscheidungen eine ganzheitliche Sicht auf die Daten erfordern. So wird ein Kunde z.B. nicht allein wegen gelegentlich defekter Teile, die umgetauscht werden müssen, seinen Lieferanten wechseln, aber in Kombination mit Lieferverzögerungen aufgrund von (vorhersehbaren) Wartungsintervallen von Produktionsmaschinen könnte dieses Risiko steigen.

In der Regel sind die benötigten Informationen aber über viele verschiedene Anwendungen und folglich Datenquellen verteilt und im Besitz unterschiedlicher Fachbereiche. Oft ist auch nicht transparent, welche Daten aus anderen Bereichen des Unternehmens überhaupt verfügbar sind. Das folgende Beispiel skizziert ein solches Szenario. Ziel des Fachbereichs „Customer Service“ ist es, mit Hilfe von Datenanalysen unzufriedene Kunden zu identifizieren und proaktiv Gegenmaßnahmen einzuleiten, um die Kundenbindung zu sichern (Actionable Insight).

Um ein vollständiges Bild der Situation zu erhalten, sind Informationen aus verschiedenen Bereichen des Unternehmens sinnvoll. In dem (verkürzten) Beispiel sollen Daten aus der Produktion (Bereich Maschine) und der Qualitätssicherung (Bereich Qualitätskontrolle) verwendet werden.

Domain Machine

Im Bereich der Fertigung fallen viele unterschiedliche Daten an. In unserem Fall sollen Informationen über das Produktionsvolumen und Sensordaten über den Maschinenzustand verwendet werden. Da der Fachbereich seine Daten sehr gut kennt, weiß er, dass diese Rohdaten für andere Abteilungen nur schwer verständlich und nutzbar sind. Die Information über notwendige Wartungsmaßnahmen kann aber wertvolle Hinweise zu Produktionsunterbrechungen geben. Es soll deshalb ein Datenprodukt „Geplante Wartungsintervalle“ bereitgestellt werden, das von Datenkonsumenten für höherwertige Analysen genutzt werden kann.

Hierzu werden die Rohdaten aus den Quellsystemen extrahiert und in einem Transformationsschritt ein Datensatz über (geplante) Wartungsmaßnahmen erstellt. Diese Transformation kann mittels konventioneller Verarbeitungsmethoden erfolgen, aber auch der Einsatz moderner KI-Verfahren (Stichwort Predictive Maintenance) wäre hier denkbar.
Das fertige Datenprodukt wird über standardisierte Schnittstellen im Unternehmen zur Verfügung gestellt.

Domain Quality Control

Analog zur Situation im Fertigungsbereich verfügt auch die Abteilung für Qualitätskontrolle über verschiedene Arten von Informationen. Im Beispiel werden in einer relationalen Datenbank registrierte Defekte an Produkten gespeichert und Protokolle zu, aufgrund von Qualitätsdefiziten, umgetauschten Teilen in Excel-Reports abgelegt. Im Transformationsschritt werden diese beiden Datenquellen kundenbezogen korreliert und die Ergebnisse als neuer Datensatz „Produkt Qualität“ bereitgestellt. Auch dieses Datenprodukt wird über eine Schnittstelle anderen Abteilungen zugänglich gemacht.

Arbeiten mit dem Data Mesh

Die Verfügbarkeit hochqualitativer, kuratierter Datenprodukte ist an sich bereits ein Mehrwert für das Unternehmen. Das volle Potential wird aber erst durch die Verknüpfung mehrerer Datenprodukte erreicht - ein Data Mesh entsteht. In unserem Beispiel möchte der „Customer Service“ abwanderungsgefährdete Kunden identifizieren. Über einen Datenkatalog können die Analysten des Fachbereichs die beiden beschriebenen Datenprodukte finden und sich anhand der Metainformationen ein Bild über die Verwendbarkeit für den eigenen Use Case machen.

Die Nutzung der Datensätze kann über die angebotenen Schnittstellen problemlos erfolgen. Dabei ist es unerheblich, ob dies über BI-Tools, mittels Source Code oder auf einem anderen Wege erfolgt. Neben der Verwertung der Ergebnisse für den eigenen Anwendungsfall kann der „Customer Service“ den neuen Datensatz zudem als eigenes Datenprodukt anderen Abteilungen im Unternehmen zur Verfügung stellen.

Mehrwert des Data Mesh

Der skizzierte Data Mesh Ansatz bietet u.a. folgende Vorteile:

Die Erstellung und Verwaltung der Datenprodukte erfolgen durch die Fachbereiche. Diese können genau einschätzen welche Informationen werthaltig sind und Compliance Fragen direkt berücksichtigen. Eine hohe Qualität der Daten ist für die Nutzer des Customer Service sichergestellt.
Rückfragen zu den Daten oder auch Änderungsanforderungen können direkt mit der zuständigen Fachabteilung geklärt werden, ohne dass ein Umweg über die zentrale IT notwendig wird.
Die Rohdaten werden am Entstehungsort verarbeitet. Ein aufwändiger Transfer an eine zentrale Stelle entfällt. Aktuelle Daten sind schneller verfügbar.
Durch die Recherche im zentralen Datenkatalog konnten die Datensätze unkompliziert gefunden und als nützlich identifiziert werden. Die Daten können direkt verwendet werden ohne das zunächst Anforderungen an die IT gestellt werden müssen. Die Time to Insight verkürzt sich.

Wie geht es weiter?

In diesem Beitrag haben wir den Data Mesh Ansatz vorgestellt und Mehrwerte aufgezeigt, die gegenüber zentralen Datenarchitekturen erzielt werden können. Das vorgestellte Beispiel Szenario illustriert die grundsätzliche Architektur eines Data Mesh und zeigt, wie vorhandene Datensätze einfacher gefunden und schnell und effektiv zu neuen kreativen Lösungen kombiniert werden können. Die Implementierung eines Data Mesh kann auf unterschiedlichen Wegen und mit unterschiedlichen Technologien erfolgen. Gerne beraten wir sie auf Ihrem Weg zu einer modernen Datenarchitektur und unterstützen sie bei der Umsetzung.

Let's talk technology 🚀

Haben Sie Fragen oder sind Sie bereit, Ihr Projekt zu starten?

Sind Sie bereit, in die digitale Welt einzutauchen? Schreiben Sie uns eine Nachricht, und lassen Sie uns einen persönlichen Termin vereinbaren, um gemeinsam die unendlichen Möglichkeiten zu erkunden.

Danke! Ihre Nachricht wurde erhalten!

Oops! Beim Absenden des Formulars ist etwas schief gelaufen.

Aufbrechen von Datensilos mit Data Mesh