Handel
Databricks, Databricks Asset Bundles (DABs), Unity Catalog, Azure, Terraform, Python, Delta Lake, Power BI
Die Hauptherausforderungen waren eine fragmentierte Datenlandschaft mit mangelnder Integration, ein wachsender Bedarf an schneller Datenverarbeitung sowie die Notwendigkeit, das Thema Data Governance und Ownership im Unternehmen zu stärken.
Die skalierbare Azure Databricks Plattform mit standardisierter Landing Zone, verbessertem Change Management und klarer Data Governance und Ownership ermöglicht durch die eingeführte Medallion-Architektur eine effiziente, standardisierte Datenaufbereitung für Use-Case-getriebene Auswertungen.
Nach eingehender Analyse des bisherigen Prozesses und den gewünschten Anforderungen an die neue Plattform, haben wir folgenden Lösungsansatz erarbeitet:
Datenbereitstellung mithilfe von Azure Landing Zones und unterschiedlichen Clients für die Quellsysteme
Aufbau einer einheitlichen Architektur für die Datenaufbereitung (Medallion-Architektur: Raw, Bronze, Silber, Gold)
Nutzung von Databricks Bundle Assets (DABs) zur Automatisierung und Standardisierung von Data Engineering Themen
Einführung und Konfiguration eines zentralen Datenkatalogs (Unity Catalog) für eine transparente Datenbereitstellung (Data Exploration und Data Lineage)
Unterstützung beim Change Management zur Etablierung von Data Ownership in den Geschäftsbereichen
Bevor das Projekt starten konnte, war es entscheidend, einen klaren Fahrplan zu erstellen, der sowohl Zusammenarbeit als auch Projektabläufe und -umsetzung optimal strukturiert.
Ein zentrales Ziel des Projekts war die Befähigung der Fachbereiche zur vollständig autonomen Datenauswertung bei gleichzeitiger Sicherstellung höchster Datenqualitätsstandards. Die zu entwickelnde Lösung sollte als Self-Service-Plattform konzipiert werden, um den Fachabteilungen maximale Unabhängigkeit zu ermöglichen. Dabei war es essentiell, dass sowohl die bestehenden Quellsysteme als auch etablierte Geschäftsprozesse nahtlos in die neue Architektur integriert werden, um einen reibungslosen Übergang und eine hohe Akzeptanz der Lösung zu gewährleisten.
Zur Realisierung dieser Zielsetzung wurde eine umfassende Datenstrategie entwickelt, welche durch die Implementierung einer Medallion-Architektur die systematische Transformation von Rohdaten in hochwertige Datenprodukte ermöglicht. Diese Architektur gewährleistet dabei nicht nur eine effiziente Verarbeitung der Daten, sondern stellt auch sicher, dass die Qualität und Integrität der Daten in jeder Verarbeitungsstufe optimal gewährleistet ist. Für die zukünftige Skalierbarkeit bei neuen Datenquellen wurden Blueprints für die Bereistellung von Datenprodukten (Silber) und Use Cases (Gold) entwickelt.
Die Entwicklung generischer Azure Landing Zones schafft eine flexible und effiziente Grundlage, um Daten aus unterschiedlichen Quellsystemen nahtlos zu empfangen und mithilfe von Azure Databricks gezielt aufzubereiten. Dank dieser technologischen Lösung konnten Datenbestände effizient verarbeitet und in eine strukturierte Form überführt werden. Die Bereitstellung hochwertiger Data Products ermöglicht eine vereinfachte Planung und Umsetzung von Use Cases. Diese Data Products wurden anschließend bedarfsgerecht analysiert und spezifisch auf die jeweiligen Geschäftsanforderungen abgestimmt, um deren Potenzial optimal auszuschöpfen.
Die Ausgangssituation wurde durch eine bereits etablierte cloudbasierte Portallösung charakterisiert, die als Grundlage für weitere Entwicklungen diente. Das Projekt wurde mit zwei wesentlichen strategischen Zielsetzungen initiiert: Primär sollten die Fachbereiche durch neue Funktionalitäten und Werkzeuge in die Lage versetzt werden, ihre Datenauswertungen vollständig autonom durchzuführen. Diese Befähigung sollte sich des Weiteren mittelfristig auch auf die eigenständige Datenaufbereitung erstrecken, um die Effizienz der Fachabteilungen weiter zu steigern. Ein gleichrangiges Ziel bestand in der durchgängigen Gewährleistung höchster Datenqualität bei allen Abruf- und Verarbeitungsprozessen. Die definierten Systemanforderungen umfassten dabei drei maßgebliche Kernaspekte: Erstens musste die Lösung eine vollständig autonome Self-Service-Funktionalität bieten, die es den Anwendern ermöglicht, ohne technische Unterstützung ihre Datenanalysen durchzuführen und zweitens war die Integration der bestehenden Quellsysteme von entscheidender Bedeutung, um eine lückenlose Datenverfügbarkeit sicherzustellen. Der dritte Aspekt legte den Schwerpunkt auf eine nahtlose Prozessintegration, die gewährleisten sollte, dass die neue Lösung sich harmonisch in die bestehende Systemlandschaft einfügt und die etablierten Arbeitsabläufe optimal unterstützt.
Die entwickelte Architekturlösung basierte auf einer durchdachten Integration verschiedener Komponenten: Als Fundament diente die bereits erwähnte cloudbasierte Azure Landing Zone, die als zentraler Sammelpunkt für interne und externe Datenquellen fungierte. Diese ermöglichte eine strukturierte und sichere Datenbereitstellung. Darauf aufbauend kam Azure Databricks zum Einsatz - eine leistungsstarke Plattform, die sowohl eine effiziente Datenaufbereitung als auch komplexe Analysen ermöglichte. Die Integration des Unity Catalogs spielte dabei eine Schlüsselrolle im Datenmanagement, indem er die zentrale Verwaltung von Metadaten, Zugriffsrechten und Data Lineage gewährleistete. Für die Visualisierung und Berichtserstellung stand die flexible Anbindung an Frontend-Reporting-Tools wie Power BI zur Verfügung, wodurch Datenanalysen benutzerfreundlich aufbereitet und präsentiert werden konnten.
¹ Verbesserung der Datenqualität durch Bronze-, Silber- und Gold-Prinzip (Medaillon Architektur)
Die Einführung von Databricks als Data-Lakehouse-Plattform ermöglichte eine erhebliche Verbesserung bei der Datenbereitstellung, -aufbereitung und -auswertung. Eine Azure-basierte Landing Zone in Kombination mit Azure Databricks befähigt die Fachbereiche zukünftig auch autonom Daten verarbeiten zu können und unterstützt die Data Engineers bei der Umsetzung einer konsistenten Datenqualität. Dank der Medaillon-Architektur wurde eine effiziente Datenaufbereitung etabliert, die hochwertige Data Products bereitstellt. Diese sind flexibel für diverse Use-Cases einsetzbar und nahtlos mit Tools wie Power BI integrierbar.
Quellen:
1 Schaugrafik Medaillion Architektur, SkelTech GmbH
Bei diesem Projekt sind folgende Technologien zum Einsatz gekommen:
Sie haben noch Fragen oder möchten Ihre Anforderungen direkt mit einem unserer Experten besprechen? Kontaktieren Sie uns - wir freuen uns darauf, gemeinsam mit Ihnen die passende Lösung für Ihr Projekt zu finden!
Niklas Arft & David Horn Pawar - Gründer und Geschäftsführer
Niklas Arft & David Horn Pawar - Gründer und Geschäftsführer
aus den Bereichen Software-Entwicklung, Data Engineering, Managed Service und UI/UX finden Sie hier!
Self-Service-BI für datengetriebene Entscheidungen: Zentrale Datenbasis mit ETL-Prozessen & SAP-Integration in einer Cloud-Portallösung.
Digitalisierung des Vertragswesens: Entwicklung einer benutzerfreundlichen Weblösung mit Angular, unterstützt durch maßgeschneiderte Frontend-Architektur und klare Anforderungsdefinition.
3D-Konfigurator für das produzierende Gewerbe: Innovative Produktvisualisierung, integriert in die E-Commerce-Lösung für ein optimiertes Kundenerlebnis.