Entwicklung eines universellen Data Explorers

Projekt im Überblick
- Aufbau eines generischen Data Explorers (Web-Lösung) für die eigenständige Auswertung von Daten in Databricks
- Umsetzung einer einheitlichen, fachbereichsgetriebenen Datenarchitektur zur skalierbaren, kontrollierten Datenbereitstellung
- Neuausrichtung von Self-Service BI und Stärkung der Datendemokratisierung
Branche
Handel
Technologien
Databricks, Databricks Asset Bundles (DABs), Unity Catalog, Azure, Terraform, Python, Data Lakes
Herausforderungen
Im Unternehmen waren bereits große Datenmengen vorhanden, diese wurden jedoch nicht effektiv analysiert oder zielgerichtet weiterverarbeitet. Dies führte zu Mehraufwand für die IT-Teams, Verzögerungen in den Workflows sowie inkonsistenten Ergebnissen.
Ergebnis
Mit dem Self-Service Data Explorer wurde eine Lösung geschaffen, die Daten aus Databricks fachlich strukturiert, verständlich und kombinierbar bereitstellt. Die skalierbare Lösung entlastet die IT-Teams, fördert Self-Service BI und treibt die Datendemokratisierung im Unternehmen voran.
Unser Lösungsansatz
Auf Basis einer eingehenden Analyse sowohl der Herausforderungen als auch der Ziele entwickelten wir folgende Lösungen:
Aufbau von primären und sekundären Datenprodukten für konsistente Reportings über Fachabteilungen hinweg
Definition von Metriken, um qualitativ hochwertige Datenprodukte innerhalb kürzester Zeit bereitstellen zu können
Aufbau eines webbasierten, gut verständlichen Data Explorers
Unser Vorgehen
Bevor das Projekt startete, wurde eine Strategie definiert, um Zusammenarbeit, Verantwortlichkeiten und Umsetzung strukturiert aufzusetzen.
- 01
Anforderungsdefinition
Ziel war es, die Fachbereiche zu einer eigenständigen, autonomen Datenauswertung zu befähigen und gleichzeitig Datenqualität, Governance und Konsistenz sicherzustellen. Die Lösung wurde bewusst als Self-Service-Plattform konzipiert, um Fachabteilungen von der Abhängigkeit einzelner Reports zu lösen.
- 02
Definition von Datenprodukten und Strukturen
Im nächsten Schritt wurden die vorhandenen Daten fachlich strukturiert. Dabei entstanden zunächst zwei Arten von Datenprodukten (primäre und sekundäre), die nun als Einstiegspunkte für die Fachbereiche dienen. Darauf aufbauend wurden die Daten weiter verfeinert, um Erweiterungen und Kombinationen zu ermöglichen.
Parallel dazu definierten wir mit unserem Kunden, welche Attribute und Spalten relevant sind, um eine verständliche, nutzerzentrierte Datennutzung zu ermöglichen. Dieses Datenschema bildet die Grundlage dafür, dass Daten schneller wiederverwendet, flexibel kombiniert und für konsistente Analysen genutzt werden können. - 03
Technische Umsetzung und Enablement
Auf Basis dieser fachlichen Struktur wurde eine webbasierte Data-Explorer-Lösung umgesetzt. Ein sogenannter “Wizard” führt Fachanwender nun Schritt für Schritt durch die Auswahl von Datenprodukten, deren mögliche Kombinationen sowie die Definition relevanter Spalten.
Erst nach Abschluss dieses Prozesses wird eine strukturierte Ergebnismenge erzeugt, die für Ad-hoc-Analysen, Abfragen mit Databricks Genie, Sortierung, Navigation oder den Export der Daten genutzt werden kann. So wird Self-Service BI technisch ermöglicht, ohne IT- oder Data-Teams dauerhaft einzubinden.
Einblick in das Projekt
Die Ausgangsposition
Der Kunde verfügte bereits über eine zentrale Datenplattform auf Basis von Databricks. In der Praxis blieb ihr Potenzial jedoch weitgehend ungenutzt: Die Fachabteilungen hatten keinen direkten Zugriff auf qualitätsgesicherte, kombinierbare Daten und waren nicht in der Lage, Berichte eigenständig zu erstellen oder Analysen flexibel durchzuführen.
Statt eines echten Self-Service-BI etablierte sich ein IT-getriebener Serviceansatz. Die operative Bereichtserstellung band erhebliche IT-Ressourcen, verstärkte die Abhängigkeit der Fachbereiche von IT- und Data-Teams und sorgte für überwiegend reaktives Arbeiten auf allen Seiten. Trotz großer verfügbarer Datenmengen entstanden kaum fundiertere Analysen oder neue Erkenntnisse; stattdessen stiegen Komplexität und manueller Aufwand. Heterogene Systemlandschaften, uneinheitliche Datenquellen und fragmentierte Reporting-Strukturen verhinderten eine integrierte Sicht auf die bestehenden Prozesse und Daten.
Die zentrale Ursache lag zudem im fehlenden gemeinsamen Verständnis von Anforderungen und Zielbild. Fachbereiche und IT hatten sich nicht frühzeitig auf eine übergreifende BI-Architektur verständigt. Stattdessen wurden Fragestellungen isoliert gelöst, ohne ein skalierbares Gesamtkonzept zu verfolgen, das mit den fachlichen Anforderungen wachsen und nachhaltig Mehrwert schaffen konnte.Unsere Lösung
Mit dem Self-Service Data Explorer wurde eine Lösung geschaffen, die Daten aus Databricks fachlich strukturiert, verständlich und kombinierbar bereitstellt. Bestehende Quellsysteme und etablierte Geschäftsprozesse wurden dabei nahtlos integriert. So konnten wir einen reibungslosen Übergang und eine hohe Akzeptanz ermöglichen.
Durch die Kombination der beiden Produkte Databricks Lakebase und Databricks Apps konnten wir die bestehende Medallion-Architektur erweitern und eine maßgeschneiderte Anwendung direkt auf Databricks-Daten aufbauen. Dadurch wurde es deutlich einfacher, Datenprodukte in Business-Anwendungen zu nutzen und Anwendungsdaten als neue Datenprodukte wiederzuverwenden.
Zusätzlich wurde der Data Ingestion Prozess erheblich vereinfacht, da der gesamte Datenlebenszyklus nun auf einer einheitlichen Plattform namens Databricks abgebildet werden konnte.
Durch das klare Datenschema sowie eine zentrale Governance können Fachbereiche eigenständig mit Daten arbeiten, ohne neue Reports oder Dashboards erstellen zu müssen. Die Web-Oberfläche verbindet Datenexploration, Ad-hoc-Analysen und weiterführende Nutzung in einem konsistenten Workflow. Reports entstehen nicht mehr erst nach langwieriger Aufbereitung und großem Mehraufwand, sondern werden über den Data Explorer in sehr kurzer Zeit generiert.Fazit
Mit dem Self-Service Data Explorer erhalten Fachbereiche direkten Zugriff auf qualitätsgesicherte, kombinierbare Daten und können eigenständig Reports erstellen sowie Analysen durchführen. Ein klares Datenschema und die zentrale Governance der Daten entlastet die IT-Teams und befähigt sie, sich aus ihrem bisherigen reaktiven Modus zu lösen und den Fokus auf strategische Themen legen zu können.
Dank eines einheitlichen Gesamtkonzepts, das die Anforderungen und Wünsche aller Fachabteilungen berücksichtigt, konnten wir letztlich eine homogene, stabile und skalierbare Lösung entwickeln, mit der unser Kunde seine Prozesse effizienter gestalten und die Datendemokratisierung im Unternehmen gezielt vorantreiben kann.
Unser Tech-Stack
Bei diesem Projekt sind folgende Technologien zum Einsatz gekommen:
Sie haben Fragen?
Sie haben noch Fragen oder möchten Ihre Anforderungen direkt mit einem unserer Experten besprechen? Kontaktieren Sie uns - wir freuen uns darauf, gemeinsam mit Ihnen die passende Lösung für Ihr Projekt zu finden!

Niklas Arft & David Horn Pawar - Gründer und Geschäftsführer

Niklas Arft & David Horn Pawar - Gründer und Geschäftsführer
Weitere spannende Projekte
aus den Bereichen Software-Entwicklung, Data Engineering, Managed Service und UI/UX finden Sie hier!

Aufbau einer Data-Mesh-Architektur
Erfolgreiche Data-Mesh-Architektur im Handel: Datensilos aufgelöst, zentrale Daten im Databricks Lakehouse als Data Products in Azure Cloud.
Mehr dazu 
Entwicklung einer Self-Service-BI-Lösung
Self-Service-BI für datengetriebene Entscheidungen: Zentrale Datenbasis mit ETL-Prozessen & SAP-Integration in einer Cloud-Portallösung.
Mehr dazu 
Plattform für Vertragsmanagement
Digitalisierung des Vertragswesens: Entwicklung einer benutzerfreundlichen Weblösung mit Angular, unterstützt durch maßgeschneiderte Frontend-Architektur und klare Anforderungsdefinition.
Mehr dazu