Shows the icon for the burger menu.
Hier finden Sie uns!
Augustinusstraße 11B
50226 Frechen
LinkedinInstagramFacebookX

Databricks für Softwareentwickler

Databricks Schulung in Köln, remote oder bei Ihnen vor Ort: Praxisnaher Einstieg für Softwareentwickler zu SQL Warehouses, Lakehouse-Daten und App-Entwicklung mit Python, Node.js & Java.

Auf einen Blick

  • Shows a small check icon.

    Länge

    3 Tage

  • Shows a small check icon.

    Datum

    Auf Anfrage

  • Shows a small check icon.

    Ort

    Remote, bei uns in Köln oder bei Ihnen (auf Anfrage)

  • Shows a small check icon.

    Level

    Intermediate

  • Shows a small check icon.

    Preis

    1.800,00 € p. P. zzgl. MwSt.

Lernziele

Ziel der Databricks-Schulung ist es, Softwareentwicklern einen praxisorientierten Einstieg in Databricks zu geben. Im Fokus stehen der Aufbau produktiver, skalierbarer Datenpipelines sowie die Bereitstellung qualitätsgesicherter Daten für Anwendungen. Darüber hinaus wird die Entwicklung von Databricks Apps mit Python, Node.js und Java vermittelt. Die Schulung zeigt außerdem, wie Data- und Engineering-Teams auf einer Lakehouse-Plattform mit Apache Spark effizient zusammenarbeiten und komplexe Data-Ingestion-Prozesse reduzieren können

Benefits, Zielgruppe & Voraussetzungen

Shows an arrow.Shows an arrow.
01

Benefits

- Strukturierte Zusammenarbeit zwischen Softwareentwicklung, Data Engineering und Data Analytics

- Fundiertes Wissen für Softwareentwickler, um erste Aufgaben im Data Engineering übernehmen zu können

- Effiziente Nutzung und Bereitstellung von Datenprodukten für Softwareanwendungen mithilfe von SQL Warehouses oder Databricks Lakebase

02

Zielgruppe

Die Databricks Schulung richtet sich an Softwareentwickler, Backend-Engineers, Full-Stack-Entwickler sowie Architekten, die Databricks als Datenfundament für Anwendungen nutzen möchten.

Sie eignet sich für Teams, die Anwendungen über SQL Warehouses, direkte Lakebase-Anbindung oder Copy-Mechanismen entwickeln und eng mit Data-/BI-Teams zusammenarbeiten.

03

Vorerfahrung

- Gute Kenntnisse in Python, Node.js oder Java

- Solides Verständnis von SQL und grundlegenden Datenbankkonzepten

- Grundkenntnisse in Git, CI/CD und moderner Softwareentwicklung

- Erste Cloud-Erfahrungen (AWS oder Azure) sind hilfreich

Databricks-Vorkenntnisse werden nicht vorausgesetzt – die Einführung erfolgt an Tag 1.

Agenda

Tag 1: Grundlagen Apache Spark
Teil 1: Apache Spark Grundlagen

- Warum Big Data andere Werkzeuge benötigt
- Rolle von Spark im modernen Data Engineering
- Unterschied von lokaler vs. verteilter Verarbeitung
- Überblick Spark-Ökosystem (Spark SQL, Streaming, MLlib)
- Spark als Engine hinter Databricks
- Einführung Databricks Architektur (Workspace, Account Console, Unity Catalog)

Teil 2: Apache Spark Core Konzepte

- Spark Architektur: Driver, Executors und Cluster-Ressourcen
- Spark Execution Model: Jobs, Stages und Tasks
- Lazy Evaluation und Optimierung von Ausführungsplänen
- Directed Acyclic Graph (DAG) in Spark

Teil 3: Entwicklung mit Apache Spark

- DataFrames als zentrale Datenstruktur in Spark
- Nutzung von Spark SQL zur Datenverarbeitung
- Transformationen wie select, filter, join und groupBy
- Actions wie count, collect und write

Teil 4: Delta Lake Grundlagen

- Delta Lake als ACID-Layer im Lakehouse
- Delta Transaction Log und Tabellenstruktur
- Time Travel und Versionierung
- Delta Lake vs. klassischer Data Lake

Teil 5: Dateiformate im Lakehouse

- Apache Parquet als Standardformat im Lakehouse
- Columnar Storage für analytische Abfragen
- Vorteile von Parquet gegenüber CSV und JSON
- Predicate Pushdown und Data Skipping
- Parquet in Kombination mit Delta Lake

Tag 2: Hands-On Data Engineering mit Databricks
Teil 6: Performance-Grundlagen in Spark

- Ursachen und Umgang mit Data Skew/Shuffle
- Partitionierung verstehen und sinnvoll einsetzen
- Einführung in AQE (Adaptive Query Execution)

Teil 7: Data Ingestion mit Azure Databricks

- Typische Ingestion-Patterns im Lakehouse
- Batch-Ingestion aus Dateien, Datenbanken und APIs
- Streaming-Ingestion mit Auto Loader und Event Streams
- Append- und Merge-Strategien
- Verarbeitung inkrementeller Daten

Teil 8: Pipelines & Jobs in Databricks

- Aufbau von ETL- und ELT-Pipelines
- Orchestrierung mit Databricks Workflows
- Job-Planung und Automatisierung
- Fehlerhandling und Retry-Strategien
- Task-Abhängigkeiten in Workflows

Teil 9: Batch vs. Streaming Pipelines

- Unterschiede zwischen Batch und Streaming
- Einsatzszenarien für Batch- und Streaming-Pipelines
- Structured Streaming in Spark
- Trigger-Optionen und Checkpointing
- Exactly-Once-Semantik

Teil 10: Teststrategien für produktive Pipeliens

- Bedeutung von Testing in Datenpipelines
- Teststrategien für produktive Pipelines
- Unit Tests für Transformationen
- Data Quality Checks testen

Tag 3: Softwareentwicklung mit Databricks
Teil 11: Versionskontrolle & Deployment

- Git-Integration in Databricks
- Arbeiten mit Databricks Repos
- Git vs. Databricks Asset Bundles
- Asset Bundles für CI/CD und Deployment

Teil 12: Datenzugriff & Datenbereitstellung aus Databricks

- Zugriff über JDBC und ODBC
- Zugriff über REST APIs und SDKs
- SQL Warehouses als Serving Layer
- Database Lakebase als Serving Layer
- Integration von BI-Tools wie Power BI und Tableau
- Reverse ETL und Datenaustausch
- Best Practices für Datenbereitstellung

Teil 13: Databricks Apps

- Einführung in Databricks Apps
- Typische Anwendungsfälle für Datenanwendungen
- Kombination von Data Engineering und Apps
- Deployment von Databricks Apps
- Security und Zugriffskonzepte

Teil 14: Best Practices für Data Engineers

- Medaillon-Architektur mit Bronze, Silver und Gold
- Saubere Datenmodellierung im Lakehouse
- Dokumentation und Data Contracts
- Zusammenarbeit zwischen Data Engineering und Analytics

Unsere Trainer

Unsere Trainer verfügen über fundierte Fachkenntnisse und umfangreiche Praxiserfahrung im Einsatz von Databricks. Sie arbeiten regelmäßig in realen Projekten und vermitteln komplexe Themen klar und praxisnah. Lernen Sie uns kennen:

  • Niklas Arft

    null

    Niklas bringt langjährige Erfahrung in Entwicklung, Architektur und Betrieb moderner Cloud- und Datenplattformen mit. Er leitet Teams, entwickelt Architekturen sowie Big-Picture-Konzepte, und vermittelt diese verständlich bis auf C-Level. Sein hoher Qualitäts- und Nutzungsanspruch prägt sowohl Projekte und Trainings. Als ausgebildeter Ausbilder bereitet er komplexe Inhalte strukturiert und mit hohem Praxisbezug auf.

    • Shows Linkedin icon in white.
    • Shows Github icon in white.
    null
  • Manbir Singh Pawar

    null

    Mani ist ein erfahrener Data Engineer mit Schwerpunkt auf Azure und Databricks. Er optimiert Spark-basierte Datenpipelines, entwickelt robuste ETL/ELT-Workflows und bringt dafür Projekterfahrung sowie Databricks-Zertifizierungen mit. Dank seiner Full-Stack-Expertise versteht er Datenarchitekturen ganzheitlich und vermittelt technische Konzepte präzise. Die Kombination aus Hands-On-Projektarbeit und kontinuierlicher Trainingspraxis sorgt dafür, dass er komplexe Inhalte praktisch vermitteln kann.

    • Shows Linkedin icon in white.
    • Shows Github icon in white.
    null

IT-Schulung anfragen:

Wir freuen uns auf Ihre Nachricht.

Wir dürfen Sie mit unserer Begeisterung für Databricks anstecken? Schreiben Sie uns eine kurze Nachricht und wir freuen uns darauf, Sie in unserem Training kennen zu lernen.