Databricks Cursus - Module 2: Lakehouse & Delta Lake Basics

Karakteristiek	Data Lake	Data Warehouse
Data Type	Gestructureerd, semi-gestructureerd, ongestructureerd	Voornamelijk gestructureerd
Schema	Schema-on-read (flexibel)	Schema-on-write (rigide)
Kosten	Lage opslagkosten (object storage)	Hogere kosten (speciale hardware)
Performance	Goed voor raw data opslag	Uitstekend voor query performance
Gebruik	Data science, machine learning, exploratie	Business intelligence, rapportage
Data Kwaliteit	Vaak lage kwaliteit ("data swamp")	Hoge kwaliteit, gestandaardiseerd

Dit leidde tot een twee-lagen architectuur waarbij data eerst naar een data lake ging voor processing, en daarna naar een data warehouse voor analytics. Dit veroorzaakte:

Data silo's: Data zat vast in verschillende systemen
Hoge kosten: Dubbele opslag en processing
Complexiteit: Meerdere tools en processen nodig
Vertraging: Data moest eerst getransformeerd worden
Data kwaliteit issues: Verschillende versies van de waarheid

2.2 De Data Lakehouse: Het Beste van Beide Werelden

De Data Lakehouse is een nieuw type data platform dat de voordelen van data lakes en data warehouses combineert in één geïntegreerde oplossing.

Lakehouse Definitie

Een Data Lakehouse is een open, gemanaged data platform dat:

Data lake flexibiliteit biedt voor alle data types (gestructureerd, semi-gestructureerd, ongestructureerd)
Data warehouse performance en betrouwbaarheid levert voor business intelligence
Directe toegang geeft tot data voor zowel BI als data science
Eén enkele copy van data gebruikt voor alle workloads

Belangrijkste Kenmerken van een Lakehouse:

Open Formaten

Gebruik van open standaarden zoals Parquet, ORC en JSON die door alle tools gelezen kunnen worden.

Transactionele Ondersteuning

ACID transacties garanderen data consistentie bij gelijktijdige reads en writes.

Hoge Performance

Caching, indexing en query optimization voor data warehouse-level performance.

Data Governance

Geïntegreerde data governance, lineage en kwaliteitscontrole.

2.3 Delta Lake: Het Fundament van de Lakehouse

Delta Lake is een open-source storage layer die de betrouwbaarheid van data warehouses toevoegt aan data lakes. Het is ontwikkeld door Databricks en is nu een Linux Foundation project.

Wat is Delta Lake?

Delta Lake is niet een aparte database of storage systeem. Het is een layer bovenop je bestaande data lake (bijvoorbeeld op Amazon S3, Azure Data Lake Storage, of Google Cloud Storage) die:

ACID transacties toevoegt aan Apache Spark
Schema enforcement en evolution ondersteunt
Tijdreizen (time travel) mogelijk maakt voor data versiebeheer
Audit logging en data lineage biedt
Unified batch en streaming processing ondersteunt

Kernfunctionaliteiten van Delta Lake:

ACID Transacties:
- Atomicity: Transacties zijn all-or-nothing
- Consistency: Data blijft consistent na transacties
- Isolation: Gelijktijdige transacties storen elkaar niet
- Durability: Eenmaal geschreven data blijft behouden
Schema Enforcement en Evolution:
Delta Lake verifieert het schema bij het schrijven van data, maar ondersteunt ook veilige schema-evolutie (zoals kolommen toevoegen).
Time Travel (Tijdreizen):
Behoud van historische versies van data. Je kunt query's uitvoeren op data zoals die er op een specifiek tijdstip uitzag.
Unified Batch en Streaming:
Zowel batch- als streaming-data kunnen naar dezelfde Delta tables geschreven worden.

Hoe Delta Lake Werkt: De Transaction Log

Delta Lake gebruikt een transaction log (ook wel Delta Log genoemd) om alle wijzigingen bij te houden. Dit is een geordende reeks JSON-bestanden die:

Alle transacties bijhoudt die op een tabel zijn uitgevoerd
Toestaat dat meerdere gebruikers tegelijkertijd lezen en schrijven
Zorgt voor consistentie en isolation
Maakt time travel mogelijk door historische versies te bewaren

Elke wijziging (INSERT, UPDATE, DELETE, MERGE) wordt vastgelegd als een nieuwe entry in de transaction log.

2.4 Praktische Voordelen van Lakehouse + Delta Lake

Voor Data Engineers:

Vereenvoudigde architectuur: Minder systemen om te beheren
Betere data kwaliteit: Schema enforcement voorkomt fouten
Efficiëntere pipelines: Minder data beweging en transformatie
Eenvoudig foutherstel: Time travel maakt rollbacks eenvoudig

Voor Data Scientists:

Directe data toegang: Geen wachten op ETL processen
Rijke data sets: Toegang tot zowel gestructureerde als ongestructureerde data
Reproduceerbaarheid: Time travel maakt experimenten reproduceerbaar
Collaboratie: Gedeelde data tussen teams

Voor Business Intelligence Teams:

Snellere insights: Real-time of near-real-time data
Betrouwbare data: ACID transacties garanderen consistentie
Lagere kosten: Geen dure data warehouse licenties nodig
Flexibiliteit: Eenvoudig nieuwe data sources toevoegen

2.5 Real-World Use Cases

Praktijkvoorbeelden

Use Case 1: Customer 360 View
Een retailbedrijf combineert transactionele data (gestructureerd) met social media sentiment (ongestructureerd) en customer service logs (semi-gestructureerd) in één Lakehouse. Dit elimineert data silo's en geeft een compleet klantbeeld.

Use Case 2: Fraud Detection
Een financiële instelling gebruikt streaming data van transacties in combinatie met historische patronen. Delta Lake's unified batch/streaming maakt real-time fraud detection mogelijk.

Use Case 3: IoT Analytics
Een manufacturing bedrijf verwerkt sensor data (high-volume streaming) samen met onderhoudsgeschiedenis en kwaliteitscontroles. De Lakehouse schaalt met de data volume en kosten.

2.6 Samenvatting en Belangrijkste Takeaways

Key Takeaways

Lakehouse combineert de beste eigenschappen van data lakes en data warehouses
Delta Lake is de foundation die ACID transacties, schema management en time travel toevoegt aan data lakes
Eén data copy serveert alle gebruikers (BI, data science, engineering)
Open formaten voorkomen vendor lock-in en zorgen voor interoperabiliteit
Significante kostenbesparing door eliminatie van dubbele infrastructuur
Verbeterde data kwaliteit en governance door geïntegreerde controles
Versnelde time-to-insight door minder data beweging en transformatie

De combinatie van Lakehouse architectuur en Delta Lake technologie vertegenwoordigt een fundamentele verschuiving in hoe organisaties data beheren en analyseren. Het biedt een toekomstbestendig foundation dat schaalbaar, kostenefficiënt en flexibel genoeg is om zowel de huidige als toekomstige data uitdagingen aan te kunnen.

Vorige Module Module 1: Wat is Databricks? Volgende Module Module 3: Workspace Setup

Verdiepende Leermateriaal

Aanbevolen Lezen

Delta Lake Documentatie:

Officiële Delta Lake Documentatie - Complete API reference en gebruikersgids
Delta Lake Learning Resources - Tutorials en best practices
Databricks Lakehouse Whitepaper - Technische details en architectuur

Academic Papers en Research:

"Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics" - CIDR 2021
"Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores" - VLDB 2020
"Schema Evolution in Data Lakes" - ACM Computing Surveys

Praktische Handleidingen:

Delta Lake Best Practices (PDF) - Optimalisatie tips en patronen
Lakehouse Implementation Guide - Stapsgewijze implementatie
Data Governance in Lakehouse Architectuur - Blog artikel

Praktische Opdrachten

Opdracht 1: Schema Evolution
Maak een Delta table met een basis schema. Voeg daarna nieuwe kolommen toe zonder bestaande data te verliezen. Experimenteer met schema enforcement door incorrecte data te proberen schrijven.

Opdracht 2: Time Travel Demo
Maak een Delta table, voer verschillende updates uit, en gebruik dan time travel om de data van verschillende tijdstippen te bekijken. Gebruik zowel timestamp-based als version-based time travel.

Opdracht 3: ACID Transacties
Simuleer gelijktijdige reads en writes naar dezelfde Delta table. Laat zien hoe Delta Lake isolation garandeert en voorkomt dat lezers inconsistenties zien.

Opdracht 4: Merge Operation
Gebruik de MERGE INTO syntax om een upsert operatie uit te voeren. Vergelijk dit met de traditionele aanpak van DELETE gevolgd door INSERT.

Veelgestelde Vragen

Vraag: Is Delta Lake alleen voor Databricks?
Antwoord: Nee, Delta Lake is open-source en kan onafhankelijk van Databricks gebruikt worden. Het werkt met Apache Spark, maar Databricks biedt geoptimaliseerde versies en extra features.

Vraag: Wat is het verschil tussen Delta Lake en Apache Iceberg/Hudi?
Antwoord: Alle drie zijn open table formats voor data lakes. Delta Lake is het meest geïntegreerd met Spark, Iceberg is breder geadopteerd in het Hadoop ecosysteem, en Hudi is specifiek geoptimaliseerd voor streaming use cases.

Vraag: Moet ik mijn bestaande data migreren naar Delta Lake?
Antwoord: Delta Lake kan over bestaande Parquet data werken. Je kunt data incremental converteren. Begin met nieuwe data of kritieke datasets waar je ACID transacties nodig hebt.

Vraag: Wat zijn de performance overheads van Delta Lake?
Antwoord: De transaction log voegt enige overhead toe voor writes, maar dit wordt gecompenseerd door betere read performance (metadata caching, data skipping). Voor de meeste workloads is de netto impact positief.

Kennis Controle

Quiz: Lakehouse & Delta Lake

Vraag 1: Wat is het belangrijkste voordeel van een Lakehouse architectuur ten opzichte van traditionele data architecturen?

Het gebruikt alleen open-source software
Het combineert data lake flexibiliteit met data warehouse performance
Het is altijd goedkoper dan andere oplossingen
Het vereist minder technische kennis

Vraag 2: Welke van de volgende is GEEN kernfunctionaliteit van Delta Lake?

ACID transacties
Time travel (tijdreizen)
Automatische machine learning
Schema enforcement en evolution

Vraag 3: Wat betekent "schema-on-read" in de context van data lakes?

Het schema wordt toegepast wanneer data wordt geschreven
Het schema wordt toegepast wanneer data wordt gelezen
Er is helemaal geen schema nodig
Het schema wordt automatisch gegenereerd

Vraag 4: Hoe implementeert Delta Lake ACID transacties?

Door een centrale database te gebruiken
Door een transaction log (Delta Log) bij te houden
Door alleen single-user access toe te staan
Door alle data te repliceren

Vraag 5: Wat is een praktisch voordeel van Delta Lake's time travel functionaliteit?

Het versnelt alle queries
Het maakt foutherstel eenvoudiger
Het reduceert opslagkosten
Het automatiseert data cleaning

Antwoorden

Antwoord 1: B - Het combineert data lake flexibiliteit met data warehouse performance
Antwoord 2: C - Automatische machine learning
Antwoord 3: B - Het schema wordt toegepast wanneer data wordt gelezen
Antwoord 4: B - Door een transaction log (Delta Log) bij te houden
Antwoord 5: B - Het maakt foutherstel eenvoudiger