Workspace Setup & Eerste Notebook
Praktische handleiding voor het instellen van je Databricks omgeving en eerste stappen
Cursus Modules
Module 3: Databricks Workspace Setup & Eerste Notebook
Leerdoelen
Na deze module kun je:
- Een Databricks account aanmaken op jouw voorkeurs cloud provider
- Een Databricks workspace instellen en configureren
- Een compute cluster maken en optimaal configureren
- Je eerste notebook maken en uitvoeren
- Data uploaden en verwerken in Databricks
- Kosten optimaliseren en best practices toepassen
3.1 Cloud Provider Keuze en Account Setup
Databricks is beschikbaar op drie grote cloud platforms. Je keuze hangt af van je bestaande infrastructuur, voorkeur en prijs:
| Cloud Provider | Best Voor | Free Trial | Integratie |
|---|---|---|---|
| AWS Databricks | Organisaties die al AWS gebruiken, beste voor enterprise workloads | 14 dagen gratis + $300 AWS credits | S3, Glue, Redshift, Kinesis |
| Azure Databricks | Microsoft ecosystem, beste voor Azure Active Directory integratie | $200 Azure credits voor 30 dagen | Azure Data Lake, Synapse, Power BI |
| Google Cloud Databricks | Google ecosystem, beste voor BigQuery integratie | $300 GCP credits voor 90 dagen | BigQuery, Cloud Storage, Pub/Sub |
Stap 1: Account Aanmaken
- Ga naar databricks.com/try-databricks
- Kies je cloud provider (AWS, Azure of GCP)
- Vul je contactgegevens in en accepteer de voorwaarden
- Bevestig je email adres via de verificatie email
- Login met je nieuwe account
Tip: Gratis Community Edition
Voor leren en experimenteren, gebruik de Community Edition. Dit is volledig gratis met beperkte resources. Ga naar community.cloud.databricks.com om te beginnen.
Stap 2: Workspace Instellen
Na login word je geleid naar de workspace setup:
- Workspace Naam: Kies een beschrijvende naam (bijv. "data-team-prod" of "learning-sandbox")
- Regio: Kies een regio dichtbij je gebruikers (bijv. EU West voor Nederland)
- Cluster Mode: Kies "Standard" voor meeste use cases
- Data Access: Configureer toegang tot je cloud storage (S3, ADLS, GCS)
- Networking: Voor productie: configureer VPC/VNet integratie
Belangrijke Overwegingen
- Kosten: Een workspace kost $99-$149 per maand (afhankelijk van cloud provider)
- Regio:Data Residency: Kies een regio die voldoet aan je compliance requirements (GDPR voor EU data)
- Performance: Kies een regio dichtbij je data sources voor lagere latency
3.2 Compute Clusters: The Heart of Databricks
Clusters zijn de compute engine van Databricks. Ze verwerken je data en voeren code uit. Er zijn twee hoofdtypen:
Cluster Types
| Type | Beschrijving | Gebruik | Kosten |
|---|---|---|---|
| All-Purpose Clusters | Voor ad-hoc analyse en data science. Wordt handmatig gestart/gestopt. | Data exploration, development, notebooks | Betaal per uur wanneer cluster draait |
| Job Clusters | Voor geplande jobs en productie workloads. Start automatisch en stopt na job. | ETL pipelines, geplande reports, productie workloads | Betaal alleen tijdens job execution |
| High-Concurrency | Geoptimaliseerd voor meerdere gebruikers met fine-grained sharing | Gedeelde omgevingen, SQL analytics, BI tools | Hoger DBU tarief, maar efficienter |
Stap 3: Je Eerste Cluster Maken
- In je workspace, ga naar Compute in het linkermenu
- Klik op Create Cluster
- Cluster Name: Geef een beschrijvende naam (bijv. "dev-small")
- Cluster Mode: Kies "Standard" voor development
- Databricks Runtime Version: Kies de nieuwste LTS versie (bijv. 13.3 LTS)
- Worker Type: Kies een klein type voor development (bijv. "i3.xlarge" op AWS)
- Driver Type: Gelijk aan worker type
- Min Workers: 2 (voor fault tolerance)
- Max Workers: 8 (voor automatisch schalen)
- Auto-termination: 120 minuten (bespaart kosten bij inactiviteit)
Cluster Optimalisatie Tips:
Kosten Besparen
- Gebruik spot instances voor niet-kritieke workloads
- Stel auto-termination in op 15-30 minuten
- Schaal automatisch op basis van workload
- Gebruik reserved instances voor productie
Performance Optimalisatie
- Kies instance types met SSD storage
- Gebruik memory-optimized instances voor Spark
- Configureer Spark parameters voor je workload
- Gebruik Delta Cache voor herhaalde reads
Security Best Practices
- Gebruik VPC/VNet voor isolatie
- Configureer security groups/firewall rules
- Gebruik instance profiles/service principals
- Encrypt data in transit en at rest
3.3 Je Eerste Notebook: Hands-on Tutorial
Stap 4: Notebook Aanmaken en Configureren
- Klik op Create in het linkermenu en kies Notebook
- Name: "Mijn eerste Databricks notebook"
- Default Language: Python (of Scala, SQL, R)
- Cluster: Selecteer het cluster dat je in stap 3 gemaakt hebt
- Klik op Create
Notebook Interface Uitleg
- Cells: Code of markdown blokken
- Run Button: Voert de huidige cel uit
- Add Cell: Voegt nieuwe cel toe
- Command Palette: Sneltoetsen (Cmd/Ctrl + Shift + P)
- Revision History: Versiebeheer voor notebooks
Stap 5: Basis Notebook Operaties
Typ deze code in je notebook en voer elke cel uit:
Stap 6: Data Uploaden en Verwerken
Databricks biedt verschillende manieren om data te uploaden:
Methode 1: UI Upload
- Klik op Data in het linkermenu
- Klik op Create Table
- Sleep een CSV/JSON bestand of klik op Browse
- Configureer schema en data type
- Klik op Create Table
Methode 2: Cloud Storage
- Upload data naar S3/ADLS/GCS
- Lees direct vanuit notebook:
3.4 Geavanceerde Workspace Features
Belangrijke Workspace Componenten
| Component | Beschrijving | Gebruik |
|---|---|---|
| Repos | Git integratie voor versiebeheer van notebooks | Connect met GitHub, GitLab, Bitbucket voor CI/CD |
| Jobs | Geplande taken en workflows | ETL pipelines, rapportage, model training |
| Delta Live Tables | Declaratieve ETL framework | Data pipeline ontwikkeling en monitoring |
| MLflow | Machine Learning lifecycle management | Experiment tracking, model registry, deployment |
| SQL Warehouses | Dedicated SQL compute voor BI tools | Power BI, Tableau, Looker connecties |
| Unity Catalog | Unified governance en security | Data lineage, access control, audit logging |
Jobs Configuratie Voorbeeld:
3.5 Kosten Management en Best Practices
Kosten Optimalisatie Strategieën
1. Cluster Management:
- Auto-termination: Altijd instellen (15-120 minuten)
- Auto-scaling: Gebruik voor variabele workloads
- Spot Instances: 60-90% kostenbesparing voor tolerant workloads
- Cluster Pools: Voor snelle cluster startup
2. Workload Optimalisatie:
- Partitionering: Optimaliseer data layout voor query performance
- Caching: Gebruik Delta Cache voor herhaalde reads
- Query Optimalisatie: Gebruik EXPLAIN om queries te analyseren
- Z-Ordering: Voor betere data skipping
3. Monitoring en Alerting:
- Cost Analysis: Gebruik cloud provider cost explorer
- Usage Reports: Databricks usage dashboard
- Budget Alerts: Stel budget alerts in
- Audit Logs: Monitor usage patterns
| Workload Type | Cluster Size | Estimated Cost/maand | Optimalisatie Tips |
|---|---|---|---|
| Development/Test | 2-4 workers (small) | $200 - $500 | Auto-termination, gebruik buiten werkuren |
| Production ETL | 8-16 workers (medium) | $1,500 - $3,000 | Reserved instances, spot voor niet-kritieke jobs |
| Data Science/ML | 4-8 workers (GPU optional) | $800 - $2,000 | Gebruik alleen GPU wanneer nodig |
| BI/Analytics | SQL Warehouse (Small-Medium) | $500 - $1,500 | Auto-stop, schaal based on demand |
3.6 Troubleshooting en Common Issues
Veelvoorkomende Problemen en Oplossingen
Cluster Issues:
- Cluster start niet: Check VPC/subnet configuratie, security groups
- Geen workers beschikbaar: Instance type mogelijk uitverkocht in regio
- Hoge latency: Cluster in verkeerde regio t.o.v. data
Performance Issues:
- Slow queries: Check data skew, partitionering, caching
- Out of memory: Vergroot cluster size of optimaliseer queries
- Storage I/O bottlenecks: Gebruik SSD-backed instances
Data Issues:
- Cannot read data: Check permissions op storage
- Schema mismatches: Gebruik schema evolution in Delta Lake
- Data corruption: Gebruik Delta Lake time travel voor recovery
Cost Issues:
- Unexpected costs: Check auto-termination settings
- High DBU usage: Optimaliseer Spark configuratie
- Idle clusters: Stel kortere auto-termination in
3.7 Samenvatting en Volgende Stappen
Wat Je Nu Kunt
Na het voltooien van deze module heb je:
- Een werkende Databricks omgeving op jouw cloud provider
- Een geconfigureerd compute cluster voor data processing
- Je eerste notebook gemaakt en uitgevoerd
- Basis data operaties uitgevoerd met Spark DataFrames
- Inzicht in kosten management en optimalisatie
- Begrip van geavanceerde workspace features
Volgende Stappen in Je Databricks Reis
Voor Data Engineers:
- Leer Delta Live Tables voor declaratieve pipelines
- Implementeer medallion architecture (bronze/silver/gold)
- Stel CI/CD pipelines op met Databricks Repos
- Configureer Unity Catalog voor data governance
Voor Data Scientists:
- Experimenteer met MLflow voor model tracking
- Gebruik Feature Store voor reproducibele features
- Implementeer AutoML voor snelle experimenten
- Deploy modellen met MLflow Model Serving
Voor Analisten:
- Maak dashboards met Databricks SQL
- Connect BI tools (Power BI, Tableau) via SQL Warehouse
- Gebruik Lakehouse views voor self-service analytics
- Implementeer row/column level security
Praktische Opdrachten
Hands-on Oefeningen
Opdracht 1: Complete Workspace Setup
Doel: Een volledige productie-achtige omgeving opzetten
- Maak een nieuwe workspace op je voorkeurs cloud provider
- Configureer een development cluster met auto-scaling (min 2, max 8 workers)
- Maak een productie cluster pool voor snelle startups
- Configureer Git integratie met een repository
- Stel budget alerts in op $500/maand
Opdracht 2: ETL Pipeline Bouwen
Doel: Een complete data pipeline implementeren
- Download een dataset (bijv. van Kaggle of open data portalen)
- Upload naar cloud storage (S3/ADLS/GCS)
- Lees data in een notebook en transformeer (cleaning, aggregaties)
- Schrijf resultaten naar Delta Lake format
- Maak een scheduled job die dagelijks draait
- Voeg email notifications toe voor success/failure
Opdracht 3: Performance Optimalisatie
Doel: Een bestaande workload optimaliseren voor kosten en performance
- Gebruik een bestaande notebook met performance issues
- Analyseer met Spark UI waar bottlenecks zitten
- Optimaliseer door: partitionering aan te passen, caching toe te voegen, queries te herschrijven
- Meet verbetering in runtime en kosten
- Documenteer je bevindingen en optimalisaties
Verdiepende Bronnen
Officiële Documentatie en Guides
Databricks Documentatie:
- Getting Started Guide - Stapsgewijze beginners handleiding
- Clusters Guide - Complete cluster configuratie
- Notebooks Guide - Notebook features en best practices
- Administration Guide - Beheer en configuratie
Cloud-specifieke Guides:
DataPartner365 Resources:
Certificering en Verdere Training
Databricks Certificeringen:
- Databricks Certified Associate Developer for Apache Spark: Entry-level certificering
- Databricks Certified Data Engineer Associate: Voor data engineering professionals
- Databricks Certified Data Analyst Associate: Voor SQL en analytics specialisten
- Databricks Certified Machine Learning Associate: Voor ML engineers en data scientists
DataPartner365 Vervolgcursussen: