Data Lakehouse: Bronze, Silver, Gold Layers Explained

Laatst bijgewerkt: 9 september 2025

Leestijd: 12 minuten

Data Lakehouse, Medallion Architecture, Bronze Silver Gold, Data Engineering

Ontdek de Medallion Architecture: hoe Bronze, Silver en Gold layers werken in Data Lakehouse voor optimale data kwaliteit en governance.

Zoek je Data Engineering experts?

Vind gespecialiseerde Data Engineers of plaats je vacature voor €25

Data Engineer Vacatures Vacature Plaassen €25

Wat is Medallion Architecture?

Medallion Architecture (ook bekend als Bronze, Silver, Gold layers) is een data design pattern voor Data Lakehouse dat data door verschillende kwaliteitslagen stuurt. Elke laag voert specifieke transformaties uit om data te verrijken en te structureren voor verschillende gebruikers.

Waarom Medallion Architecture?

De Bronze-Silver-Gold aanpak biedt belangrijke voordelen:

Data Quality: Geleidelijke verbetering van data kwaliteit
Governance: Duidelijke scheiding van verantwoordelijkheden
Performance: Geoptimaliseerde data voor verschillende use cases
Flexibiliteit: Eenvoudig nieuwe data sources toevoegen
Auditability: Volledige data lineage en historie

Bronze Layer

Raw Data Ingestion

Silver Layer

Cleaned & Enriched

Gold Layer

Business Ready

De Drie Lagen Uitgelegd

Bronze Layer - Raw Data

Doel: Opslaan van onbewerkte, ongewijzigde data uit bron systemen

Data Ingestion: Alle binnenkomende data in originele formaat
Append Only: Geen updates of verwijderingen
Schema-on-Read: Geen validatie bij inname
Audit Trail: Volledige historie van alle data changes
Use Case: Data recovery, debugging, compliance

Silver Layer - Cleaned & Enriched

Doel: Gestructureerde, gefilterde en verrijkte data voor analytics

Data Cleaning: Remove duplicates, handle null values
Data Validation: Schema enforcement en quality checks
Data Enrichment: Joins, aggregaties, berekeningen
Incremental Processing: Alleen nieuwe/wijzigingen verwerken
Use Case: Data exploration, feature engineering

Gold Layer - Business Ready

Doel: Geoptimaliseerde data voor business intelligence en rapportage

Business Metrics: KPI's, aggregated data
Star Schema: Dimensional modeling voor snelle queries
Data Marts: Department-specifieke views
High Performance: Geoptimaliseerd voor dashboarding
Use Case: Reporting, dashboards, ML features

Team nodig voor Data Lakehouse implementatie?

Vind ervaren Data Engineers gespecialiseerd in Medallion Architecture

Data Engineer Vacatures Zoek Engineering Talent

Vergelijking: Bronze vs Silver vs Gold

Vergelijking Medallion Layers

Kenmerk

Bronze

Silver

Gold

Data Status

Raw, unchanged

Cleaned, validated

Business ready

Schema

Schema-on-read

Schema enforcement

Optimized schema

Data Quality

As-is from source

Validated & cleaned

Business certified

Primary Users

Data Engineers

Data Scientists

Business Users

Storage Format

Parquet/JSON/AVRO

Delta/Parquet

Delta/Views

Implementatie met Populaire Tools

Platform	Bronze Implementation	Silver Implementation	Gold Implementation
Databricks	Auto Loader, Spark Streaming	Delta Live Tables, Spark SQL	Delta Tables, SQL Warehouses
Azure	Data Factory, Event Hubs	Databricks, Synapse	Synapse, Power BI
AWS	Kinesis, DMS, Glue	Glue ETL, EMR	Redshift, Athena
Snowflake	Snowpipe, Streams	Tasks, Stored Procedures	Views, Materialized Views

         Best Practices voor Medallion Architecture
        Incremental Processing: Verwerk alleen nieuwe/changed data
Data Partitioning: Partitioneer op datum voor performance
Schema Evolution: Ondersteun schema changes zonder data loss
Data Lineage: Track data van bron tot gold layer
Quality Gates: Implementeer data quality checks tussen layers
Cost Optimization: Gebruik juiste storage types per layer

      

Praktijk Voorbeeld: Databricks Implementatie

Python Code - Medallion Pipeline

# BRONZE LAYER - Raw data ingestion
from pyspark.sql import SparkSession
from delta.tables import DeltaTable

# Read raw JSON data from cloud storage
bronze_df = spark.read \
    .format("json") \
    .option("cloudFiles.format", "json") \
    .load("s3://raw-data-bucket/sales/")

# Write to Bronze layer as Delta Table
bronze_df.write \
    .format("delta") \
    .mode("append") \
    .save("/mnt/datalake/bronze/sales")

# SILVER LAYER - Data cleaning and enrichment
from pyspark.sql.functions import *

# Read from Bronze
silver_df = spark.read.format("delta").load("/mnt/datalake/bronze/sales")

# Data transformations
silver_cleaned = silver_df \
    .filter(col("amount").isNotNull()) \
    .dropDuplicates(["order_id"]) \
    .withColumn("ingestion_timestamp", current_timestamp()) \
    .withColumn("year", year("order_date")) \
    .withColumn("month", month("order_date"))

# Write to Silver layer
silver_cleaned.write \
    .format("delta") \
    .partitionBy("year", "month") \
    .mode("overwrite") \
    .save("/mnt/datalake/silver/sales")

# GOLD LAYER - Business aggregates
# Create daily sales aggregates
gold_aggregates = silver_cleaned \
    .groupBy("order_date", "product_category") \
    .agg(
        sum("amount").alias("daily_sales"),
        avg("amount").alias("avg_order_value"),
        count("order_id").alias("order_count")
    )

# Write to Gold layer for reporting
gold_aggregates.write \
    .format("delta") \
    .mode("overwrite") \
    .save("/mnt/datalake/gold/daily_sales_metrics")

Klaar voor Data Lakehouse implementatie?

Vind de juiste experts of plaats je Data Engineering vacature

Vacature Plaassen €25 Bekijk Engineering Vacatures

Voordelen en Uitdagingen

✅ Voordelen

Scalable Architecture: Geschikt voor grote data volumes
Data Quality: Geleidelijke kwaliteitsverbetering
Flexibility: Ondersteunt zowel batch als streaming
Cost Effective: Juiste storage type voor elke laag
Governance: Duidelijke data ownership per laag

⚠️ Uitdagingen

Complexity: Meer lagen = meer beheer
Latency: Data doorloopt meerdere transformaties
Skills Required: Expertise in multiple tools nodig
Monitoring: Complexe pipeline monitoring
Cost Management: Optimalisatie vereist per laag

Start met Data Lakehouse vandaag!

Vind gespecialiseerde Data Engineers of plaats je vacature

Zoek Data Engineers Plaas Vacature €25