DataPartner365

Jouw partner voor datagedreven groei en inzichten

Data Lakehouse: Bronze, Silver, Gold Layers Explained

Laatst bijgewerkt: 9 september 2025
Leestijd: 12 minuten
Data Lakehouse, Medallion Architecture, Bronze Silver Gold, Data Engineering

Ontdek de Medallion Architecture: hoe Bronze, Silver en Gold layers werken in Data Lakehouse voor optimale data kwaliteit en governance.

Zoek je Data Engineering experts?

Vind gespecialiseerde Data Engineers of plaats je vacature voor €25

Wat is Medallion Architecture?

Medallion Architecture (ook bekend als Bronze, Silver, Gold layers) is een data design pattern voor Data Lakehouse dat data door verschillende kwaliteitslagen stuurt. Elke laag voert specifieke transformaties uit om data te verrijken en te structureren voor verschillende gebruikers.

Waarom Medallion Architecture?

De Bronze-Silver-Gold aanpak biedt belangrijke voordelen:

Bronze Layer

Raw Data Ingestion

Silver Layer

Cleaned & Enriched

Gold Layer

Business Ready

De Drie Lagen Uitgelegd

Bronze Layer - Raw Data

Doel: Opslaan van onbewerkte, ongewijzigde data uit bron systemen

  • Data Ingestion: Alle binnenkomende data in originele formaat
  • Append Only: Geen updates of verwijderingen
  • Schema-on-Read: Geen validatie bij inname
  • Audit Trail: Volledige historie van alle data changes
  • Use Case: Data recovery, debugging, compliance

Silver Layer - Cleaned & Enriched

Doel: Gestructureerde, gefilterde en verrijkte data voor analytics

  • Data Cleaning: Remove duplicates, handle null values
  • Data Validation: Schema enforcement en quality checks
  • Data Enrichment: Joins, aggregaties, berekeningen
  • Incremental Processing: Alleen nieuwe/wijzigingen verwerken
  • Use Case: Data exploration, feature engineering

Gold Layer - Business Ready

Doel: Geoptimaliseerde data voor business intelligence en rapportage

  • Business Metrics: KPI's, aggregated data
  • Star Schema: Dimensional modeling voor snelle queries
  • Data Marts: Department-specifieke views
  • High Performance: Geoptimaliseerd voor dashboarding
  • Use Case: Reporting, dashboards, ML features

Team nodig voor Data Lakehouse implementatie?

Vind ervaren Data Engineers gespecialiseerd in Medallion Architecture

Vergelijking: Bronze vs Silver vs Gold

Vergelijking Medallion Layers
Kenmerk
Bronze
Silver
Gold
Data Status
Raw, unchanged
Cleaned, validated
Business ready
Schema
Schema-on-read
Schema enforcement
Optimized schema
Data Quality
As-is from source
Validated & cleaned
Business certified
Primary Users
Data Engineers
Data Scientists
Business Users
Storage Format
Parquet/JSON/AVRO
Delta/Parquet
Delta/Views

Implementatie met Populaire Tools

Platform Bronze Implementation Silver Implementation Gold Implementation
Databricks Auto Loader, Spark Streaming Delta Live Tables, Spark SQL Delta Tables, SQL Warehouses
Azure Data Factory, Event Hubs Databricks, Synapse Synapse, Power BI
AWS Kinesis, DMS, Glue Glue ETL, EMR Redshift, Athena
Snowflake Snowpipe, Streams Tasks, Stored Procedures Views, Materialized Views

Best Practices voor Medallion Architecture

  • Incremental Processing: Verwerk alleen nieuwe/changed data
  • Data Partitioning: Partitioneer op datum voor performance
  • Schema Evolution: Ondersteun schema changes zonder data loss
  • Data Lineage: Track data van bron tot gold layer
  • Quality Gates: Implementeer data quality checks tussen layers
  • Cost Optimization: Gebruik juiste storage types per layer

Praktijk Voorbeeld: Databricks Implementatie

Python Code - Medallion Pipeline

# BRONZE LAYER - Raw data ingestion
from pyspark.sql import SparkSession
from delta.tables import DeltaTable

# Read raw JSON data from cloud storage
bronze_df = spark.read \
    .format("json") \
    .option("cloudFiles.format", "json") \
    .load("s3://raw-data-bucket/sales/")

# Write to Bronze layer as Delta Table
bronze_df.write \
    .format("delta") \
    .mode("append") \
    .save("/mnt/datalake/bronze/sales")

# SILVER LAYER - Data cleaning and enrichment
from pyspark.sql.functions import *

# Read from Bronze
silver_df = spark.read.format("delta").load("/mnt/datalake/bronze/sales")

# Data transformations
silver_cleaned = silver_df \
    .filter(col("amount").isNotNull()) \
    .dropDuplicates(["order_id"]) \
    .withColumn("ingestion_timestamp", current_timestamp()) \
    .withColumn("year", year("order_date")) \
    .withColumn("month", month("order_date"))

# Write to Silver layer
silver_cleaned.write \
    .format("delta") \
    .partitionBy("year", "month") \
    .mode("overwrite") \
    .save("/mnt/datalake/silver/sales")

# GOLD LAYER - Business aggregates
# Create daily sales aggregates
gold_aggregates = silver_cleaned \
    .groupBy("order_date", "product_category") \
    .agg(
        sum("amount").alias("daily_sales"),
        avg("amount").alias("avg_order_value"),
        count("order_id").alias("order_count")
    )

# Write to Gold layer for reporting
gold_aggregates.write \
    .format("delta") \
    .mode("overwrite") \
    .save("/mnt/datalake/gold/daily_sales_metrics")

Klaar voor Data Lakehouse implementatie?

Vind de juiste experts of plaats je Data Engineering vacature

Voordelen en Uitdagingen

✅ Voordelen

⚠️ Uitdagingen

Start met Data Lakehouse vandaag!

Vind gespecialiseerde Data Engineers of plaats je vacature