Hoofdstuk 7: Cloud Datawarehouses Vergeleken

Q: Wat kost een cloud datawarehouse?

Kosten vallen in drie categorieën: storage (typisch 20-25 dollar per TB per maand, vergelijkbaar over platforms), compute (sterk afhankelijk van gebruiksmodel — Snowflake X-Small rond 2 dollar per uur, BigQuery on-demand 5 dollar per TB scanned) en egress (data eruit halen). Een mid-size mkb met dagelijkse ELT en Power BI dashboards zit doorgaans op 1.500-5.000 euro per maand.

Q: Moet ik kiezen tussen Snowflake en Databricks?

Voor pure BI en analytische rapportages is Snowflake gestroomlijnder; voor ML-zware workloads, streaming en data engineering met Spark is Databricks krachtiger. Veel grote organisaties gebruiken beide — Databricks voor silver-engineering en ML, Snowflake voor de gold-laag en BI. Met open table formats (Delta, Iceberg) hoeft het geen of/of-keuze meer te zijn.

Ebook · Hoofdstuk 7 van 10

Cloud Datawarehouses Vergeleken

Snowflake, BigQuery, Redshift en Microsoft Fabric / Synapse — vier platformen, vier architecturen, één keuze.

De cloud heeft het spel veranderd

22 min leestijd Beginner-Gevorderd

Tien jaar geleden kostte een serieus datawarehouse miljoenen aan hardware en licenties, met inkoopcycli van zes maanden. Vandaag tekent een startup een Snowflake-account op een dinsdagmiddag en draait nog dezelfde week productieworkloads. De cloud heeft drie dingen veranderd: storage en compute zijn los gekoppeld, schaal is elastisch, en betalen gaat per gebruik.

De vier grote spelers

Vier platforms domineren de moderne markt:

Snowflake — multi-cloud, marktleider qua mindshare. Scheidt storage en compute strikt.
Google BigQuery — serverless, slot-based, sterk geïntegreerd in GCP.
Amazon Redshift — oudgediende, RA3-instances en serverless varianten.
Microsoft Fabric / Azure Synapse — Microsoft's antwoord, geïntegreerd met Power BI en het Microsoft-ecosysteem.

Snowflake

Snowflake's multi-cluster shared data architecture is fundamenteel anders dan klassieke MPP. Drie lagen:

Storage layer — micro-partitions van 50-500MB op cloud object storage (S3, ADLS, GCS), columnar-formatted en gecomprimeerd.
Compute layer — virtual warehouses (clusters van VM's) die je naar believen aan- en uitzet. Meerdere warehouses kunnen dezelfde data tegelijk lezen zonder elkaar te hinderen.
Cloud services layer — metadata, query parsing, transactiebeheer, security.

Een typische Snowflake-warehouse opzet:

-- Klein warehouse voor BI dashboards
CREATE WAREHOUSE bi_wh
    WAREHOUSE_SIZE = 'X-SMALL'
    AUTO_SUSPEND   = 60                    -- pauzeer na 60 sec inactief
    AUTO_RESUME    = TRUE
    MIN_CLUSTER_COUNT = 1
    MAX_CLUSTER_COUNT = 4                  -- multi-cluster bij concurrency-pieken
    SCALING_POLICY = 'ECONOMY';

-- Groot warehouse voor zware ELT-jobs
CREATE WAREHOUSE etl_wh
    WAREHOUSE_SIZE = 'LARGE'
    AUTO_SUSPEND   = 300
    AUTO_RESUME    = TRUE;

Sterk in: ergonomie, multi-cloud, secure data sharing, time travel (queries op data van X dagen geleden zonder backups). Minder in: kosten lopen op zonder discipline, ML-tooling minder native dan Databricks.

Google BigQuery

BigQuery is volledig serverless: geen warehouses te kiezen, geen clusters te managen. Je betaalt voor data scanned (on-demand) of voor capaciteit in slots (flat-rate / editions).

-- Partitioning op datum + clustering op customer_id
CREATE TABLE retail.fact_sales (
  sales_id      INT64,
  date          DATE,
  customer_id   STRING,
  product_id    STRING,
  amount        NUMERIC
)
PARTITION BY date
CLUSTER BY customer_id;

-- BigQuery rekent alleen de gescande kolommen + partitions
SELECT customer_id, SUM(amount) AS revenue
FROM   retail.fact_sales
WHERE  date BETWEEN '2026-01-01' AND '2026-03-31'
GROUP  BY customer_id;

Het pricing model dwingt discipline af: een SELECT * zonder partition filter scant je hele tabel en rekent dat af. Je leert al snel om altijd partition filters mee te geven.

Sterk in: schaalbaarheid (PB-niveau), ML via BigQuery ML, native streaming via Pub/Sub, geo-spatial. Minder in: on-demand pricing kan onverwachts duur zijn, ecosystem buiten GCP minder ontwikkeld.

Amazon Redshift

Redshift is de oudste cloud-DWH (gelanceerd 2013). De moderne architectuur — RA3 nodes en Redshift Serverless — heeft de oude shared-nothing-MPP-architectuur grotendeels achter zich gelaten. Storage is nu losgekoppeld via Redshift Managed Storage (RMS).

-- Klassieke distribution + sort keys (relevant in provisioned mode)
CREATE TABLE fact_sales (
  sales_id      BIGINT,
  date          DATE,
  customer_id   INT,
  product_id    INT,
  amount        DECIMAL(12,2)
)
DISTKEY (customer_id)         -- co-locatie van rijen per klant
SORTKEY (date);                -- snelle range queries op datum

Sterk in: AWS-integratie, Spectrum (federated queries op S3), kostprijs in vol gebruik. Minder in: dist/sort keys vereisen meer werk dan andere platforms — al neutraliseert serverless dat grotendeels.

Microsoft Fabric en Azure Synapse

Microsoft heeft de afgelopen jaren stevig opnieuw gepositioneerd. Azure Synapse Analytics bestaat nog (dedicated SQL pools, serverless SQL pools), maar de strategische focus ligt op Microsoft Fabric — een SaaS-platform dat OneLake (Delta-formaat lakehouse), Data Factory, Synapse Engineering en Power BI bundelt onder één licentie.

-- Fabric Warehouse: T-SQL bovenop Delta in OneLake
CREATE TABLE fact_sales (
  sales_id      BIGINT,
  date          DATE,
  customer_id   INT,
  product_id    INT,
  amount        DECIMAL(12,2)
);

-- Synapse Serverless SQL Pool: query files in ADLS direct
SELECT TOP 100 *
FROM   OPENROWSET(
    BULK 'https://datalake.dfs.core.windows.net/raw/orders/*.parquet',
    FORMAT = 'PARQUET'
) AS r;

Sterk in: Power BI integratie (DirectLake), één capacity-licentie, ideaal voor Microsoft-stack organisaties. Minder in: jonger product (Fabric), feature gaps, multi-cloud niet aanwezig.

Vergelijkingstabel

Eigenschap	Snowflake	BigQuery	Redshift	Fabric / Synapse
Cloud	AWS / Azure / GCP	GCP only	AWS only	Azure only
Compute model	Virtual warehouses	Serverless slots	Provisioned + Serverless	Capacity units
Storage	Eigen object storage	Colossus	RMS (managed)	OneLake (Delta)
Pricing	Per seconde compute	Per TB scanned of slots	Per node-hour of RPU	Per CU-hour
Time travel	Tot 90 dagen	7 dagen	Backups	Delta time travel
Data sharing	Native (Snowflake Marketplace)	Analytics Hub	Data Sharing	OneLake shortcuts
BI integratie	Universeel	Looker (best)	QuickSight (best)	Power BI (DirectLake)
ML-native	Snowpark ML	BigQuery ML	Redshift ML	Fabric Data Science

Kosten in de praktijk

Cloud DWH kosten komen ruwweg in drie categorieën:

Storage — typisch $20-25/TB/maand, vergelijkbaar over platforms.
Compute — varieert sterk per platform en gebruiksmodel. Bij Snowflake X-Small ~$2/uur, BigQuery on-demand ~$5/TB scanned.
Egress — data eruit halen kan een verrassing zijn. Houd hier rekening mee bij multi-cloud.

Pricing-modellen vergeleken

Platform	Pricing-model	Voordeel	Risico
Snowflake	Per seconde compute (warehouse-uur)	Voorspelbaar bij gediscipllineerd auto-suspend	Idle warehouses verbranden geld; ad-hoc queries op grote warehouses
BigQuery on-demand	Per TB gescand	Betalen alleen voor wat je leest	Eén SELECT * zonder partition filter kan honderden euro's kosten
BigQuery editions	Slot-based (flat-rate)	Voorspelbaar bij stabiele workloads	Bij spikes kun je op slot-tekort lopen
Redshift RA3	Per node-uur (provisioned)	Voorspelbaar bij 24/7 gebruik	Onderbenutting straft niet automatisch terug
Redshift Serverless	Per RPU-seconde	Geen idle-kosten	Cold start latency, monitoring lastiger
Fabric	Capacity Units (F-SKU)	Eén licentie voor heel het platform	Throttling bij overschrijding capacity

Een rekenvoorbeeld voor een mid-size mkb

Stel: 5 TB analytische data, dagelijkse ELT van 4 uur, 50 Power BI-gebruikers met 2 uur dashboard-traffic per dag. Indicatieve kosten per maand:

Snowflake — storage 100 dollar, ELT op M-warehouse (4×30×16 ≈ 2.000 dollar), BI op XS multi-cluster (~600 dollar) = circa 2.700 dollar.
BigQuery edition Enterprise — storage 100 dollar, 100 slots autoscale ≈ 2.500 dollar = circa 2.600 dollar.
Redshift Serverless — storage 100 dollar, ELT en queries op 32 base RPUs ≈ 2.200 dollar = circa 2.300 dollar.
Microsoft Fabric F32 — alles inbegrepen onder één capacity ≈ 2.800 dollar (inclusief Power BI Pro-equivalent voor BI-gebruikers).

Disclaimer: dit zijn ruwe schattingen. Echte kosten hangen af van regio, kortingen, query-discipline en groei. Maar de orde van grootte ligt vrij dicht bij elkaar — de keuze maak je zelden op puur op prijs.

Reken altijd op je eigen data

Benchmarks van vendors zijn cherry-picked. Doe een eigen Proof-of-Concept met je echte queries op je echte data. De winnaar in een POC is bijna nooit de winnaar van de marketing-slide.

Hoe kies je?

Een pragmatische beslissingsboom:

Microsoft-stack (Power BI, Azure)? → Fabric. Bijna altijd het juiste antwoord puur op TCO en ergonomie.
Volledig in GCP? → BigQuery. Geen reden om buiten GCP te kijken.
AWS-only en al Redshift in productie? → Redshift Serverless als upgrade-pad.
Multi-cloud, vrijheid belangrijk, toekomstbestendig? → Snowflake.
Veel ML naast BI, semi-structured data dominant? → Snowflake of Databricks (lakehouse).

Multi-cloud strategie

Multi-cloud klinkt strategisch maar is duur. Twee patronen die wel werken:

Disaster recovery — Snowflake-account in tweede cloud, replicatie via Snowflake's eigen replication.
Acquisition / merger — overgenomen bedrijf draait in andere cloud, integreer pragmatisch via federated queries of Iceberg / OneLake shortcuts.

Vermijd "multi-cloud voor de zekerheid" — dat verdubbelt je operationele complexiteit zonder meetbaar voordeel.

Data sharing zonder kopiëren

Een sterke trend: data delen met externe partijen zonder fysiek te kopiëren. Elk platform heeft daar inmiddels een antwoord op:

Snowflake Secure Data Sharing — verleen leesrechten op een database aan een ander Snowflake-account. Geen kopie, geen ETL, real-time. Snowflake Marketplace voor publieke datasets.
BigQuery Analytics Hub — vergelijkbaar concept binnen GCP, met linked datasets en publishing-controles voor data providers.
Microsoft Fabric OneLake shortcuts — virtuele referenties naar data in andere workspaces of zelfs externe ADLS-accounts. Eén kopie, meerdere lezers.
Databricks Delta Sharing — open protocol over Delta-tabellen, werkt cross-platform en niet alleen binnen Databricks.

Dit verandert hoe organisaties data uitwisselen met partners, leveranciers en klanten. Een leverancier die dagelijkse voorraad publiceert, een marketingbureau dat campagne-resultaten deelt, een bank die geanonimiseerde benchmark-data aanbiedt — allemaal zonder het ETL-circus dat dit tien jaar geleden zou hebben gevergd.

Security en compliance op cloud DWH

Vier security-bouwstenen die je op elk platform tegenkomt:

Encryptie — at-rest en in-transit standaard aan; voor compliance-zwaardere trajecten gebruik je customer-managed keys (CMK) die je zelf beheert in een KMS / Key Vault.
Network isolation — Private Link / VPC-endpoints zorgen dat verkeer naar je warehouse niet over het publieke internet gaat. Verplicht voor de meeste enterprise compliance frameworks.
Row- en column-level security — Snowflake heeft row access policies, BigQuery row-level security via authorized views, Synapse/Fabric dynamic data masking. Cruciaal voor multi-tenant analytics en GDPR-toepassingen.
Audit logging — elke query, elke schema-wijziging, elke role-grant moet herleidbaar zijn. Vraag bij elke vendor naar retention en exportmogelijkheden naar je SIEM.

Voor Nederlandse organisaties speelt data residency vaak een rol. Snowflake heeft regio's in West Europe en Amsterdam; BigQuery heeft europe-west4 (Eemshaven); Fabric draait op Azure Netherlands. Selecteer bewust en documenteer dit voor je DPIA.

De lakehouse-trend

De grenzen vervagen. Snowflake leest Iceberg / Delta direct, Fabric heeft OneLake, BigQuery heeft BigLake. De keuze "DWH of lakehouse" wordt minder relevant — je kunt steeds vaker Delta- of Iceberg-tabellen vanuit elke engine queryen. Voor data-engineers betekent dit: kies een open table format (Delta, Iceberg) en je opties blijven open.

         Key takeaways
        De vier grote platforms zijn allemaal volwassen — er is geen "verkeerd" antwoord.
Cloud-keuze (AWS / Azure / GCP) is meestal de eerste filter.
Snowflake voor multi-cloud en ergonomie; Fabric voor Microsoft-shops; BigQuery voor GCP; Redshift bij bestaand AWS-investment.
Doe POC's met eigen data — vendor benchmarks zijn niet representatief.
Open table formats (Delta, Iceberg) verminderen vendor lock-in.
Multi-cloud kost dubbel; gebruik het alleen met goede reden.

      

Veelgestelde vragen

Wat is het beste cloud datawarehouse in 2026?

Er is geen universeel 'beste' — de juiste keuze hangt af van je cloud-stack en use case. Microsoft-omgeving met Power BI: Fabric. GCP: BigQuery. AWS-only met bestaande investering: Redshift Serverless. Multi-cloud of strategische vrijheid: Snowflake. Doe altijd een POC met je eigen data.

Wat is het verschil tussen Snowflake en BigQuery?

Snowflake gebruikt virtual warehouses die je expliciet start, stopt en schaalt. BigQuery is volledig serverless met slot-based of on-demand pricing. Snowflake werkt op AWS, Azure én GCP; BigQuery alleen in GCP. Voor multi-cloud strategieën is Snowflake de logische keuze.

Wat is Microsoft Fabric en hoe verhoudt het zich tot Synapse?

Microsoft Fabric is het strategische SaaS-platform dat OneLake (Delta), Data Factory, Synapse Engineering en Power BI bundelt onder één capacity-licentie. Synapse bestaat nog, maar nieuwe investeringen gaan naar Fabric. Voor Microsoft-stack organisaties is Fabric meestal de juiste vervolgstap.

Wat kost een cloud datawarehouse?

Storage rond 20-25 dollar per TB per maand. Compute varieert sterk per gebruiksmodel. Een mid-size mkb met dagelijkse ELT en Power BI dashboards zit doorgaans op 1.500-5.000 euro per maand, ongeacht het gekozen platform.

Wat is het verschil tussen een datawarehouse en een lakehouse?

Een datawarehouse is geoptimaliseerd voor gestructureerde, analytische workloads met ACID-garanties. Een lakehouse combineert data lake-flexibiliteit (open formats als Delta of Iceberg, ML-tooling) met DWH-functionaliteit. De grenzen vervagen — Snowflake leest Iceberg, Fabric draait op Delta.

Moet ik kiezen tussen Snowflake en Databricks?

Snowflake is gestroomlijnder voor BI en analytische rapportages; Databricks is krachtiger voor ML, streaming en data engineering met Spark. Veel grote organisaties gebruiken beide — Databricks voor silver-engineering en ML, Snowflake voor de gold-laag en BI.

Hoofdstuk 6 Inhoudsopgave Hoofdstuk 8: Performance