Ebook · Hoofdstuk 7 van 10

Cloud Datawarehouses Vergeleken

Snowflake, BigQuery, Redshift en Microsoft Fabric / Synapse — vier platformen, vier architecturen, één keuze.

De cloud heeft het spel veranderd

22 min leestijd Beginner-Gevorderd

Tien jaar geleden kostte een serieus datawarehouse miljoenen aan hardware en licenties, met inkoopcycli van zes maanden. Vandaag tekent een startup een Snowflake-account op een dinsdagmiddag en draait nog dezelfde week productieworkloads. De cloud heeft drie dingen veranderd: storage en compute zijn los gekoppeld, schaal is elastisch, en betalen gaat per gebruik.

De vier grote spelers

Vier platforms domineren de moderne markt:

Snowflake

Snowflake's multi-cluster shared data architecture is fundamenteel anders dan klassieke MPP. Drie lagen:

Een typische Snowflake-warehouse opzet:

-- Klein warehouse voor BI dashboards
CREATE WAREHOUSE bi_wh
    WAREHOUSE_SIZE = 'X-SMALL'
    AUTO_SUSPEND   = 60                    -- pauzeer na 60 sec inactief
    AUTO_RESUME    = TRUE
    MIN_CLUSTER_COUNT = 1
    MAX_CLUSTER_COUNT = 4                  -- multi-cluster bij concurrency-pieken
    SCALING_POLICY = 'ECONOMY';

-- Groot warehouse voor zware ELT-jobs
CREATE WAREHOUSE etl_wh
    WAREHOUSE_SIZE = 'LARGE'
    AUTO_SUSPEND   = 300
    AUTO_RESUME    = TRUE;

Sterk in: ergonomie, multi-cloud, secure data sharing, time travel (queries op data van X dagen geleden zonder backups). Minder in: kosten lopen op zonder discipline, ML-tooling minder native dan Databricks.

Google BigQuery

BigQuery is volledig serverless: geen warehouses te kiezen, geen clusters te managen. Je betaalt voor data scanned (on-demand) of voor capaciteit in slots (flat-rate / editions).

-- Partitioning op datum + clustering op customer_id
CREATE TABLE retail.fact_sales (
  sales_id      INT64,
  date          DATE,
  customer_id   STRING,
  product_id    STRING,
  amount        NUMERIC
)
PARTITION BY date
CLUSTER BY customer_id;

-- BigQuery rekent alleen de gescande kolommen + partitions
SELECT customer_id, SUM(amount) AS revenue
FROM   retail.fact_sales
WHERE  date BETWEEN '2026-01-01' AND '2026-03-31'
GROUP  BY customer_id;

Het pricing model dwingt discipline af: een SELECT * zonder partition filter scant je hele tabel en rekent dat af. Je leert al snel om altijd partition filters mee te geven.

Sterk in: schaalbaarheid (PB-niveau), ML via BigQuery ML, native streaming via Pub/Sub, geo-spatial. Minder in: on-demand pricing kan onverwachts duur zijn, ecosystem buiten GCP minder ontwikkeld.

Amazon Redshift

Redshift is de oudste cloud-DWH (gelanceerd 2013). De moderne architectuur — RA3 nodes en Redshift Serverless — heeft de oude shared-nothing-MPP-architectuur grotendeels achter zich gelaten. Storage is nu losgekoppeld via Redshift Managed Storage (RMS).

-- Klassieke distribution + sort keys (relevant in provisioned mode)
CREATE TABLE fact_sales (
  sales_id      BIGINT,
  date          DATE,
  customer_id   INT,
  product_id    INT,
  amount        DECIMAL(12,2)
)
DISTKEY (customer_id)         -- co-locatie van rijen per klant
SORTKEY (date);                -- snelle range queries op datum

Sterk in: AWS-integratie, Spectrum (federated queries op S3), kostprijs in vol gebruik. Minder in: dist/sort keys vereisen meer werk dan andere platforms — al neutraliseert serverless dat grotendeels.

Microsoft Fabric en Azure Synapse

Microsoft heeft de afgelopen jaren stevig opnieuw gepositioneerd. Azure Synapse Analytics bestaat nog (dedicated SQL pools, serverless SQL pools), maar de strategische focus ligt op Microsoft Fabric — een SaaS-platform dat OneLake (Delta-formaat lakehouse), Data Factory, Synapse Engineering en Power BI bundelt onder één licentie.

-- Fabric Warehouse: T-SQL bovenop Delta in OneLake
CREATE TABLE fact_sales (
  sales_id      BIGINT,
  date          DATE,
  customer_id   INT,
  product_id    INT,
  amount        DECIMAL(12,2)
);

-- Synapse Serverless SQL Pool: query files in ADLS direct
SELECT TOP 100 *
FROM   OPENROWSET(
    BULK 'https://datalake.dfs.core.windows.net/raw/orders/*.parquet',
    FORMAT = 'PARQUET'
) AS r;

Sterk in: Power BI integratie (DirectLake), één capacity-licentie, ideaal voor Microsoft-stack organisaties. Minder in: jonger product (Fabric), feature gaps, multi-cloud niet aanwezig.

Vergelijkingstabel

Eigenschap Snowflake BigQuery Redshift Fabric / Synapse
CloudAWS / Azure / GCPGCP onlyAWS onlyAzure only
Compute modelVirtual warehousesServerless slotsProvisioned + ServerlessCapacity units
StorageEigen object storageColossusRMS (managed)OneLake (Delta)
PricingPer seconde computePer TB scanned of slotsPer node-hour of RPUPer CU-hour
Time travelTot 90 dagen7 dagenBackupsDelta time travel
Data sharingNative (Snowflake Marketplace)Analytics HubData SharingOneLake shortcuts
BI integratieUniverseelLooker (best)QuickSight (best)Power BI (DirectLake)
ML-nativeSnowpark MLBigQuery MLRedshift MLFabric Data Science

Kosten in de praktijk

Cloud DWH kosten komen ruwweg in drie categorieën:

Pricing-modellen vergeleken

PlatformPricing-modelVoordeelRisico
SnowflakePer seconde compute (warehouse-uur)Voorspelbaar bij gediscipllineerd auto-suspendIdle warehouses verbranden geld; ad-hoc queries op grote warehouses
BigQuery on-demandPer TB gescandBetalen alleen voor wat je leestEén SELECT * zonder partition filter kan honderden euro's kosten
BigQuery editionsSlot-based (flat-rate)Voorspelbaar bij stabiele workloadsBij spikes kun je op slot-tekort lopen
Redshift RA3Per node-uur (provisioned)Voorspelbaar bij 24/7 gebruikOnderbenutting straft niet automatisch terug
Redshift ServerlessPer RPU-secondeGeen idle-kostenCold start latency, monitoring lastiger
FabricCapacity Units (F-SKU)Eén licentie voor heel het platformThrottling bij overschrijding capacity

Een rekenvoorbeeld voor een mid-size mkb

Stel: 5 TB analytische data, dagelijkse ELT van 4 uur, 50 Power BI-gebruikers met 2 uur dashboard-traffic per dag. Indicatieve kosten per maand:

Disclaimer: dit zijn ruwe schattingen. Echte kosten hangen af van regio, kortingen, query-discipline en groei. Maar de orde van grootte ligt vrij dicht bij elkaar — de keuze maak je zelden op puur op prijs.

Reken altijd op je eigen data

Benchmarks van vendors zijn cherry-picked. Doe een eigen Proof-of-Concept met je echte queries op je echte data. De winnaar in een POC is bijna nooit de winnaar van de marketing-slide.

Hoe kies je?

Een pragmatische beslissingsboom:

  1. Microsoft-stack (Power BI, Azure)? → Fabric. Bijna altijd het juiste antwoord puur op TCO en ergonomie.
  2. Volledig in GCP? → BigQuery. Geen reden om buiten GCP te kijken.
  3. AWS-only en al Redshift in productie? → Redshift Serverless als upgrade-pad.
  4. Multi-cloud, vrijheid belangrijk, toekomstbestendig? → Snowflake.
  5. Veel ML naast BI, semi-structured data dominant? → Snowflake of Databricks (lakehouse).

Multi-cloud strategie

Multi-cloud klinkt strategisch maar is duur. Twee patronen die wel werken:

Vermijd "multi-cloud voor de zekerheid" — dat verdubbelt je operationele complexiteit zonder meetbaar voordeel.

Data sharing zonder kopiëren

Een sterke trend: data delen met externe partijen zonder fysiek te kopiëren. Elk platform heeft daar inmiddels een antwoord op:

Dit verandert hoe organisaties data uitwisselen met partners, leveranciers en klanten. Een leverancier die dagelijkse voorraad publiceert, een marketingbureau dat campagne-resultaten deelt, een bank die geanonimiseerde benchmark-data aanbiedt — allemaal zonder het ETL-circus dat dit tien jaar geleden zou hebben gevergd.

Security en compliance op cloud DWH

Vier security-bouwstenen die je op elk platform tegenkomt:

Voor Nederlandse organisaties speelt data residency vaak een rol. Snowflake heeft regio's in West Europe en Amsterdam; BigQuery heeft europe-west4 (Eemshaven); Fabric draait op Azure Netherlands. Selecteer bewust en documenteer dit voor je DPIA.

De lakehouse-trend

De grenzen vervagen. Snowflake leest Iceberg / Delta direct, Fabric heeft OneLake, BigQuery heeft BigLake. De keuze "DWH of lakehouse" wordt minder relevant — je kunt steeds vaker Delta- of Iceberg-tabellen vanuit elke engine queryen. Voor data-engineers betekent dit: kies een open table format (Delta, Iceberg) en je opties blijven open.

Key takeaways

  • De vier grote platforms zijn allemaal volwassen — er is geen "verkeerd" antwoord.
  • Cloud-keuze (AWS / Azure / GCP) is meestal de eerste filter.
  • Snowflake voor multi-cloud en ergonomie; Fabric voor Microsoft-shops; BigQuery voor GCP; Redshift bij bestaand AWS-investment.
  • Doe POC's met eigen data — vendor benchmarks zijn niet representatief.
  • Open table formats (Delta, Iceberg) verminderen vendor lock-in.
  • Multi-cloud kost dubbel; gebruik het alleen met goede reden.

Veelgestelde vragen

Wat is het beste cloud datawarehouse in 2026?

Er is geen universeel 'beste' — de juiste keuze hangt af van je cloud-stack en use case. Microsoft-omgeving met Power BI: Fabric. GCP: BigQuery. AWS-only met bestaande investering: Redshift Serverless. Multi-cloud of strategische vrijheid: Snowflake. Doe altijd een POC met je eigen data.

Wat is het verschil tussen Snowflake en BigQuery?

Snowflake gebruikt virtual warehouses die je expliciet start, stopt en schaalt. BigQuery is volledig serverless met slot-based of on-demand pricing. Snowflake werkt op AWS, Azure én GCP; BigQuery alleen in GCP. Voor multi-cloud strategieën is Snowflake de logische keuze.

Wat is Microsoft Fabric en hoe verhoudt het zich tot Synapse?

Microsoft Fabric is het strategische SaaS-platform dat OneLake (Delta), Data Factory, Synapse Engineering en Power BI bundelt onder één capacity-licentie. Synapse bestaat nog, maar nieuwe investeringen gaan naar Fabric. Voor Microsoft-stack organisaties is Fabric meestal de juiste vervolgstap.

Wat kost een cloud datawarehouse?

Storage rond 20-25 dollar per TB per maand. Compute varieert sterk per gebruiksmodel. Een mid-size mkb met dagelijkse ELT en Power BI dashboards zit doorgaans op 1.500-5.000 euro per maand, ongeacht het gekozen platform.

Wat is het verschil tussen een datawarehouse en een lakehouse?

Een datawarehouse is geoptimaliseerd voor gestructureerde, analytische workloads met ACID-garanties. Een lakehouse combineert data lake-flexibiliteit (open formats als Delta of Iceberg, ML-tooling) met DWH-functionaliteit. De grenzen vervagen — Snowflake leest Iceberg, Fabric draait op Delta.

Moet ik kiezen tussen Snowflake en Databricks?

Snowflake is gestroomlijnder voor BI en analytische rapportages; Databricks is krachtiger voor ML, streaming en data engineering met Spark. Veel grote organisaties gebruiken beide — Databricks voor silver-engineering en ML, Snowflake voor de gold-laag en BI.