Lokale AI voor het MKB: welke hardware en welk open-source model kiest u in 2026?

De stap van ChatGPT naar een eigen open-source model is goedkoper dan ooit — het beste apparaat kost €1.900. Maar moet u hem kopen? Een eerlijke koopgids: welk model, welke hardware, en of de rekensom klopt.

Het beste apparaat om een groot AI-model lokaal te draaien kost in 2026 ongeveer €1.900 — en hij komt niet van Apple of NVIDIA, maar van AMD. Of u dat apparaat ook moét kopen, is een heel andere vraag.

Daarmee is de toon gezet. De overstap van frontier-modellen (ChatGPT, Claude, Gemini) naar een open-source model op uw eigen hardware is goedkoper en makkelijker dan ooit. Maar de leverancier die u een kant-en-klare "AI-server" aanbiedt, slaat doorgaans drie ongemakkelijke vragen over: welk model, op welk apparaat, en of de rekensom eigenlijk wel klopt.

Deze gids beantwoordt precies die drie vragen — met prijzen van juni 2026, realistische snelheden en een eerlijke kostenanalyse. Het waarom van lokale AI (AVG, de EU AI Act, de Amerikaanse CLOUD Act en oplopende licentiekosten) werkten we apart uit in onze gids over soevereine AI. Dit artikel gaat puur over het hoe.

Let op: dit is een markt die wekelijks verschuift. Elke prijs, score en specificatie hieronder is een momentopname van juni 2026 — controleer de actuele cijfers vóór u iets aanschaft.

Eén concept dat alles bepaalt

Voor we naar modellen en hardware gaan, eerst één technisch idee dat de hele gids verklaart.

Geheugen bepaalt wát past, bandbreedte bepaalt hoe snel het gaat. Meer geheugen laat een groter model laden; hogere bandbreedte zorgt dat het antwoord er sneller uit komt. Dat is waarom een goedkoop AMD-apparaat met 128 GB een enorm model kan laden maar er traag op typt, terwijl een dure NVIDIA-kaart razendsnel is maar weinig kan vasthouden.

Onthoud die twee woorden — geheugen en bandbreedte — en de rest valt op zijn plek.

Welke modellen draait u? De cheat-sheet per budget

De kwaliteitskloof tussen open-source modellen en frontier-modellen is in 2026 geslonken tot ongeveer vier maanden (gemeten via de Epoch Capabilities Index). Voor het leeuwendeel van zakelijk werk — samenvatten, e-mails opstellen, documenten doorzoeken, klantvragen beantwoorden — is een goed open-source model ruim voldoende.

Welk model u kiest, hangt vooral af van hoeveel geheugen uw hardware heeft.

Model	Past op	Licentie	Sterk in	Nederlands
Mistral Small 3.2 (24B)	16 GB GPU	Apache 2.0	Allrounder, ook beeld	Ja, officieel
Qwen3-32B	24 GB GPU	Apache 2.0	Code, redeneren, RAG	Sterk
Gemma 3 (27B)	24 GB GPU	Gemma-licentie	Chat en taal	Beste open model
IBM Granite 4.1 (8–30B)	8–24 GB GPU	Apache 2.0	Documenten en RAG	Ja, officieel
gpt-oss-120b	80–96 GB	Apache 2.0	Zwaarste redeneren	Niet getest

Past op een 16 GB-kaart

Mistral Small 3.2 (24B) is de veiligste allrounder voor het MKB: Apache 2.0-licentie (vrij commercieel te gebruiken), officieel Nederlands, verwerkt ook afbeeldingen en is sterk in function-calling. Wie vooral wil redeneren of code genereren, kiest gpt-oss-20b — door OpenAI bewust gebouwd om in 16 GB te passen.

Past op een 24 GB-kaart (RTX 4090-klasse)

Qwen3-32B is hier de standaardkeuze: uitstekend in code, redeneren en RAG, met een schone Apache 2.0-licentie. Draait u vooral Nederlandstalige chat, dan is Gemma 3 27B het beste open model op de Nederlandse EuroEval-ranglijst. Voor documentverwerking specifiek is IBM Granite 4.1 gebouwd.

Past op 48–96 GB (Mac of dubbele kaart)

gpt-oss-120b is het zwaarste model dat hier nog draait — kwalitatief in de buurt van een frontier-model, en nog steeds Apache 2.0.

En de allerbeste open-source modellen?

De open-weight ranglijsten worden op dit moment aangevoerd door modellen die juist te groot zijn voor betaalbare lokale hardware. GLM-5.2 (van het Chinese Z.ai, ruim 700 miljard parameters, MIT-licentie) staat bovenaan op de Artificial Analysis-index, met DeepSeek V4 en Kimi K2.6 vlak erachter. Indrukwekkend — en het bewijs dat open-source de frontier op de hielen zit — maar zo'n model draait u niet op een apparaat van €1.900.

Wilt u dit kaliber? Dan huurt u een zware GPU of gebruikt u het model via een open-weight API. Voor échte lokale AI op eigen hardware blijven de modellen in de tabel hierboven de realistische keuze.

De Nederlandse les: kies géén speciaal Nederlands model

Dit is misschien de meest contra-intuïtieve bevinding. Voor Nederlands werk kiest u het beste een groot meertalig model, geen Nederlandse fine-tune. De Open Dutch LLM Leaderboard is opgeheven; het populaire Nederlandse model GEITje werd begin 2025 offline gehaald na juridische druk; en het soevereine GPT-NL heeft nog geen vrij beschikbare weights. Ondertussen staan algemene modellen als Gemma 3 en Mistral Small bovenaan op de Nederlandse benchmarks. Een klein meertalig model verslaat tegenwoordig een groter Nederlands-specifiek model.

Pas op met licenties

Niet elk "open" model mag u zakelijk gebruiken. Cohere Command is bijvoorbeeld non-commercieel — vermijd het voor lokaal bedrijfsgebruik. Gemma heeft een eigen licentie (prima voor de meeste bedrijven, maar een aandachtspunt in gereguleerde sectoren). Schoon en zorgeloos zijn: Qwen, Mistral, gpt-oss, Granite en EuroLLM. En houd er rekening mee dat er continu nieuwere versies verschijnen (Gemma 4, Qwen3.6) — de namen hierboven zijn de bewezen keuzes van nu.

De hardware: welk apparaat, welke prijs?

Mini-PC, desktop en laptop met GPU-chips naast elkaar als hardwarevergelijking

Hier ligt de echte beslissing. Er zijn grofweg vier kampen, en elk wint op iets anders: AMD op prijs, Apple op gemak, NVIDIA op snelheid, en de cloud op flexibiliteit.

Optie	Geheugen	Draait	Prijs	Gemak
AMD Strix Halo mini-PC (128 GB)	~96 GB bruikbaar	MoE tot 120B; 70B traag	€1.900–3.200	Redelijk (Windows of Linux)
NVIDIA DGX Spark (128 GB)	128 GB unified	MoE tot 120B; 70B zeer traag	±€4.300–5.200	Alleen Linux/ARM
Mac Studio M4 Max (64 GB)	64 GB	tot 70B	±€3.454	Werkt direct
Mac Studio M3 Ultra (96 GB)	96 GB (nu max)	70B en sneller	€4.849	Werkt direct
NVIDIA RTX 4090 (24 GB)	24 GB	tot 32B, snel	±€2.100	Redelijk
NVIDIA RTX 5090 (32 GB)	32 GB	tot 32B, sneller	±€3.900 (schaars)	Redelijk
EU-GPU huren (Hetzner)	20–96 GB	naar keuze	€184–889/mnd	Geen onderhoud

AMD: de meeste AI voor het minste geld

De AMD Ryzen AI Max+ 395 ("Strix Halo") in een mini-PC met 128 GB is dé prijsverrassing van 2026. Voor zo'n €1.900 draait hij modellen die op géén enkele losse consumenten-NVIDIA-kaart passen, zoals gpt-oss-120b. De catch is eerlijk: snel op moderne MoE-modellen, traag op klassieke 70B-modellen. Maar één groot pluspunt: dit is gewoon een normale Windows-pc (x86, net als elke Intel- of AMD-machine; Linux kan ook) — géén kale Linux-only appliance zoals NVIDIA's DGX Spark. De makkelijkste weg is LM Studio of Ollama met de Vulkan-backend; AMD positioneert de chip zelfs expliciet als "Windows AI PC", en met ROCm of Linux haalt u er nog wat extra snelheid uit. Topkeuze als budget en grote modellen zwaarder wegen dan turnkey gemak.

Apple: werkt gewoon

Een Mac Studio is de "het werkt meteen"-optie: stil, zuinig, geen driver-gedoe. Een M4 Max met 64 GB (±€3.454) draait een 70B-model op bruikbare snelheid. Let op: door een wereldwijde geheugenschaarste schrapte Apple in 2026 de grootste configuraties — de Mac Studio gaat nu tot maximaal 96 GB. Topkeuze voor wie geen technische rompslomp wil.

NVIDIA: het snelst, zolang het model past

Een RTX 4090 (24 GB, ±€2.100) of RTX 5090 (32 GB, ±€3.900 maar schaars) is veruit het snelst — en de enige route als u modellen wilt finetunen. Het nadeel is het geheugenplafond: een 70B-model past niet op één kaart. Topkeuze voor snelheid op modellen tot circa 32B en voor wie zelf traint.

En de NVIDIA DGX Spark?

De DGX Spark is NVIDIA's tegenhanger van de Strix Halo: óók 128 GB unified memory in een compacte machine, voor ongeveer €4.300–5.200. Twee dingen maken hem anders. Ten eerste is het een ARM-apparaat met DGX OS (Linux) — een CUDA-ontwikkelmachine, geen gewone Windows-pc. Ten tweede is de geheugenbandbreedte laag (~273 GB/s), waardoor grote dense modellen kruipen: een 70B haalt maar zo'n 3 tokens per seconde, al draaien MoE-modellen zoals gpt-oss-120b prima (~35 t/s). Sterk om CUDA-software op te ontwikkelen, zwak als snelle algemene AI-machine — voor de meeste MKB's is de Strix Halo of een Mac de logischer keuze.

De cloud: huren in plaats van kopen

De onderschatte optie. Hetzner verhuurt complete GPU-servers in Duitsland en Finland (ISO 27001-gecertificeerd, data blijft in de EU) vanaf €184 per maand voor een 20 GB-kaart tot €889 voor een 96 GB Blackwell-kaart. U krijgt datasoevereiniteit en open-source modellen zónder hardware te bezitten, af te schrijven of te beheren. Voor de meeste MKB's is dit het slimste startpunt. De allergrootste server-GPU's (zoals de H100) zijn voor het MKB overkill — huur die per uur als u ze echt nodig heeft.

Wilt u juist de goedkoopste instap voor één gebruiker? Een Mac Mini vanaf ±€599 draait kleinere modellen prima — die route beschrijven we in de soevereine-AI-gids.

Hoe snel typt zo'n model?

Snelheid is geen eigenschap van het model alleen, maar van de combinatie model × hardware × quantisatie × contextlengte. Dezelfde Qwen3-32B haalt op een RTX 5090 ruim 50 tokens per seconde, en op een AMD Strix Halo zo'n 12 à 15. Onderstaande tabel geeft realistische generatiesnelheden (tokens per seconde, Q4, korte context) voor de modelklassen uit deze gids.

Model	NVIDIA RTX 4090/5090	Mac Studio	AMD Strix Halo 128 GB
gpt-oss-20b (klein, MoE)	225–280 t/s	90–120 t/s	45–70 t/s
24–32B dense (Mistral, Qwen3, Gemma)	30–60 t/s	20–38 t/s	12–16 t/s
gpt-oss-120b (groot, MoE)	past niet	55–60 t/s	35–55 t/s
70B dense (klassiek groot)	past niet	13–20 t/s	~5 t/s

"Past niet" betekent: te groot voor één consumentenkaart (24–32 GB) — gpt-oss-120b heeft een ruime-geheugenmachine nodig (een Mac of Strix Halo met 96+ GB, of een werkstationkaart).

Ter referentie: een mens leest ongeveer 4 à 7 tokens per seconde. Vanaf ~10 t/s typt het model dus al sneller dan u leest, en vanaf 30 t/s voelt het direct. De praktische les: vrijwel elk model dat in het geheugen past, draait ruim snel genoeg — de echte uitzonderingen zijn de klassieke dense 70B-modellen en het naar de processor uitgeweken gpt-oss-120b. Let wel: bij lange documenten (veel context) halveert de snelheid al snel, soms meer.

Hoe draait u het? De tooling

De software is in 2026 geen DevOps-project van weken meer. In het kort:

Ollama — één commando, model draait. Ideaal voor één nieuwsgierige gebruiker.
LM Studio — grafische app om modellen uit te proberen zonder terminal.
llama.cpp en quantisatie — de motor eronder; onthoud alleen "Q4" als de standaardinstelling die een model halveert in geheugen met nauwelijks kwaliteitsverlies.
vLLM — voor wie een heel team tegelijk bedient; krachtig, maar vraagt een beheerder.
OpenWebUI — een ChatGPT-achtige interface voor uw team, met uw eigen model erachter.

De sweetspot voor een team zonder eigen IT'er: OpenWebUI bovenop een gehuurde EU-GPU. Privé interne chat, geen serverbeheer.

De eerlijke rekensom: loont het echt?

Weegschaal die cloudkosten afweegt tegen een eigen server met euromunten

Hier moeten we een populaire mythe doorprikken. De vuistregel "boven €500–700 per maand aan AI-kosten ga je over op eigen hardware" is te rooskleurig — hij negeert de twee grootste kostenposten.

Want stroom is niet het probleem. Een stevige GPU-machine die dag en nacht draait, kost bij het Nederlandse zakelijke tarief (±€0,26/kWh) zo'n €110 per maand aan elektriciteit. Een rekenfout in de marge.

De echte kosten zitten elders:

Arbeid. Een eigen opstelling vraagt onderhoud, updates en monitoring — al snel 10 tot 20 uur per maand. Dat is vaak meer dan de hele cloudrekening van een MKB.
Onbenutte capaciteit. Een dure kaart die maar 10% van de tijd werkt, kost per antwoord effectief tien keer zoveel. De meeste MKB-werklast is grillig: druk overdag, stil 's nachts.

Eerlijk samengevat: op pure kosten winnen cloud-API's of een gehuurde GPU in de overgrote meerderheid van de gevallen. Eigen hardware verdient zich vooral terug bij (1) een harde AVG- of datasoevereiniteitseis, of (2) een hoog, stabiel en planbaar volume dat de machine echt bezet houdt — bijvoorbeeld het nachtelijks verwerken van duizenden Nederlandse documenten.

De fout die in de praktijk het vaakst gemaakt wordt: eerst hardware kopen, daarna pas de rekensom maken.

Beslisboom: kopen, huren of in de cloud blijven?

Onze stelregel is simpel: huur voordat u koopt. Drie scenario's:

Blijf bij cloud-API's als uw volume laag of grillig is, u de allerbeste redenering nodig hebt, of niemand de opstelling kan beheren. Dit geldt voor de meeste kleinere MKB's.
Huur een EU-GPU (Hetzner of vergelijkbaar) als u gevoelige data binnen de EU wilt houden zonder hardware te bezitten. Vaak het verstandigste startpunt — u test de business case zonder €6.000 vooraf neer te leggen.
Koop eigen hardware alleen bij hoog, stabiel volume én als u het onderhoud accepteert. Begin dan klein: één apparaat, één afdeling, twee maanden ervaring.

Voor vrijwel iedereen is het eindplaatje hybride: gevoelig en bulkwerk lokaal of op een EU-GPU, en de moeilijkste 10–20% naar een frontier-API. Zo houdt u zowel uw datarisico als uw rekening in de hand. Welke cloud-licentie daarbij past, vergeleken we in ChatGPT Team vs Copilot vs Claude Team.

Tot slot

De overstap van frontier naar lokaal is in 2026 geen hobbyproject meer, maar ook geen automatische besparing. De hardware is betaalbaar, de modellen zijn goed genoeg en de tooling is een middag werk — maar of het loont, hangt af van uw volume, uw databehoefte en wie het beheert.

Begin daarom niet bij het apparaat, maar bij de vraag. En wilt u dat iemand die rekensom met u maakt — welk model, welke hardware, kopen of huren — dan denken we bij Datapad graag mee.

Klaar om de juiste keuze te maken? In een gratis strategiegesprek brengen we samen in kaart welk deel van uw AI-werk lokaal kan, wat dat realistisch kost, en of kopen of huren in uw situatie slimmer is.

Plan een gratis strategiegesprek →

Verder lezen: