Vergelijking van LLM-prestaties op Ollama op een GPU met 16 GB VRAM
LLM-snelheidstest op RTX 4080 met 16 GB VRAM
Het lokaal uitvoeren van grote taalmodellen biedt privacy, offline functionaliteit en nul API-kosten. Deze benchmark laat precies zien wat men kan verwachten van 9 populaire LLMs op Ollama op een RTX 4080.
Met een GPU van 16 GB VRAM stond ik voor een constante keuze: grotere modellen met potentieel betere kwaliteit, of kleinere modellen met snellere inferentie. Voor meer informatie over LLM-prestaties—doorstroming versus latentie, VRAM-limieten, parallelle aanvragen en benchmarks over verschillende runtimes—zie LLM-prestaties: benchmarks, bottlenecks & optimalisatie.

TL;DR
Hieronder volgt de vergelijkings-tabel van LLM-prestaties op een RTX 4080 met 16 GB VRAM met Ollama 0.15.2:
| Model | RAM+VRAM Gebruikt | CPU/GPU Split | Tokens/sec |
|---|---|---|---|
| gpt-oss:20b | 14 GB | 100% GPU | 139.93 |
| ministral-3:14b | 13 GB | 100% GPU | 70.13 |
| qwen3:14b | 12 GB | 100% GPU | 61.85 |
| qwen3-vl:30b-a3b | 22 GB | 30%/70% | 50.99 |
| glm-4.7-flash | 21 GB | 27%/73% | 33.86 |
| nemotron-3-nano:30b | 25 GB | 38%/62% | 32.77 |
| devstral-small-2:24b | 19 GB | 18%/82% | 18.67 |
| mistral-small3.2:24b | 19 GB | 18%/82% | 18.51 |
| gpt-oss:120b | 66 GB | 78%/22% | 12.64 |
Belangrijk inzicht: Modellen die volledig in VRAM passen zijn dramatisch sneller. GPT-OSS 20B bereikt 139.93 tokens/sec, terwijl GPT-OSS 120B met zware CPU-offloading slechts 12.64 tokens/sec bereikt—een 11x snelheidsverschil.
Testhardware-instellingen
De benchmark werd uitgevoerd op het volgende systeem:
- GPU: NVIDIA RTX 4080 met 16 GB VRAM
- CPU: Intel Core i7-14700 (8 P-cores + 12 E-cores)
- RAM: 64 GB DDR5-6000
Dit vertegenwoordigt een veelvoorkomende hoge-eind consumentenconfiguratie voor lokale LLM-inferentie. De 16 GB VRAM is de cruciale beperking—het bepaalt welke modellen volledig op GPU lopen of CPU-offloading vereisen.
Het begrijpen van hoe Ollama Intel CPU-kernten gebruikt wordt belangrijk wanneer modellen de VRAM-limiet overschrijden, aangezien CPU-prestaties direct de snelheid van de offgeladen lagen beïnvloeden.
Doel van deze benchmark
Het primair doel was het meten van de inferentiesnelheid onder realistische omstandigheden. Ik wist al van ervaring dat Mistral Small 3.2 24B uitstekend is in taalkwaliteit terwijl Qwen3 14B betere instructievolgzaamheid biedt voor mijn specifieke toepassingen.
Deze benchmark beantwoordt de praktische vraag: Hoe snel kan elk model tekst genereren, en wat is de snelheidsvermindering bij het overschrijden van VRAM-limieten?
De testparameters waren:
- Contextgrootte: 19.000 tokens
- Prompt: “vergelijk weer en klimaat tussen hoofdsteden van Australië”
- Metriek: eval rate (tokens per seconde tijdens generatie)
Ollama-installatie en versie
Alle tests gebruikten Ollama-versie 0.15.2, de nieuwste release op het moment van testen. Voor een volledige verwijzing van Ollama-commands gebruikt in deze benchmark, zie de Ollama cheat sheet.
Om Ollama op Linux te installeren:
curl -fsSL https://ollama.com/install.sh | sh
Controleer de installatie:
ollama --version
Als je modellen op een andere schijf moet opslaan vanwege ruimtebeperkingen, bekijk dan hoe je Ollama-modellen naar een andere schijf verplaatst.
Geteste modellen
De volgende modellen zijn getest:
| Model | Parameters | Quantization | Notes |
|---|---|---|---|
| gpt-oss:20b | 20B | Q4_K_M | Snelst |
| gpt-oss:120b | 120B | Q4_K_M | Grootst getest |
| qwen3:14b | 14B | Q4_K_M | Beste instructievolgzaamheid |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | Vision-vaardig |
| ministral-3:14b | 14B | Q4_K_M | Efficiente Mistral-model |
| mistral-small3.2:24b | 24B | Q4_K_M | Sterke taalkwaliteit |
| devstral-small-2:24b | 24B | Q4_K_M | Code-gericht |
| glm-4.7-flash | 30B | Q4_K_M | Denkmodel |
| nemotron-3-nano:30b | 30B | Q4_K_M | NVIDIA’s aanbod |
Om een model te downloaden:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
Het begrijpen van CPU-offloading
Wanneer de geheugengebruik van een model de beschikbare VRAM overschrijdt, verdeelt Ollama automatisch modellagen tussen GPU en systeemgeheugen. Het resultaat toont dit als een percentageverdeling zoals “18%/82% CPU/GPU”.
Dit heeft enorme prestatie-implicaties. Elke token-generatie vereist gegevensoverdracht tussen CPU en GPU-geheugen—een knelpunt dat zich verergert met elke laag die wordt uitgeload naar de CPU.
Het patroon is duidelijk uit onze resultaten:
- 100% GPU-modellen: 61-140 tokens/sec
- 70-82% GPU-modellen: 19-51 tokens/sec
- 22% GPU (vooral CPU): 12,6 tokens/sec
Dit verklaart waarom een 20B-parametermodel in de praktijk 11 keer sneller kan zijn dan een 120B-model. Als je van plan bent meerdere gelijktijdige aanvragen te verwerken, wordt het essentieel om hoe Ollama parallelle aanvragen verwerkt te begrijpen voor capaciteitsplanning.
Gedetailleerde benchmarkresultaten
Modellen die 100% op GPU lopen
GPT-OSS 20B — De snelheidskampioen
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAAM GROOTTE VERWERKER CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
Met 139.93 tokens/sec is GPT-OSS 20B duidelijk de winnaar voor snelheidscritische toepassingen. Het gebruikt slechts 14 GB VRAM, waardoor er ruimte overblijft voor grotere contextvensters of andere GPU-werklasten.
Qwen3 14B — Uitstekende balans
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAAM GROOTTE VERWERKER CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
Qwen3 14B biedt in mijn ervaring de beste instructievolgzaamheid, met een comfortabele geheugengebruik van 12 GB. Op 61.85 tokens/sec is het voldoende responsief voor interactieve gebruik.
Voor ontwikkelaars die Qwen3 integreren in toepassingen, zie LLM-gestructureerde uitvoer met Ollama en Qwen3 voor het extraheren van gestructureerde JSON-uitvoer.
Ministral 3 14B — Snel en compact
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAAM GROOTTE VERWERKER CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
Mistral’s kleinere model levert 70.13 tokens/sec op terwijl het volledig in VRAM past. Een solide keuze wanneer je Mistral-familie kwaliteit nodig hebt op maximale snelheid.
Modellen die CPU-offloading vereisen
Qwen3-VL 30B — Beste gedeeltelijke offloadingprestatie
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAAM GROOTTE VERWERKER CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
Hoewel 30% van de lagen op CPU zijn, behoudt Qwen3-VL 50.99 tokens/sec—snelder dan sommige 100% GPU-modellen. De visuele vaardigheid voegt verscheidenheid toe voor multimodale taken.
Mistral Small 3.2 24B — Kwaliteit versus snelheid
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAAM GROOTTE VERWERKER CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2 biedt superieure taalkwaliteit maar betaalt een hoge prijs in snelheid. Op 18.51 tokens/sec voelt het duidelijk langzamer voor interactieve chat. Het is het waard voor taken waarbij kwaliteit belangrijker is dan latentie.
GLM 4.7 Flash — MoE-denkmodel
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAAM GROOTTE VERWERKER CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flash is een 30B-A3B Mixture of Experts model—30B totale parameters met slechts 3B actief per token. Als een “denk"model genereert het interne redenering voor antwoorden. De 33.86 tokens/sec bevat zowel denken als uitvoertokens. Hoewel CPU-offloading plaatsvindt, houdt de MoE-architectuur het redelijk snel.
GPT-OSS 120B — De zware hitter
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAAM GROOTTE VERWERKER CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
Het uitvoeren van een 120B-model op 16 GB VRAM is technisch mogelijk maar vervelend. Met 78% op CPU is de 12.64 tokens/sec frustrerend voor interactieve gebruik. Beter geschikt voor batchverwerking waarbij latentie niet uitmaakt.
Praktische aanbevelingen
Voor interactieve chat
Gebruik modellen die volledig in VRAM passen:
- GPT-OSS 20B — Maximaal snel (139.93 t/s)
- Ministral 3 14B — Goede snelheid met Mistral-kwaliteit (70.13 t/s)
- Qwen3 14B — Beste instructievolgzaamheid (61.85 t/s)
Voor een betere chat-ervaring, overweeg Open-source chat UIs voor lokale Ollama.
Voor batchverwerking
Wanneer snelheid minder belangrijk is:
- Mistral Small 3.2 24B — Superieure taalkwaliteit
- Qwen3-VL 30B — Visie + tekstvaardigheid
Voor ontwikkeling en coderen
Als je toepassingen bouwt met Ollama:
Alternatieve hostingopties
Als je zorgen hebt over de beperkingen van Ollama (zie Ollama enshittification zorgen), verkennen dan andere opties in de Lokale LLM-hostinggids of vergelijk Docker Model Runner versus Ollama.
Conclusie
Met 16 GB VRAM kun je krachtige LLMs uitvoeren met indrukwekkende snelheid—als je slim kiest. De belangrijkste bevindingen:
-
Blijf binnen de VRAM-limieten voor interactieve gebruik. Een 20B-model met 140 tokens/sec is beter dan een 120B-model met 12 tokens/sec voor de meeste praktische doeleinden.
-
GPT-OSS 20B wint op zuivere snelheid, maar Qwen3 14B biedt de beste balans van snelheid en vermogen voor instructievolgzaamheidstaken.
-
CPU-offloading werkt, maar verwacht 3-10x vertraging. Acceptabel voor batchverwerking, frustrerend voor chat.
-
Contextgrootte telt. De 19K context die hier wordt gebruikt verhoogt de VRAM-gebruik aanzienlijk. Verminder de context voor betere GPU-gebruik.
Voor AI-geïmplementeerde zoekopdrachten die lokale LLMs combineren met webresultaten, zie zelfhosten van Perplexica met Ollama.
Om meer benchmarks, VRAM- en doorstroomverhoudingen en prestatieoptimalisatie over Ollama en andere runtimes te verkennen, controleer onze LLM-prestaties: benchmarks, bottlenecks & optimalisatie hub.
Nuttige links
Interne bronnen
- Ollama cheat sheet: Meest nuttige Ollama-commands
- Hoe Ollama parallelle aanvragen verwerkt
- Hoe Ollama Intel CPU-prestatie- en efficiënte kernten gebruikt
- Lokale LLM-hosting: Compleet 2026 gids - Ollama, vLLM, LocalAI, Jan, LM Studio & Meer