Vergelijking: Qwen3:30b vs GPT-OSS:20b
Vergelijking van snelheid, parameters en prestaties van deze twee modellen
Hier is een vergelijking tussen Qwen3:30b en GPT-OSS:20b
met aandacht voor instructievolgzaamheid en prestatieparameters, specificaties en snelheid.
Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM-prestaties: benchmarks, beperkingen & optimalisatie.

Architectuur en parameters
| Kenmerk | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Totale parameters | 30,5 miljard | 21 miljard |
| Geactiveerde parameters | ~3,3 miljard | ~3,6 miljard |
| Aantal lagen | 48 | 24 |
| MoE-experts per laag | 128 (8 actief per token) | 32 (4 actief per token) |
| Aandachtmechanisme | Groepsgewijze query-aandacht (32Q /4KV) | Groepsgewijze meervoudige query-aandacht (64Q /8KV) |
| Contextvenster | 32.768 eigen; tot 262.144 uitgebreid | 128.000 tokens |
| Tokenizer | BPE-gebaseerd, 151.936 woordenboek | GPT-gebaseerd, ≈ 200k woordenboek |
Instructievolgzaamheid
- Qwen3:30b-instruct is geoptimaliseerd voor instructievolgzaamheid met sterke overeenstemming met menselijke voorkeuren. Het excelleert in creatief schrijven, rolspelen, meervoudige dialoog en meertalige instructievolgzaamheid. Deze variant is specifiek afgestemd op het bieden van meer natuurlijke, beheersbare en betrokken reacties die overeenkomen met gebruikersinstructies.
- GPT-OSS:20b ondersteunt instructievolgzaamheid, maar wordt in het algemeen iets minder goed beoordeeld dan Qwen3:30b-instruct op nuances van instructieafstemming. Het biedt vergelijkbare functieaanroepen, gestructureerde uitvoer en redeneingsmodi, maar kan achterblijven in dialoogovereenstemming en creatieve dialoog.
Prestaties en efficiëntie
- Qwen3:30b-instruct excelleert in wiskundige redenering, programmeren, complexe logische taken en meertalige scenario’s die 119 talen en dialecten omvatten. Zijn “denkmodus” biedt verbeterde redenering, maar leidt tot hogere geheugencosts.
- GPT-OSS:20b bereikt prestaties vergelijkbaar met OpenAI’s o3-mini model. Het gebruikt minder lagen, maar breder experts per laag en native MXFP4-quantisatie voor efficiënte inferentie op consumentenhardware met lagere geheugengebruik (~16 GB vs hoger voor Qwen3).
- GPT-OSS is ongeveer 33% geheugenefficiënter en sneller op bepaalde hardwareconfiguraties, vooral op consumentengpu’s, maar Qwen3 biedt vaak betere overeenstemming en redeneerdiepte, vooral op complexe toepassingen.
- Qwen3 heeft een langere uitgebreide contextlengteoptie (tot 262.144 tokens) vergeleken met GPT-OSS 128.000 tokens, wat taken met zeer lange contextbegrip gunstig is.
Gebruik aanbeveling
- Kies Qwen3:30b-instruct voor toepassingen die superieure instructievolgzaamheid, creatieve generatie, meertalige ondersteuning en complexe redenering vereisen.
- Kies GPT-OSS:20b als geheugenefficiëntie, inferentiesnelheid op consumentenhardware en competitieve basisprestaties met minder parameters de prioriteit zijn.
Deze vergelijking benadrukt Qwen3:30b-instruct als een dieper, krachtiger model met geavanceerde instructieafstemming, terwijl GPT-OSS:20b een compactere, efficiëntere alternatief biedt met competitieve prestaties op standaardbenchmarks.
Benchmarkcijfers die specifiek Qwen3:30b-instruct en GPT-OSS:20b vergelijken voor instructievolgzaamheid en belangrijke prestatieparameters (MMLU, LMEval, HumanEval) zijn niet direct beschikbaar in de zoekresultaten. Aan de hand van bestaande gepubliceerde meertalige en multitask benchmarkrapporten:
MMLU (Massive Multitask Language Understanding)
Moeilijk om details te vinden, alleen:
- Qwen3-seriemodellen, vooral op schaal van 30B en hoger, tonen sterke MMLU-scores die meestal boven 89% liggen, wat aangeeft dat ze zeer concurrentievere kennisbegrip en redeneercapaciteiten hebben over 57 diverse domeinen.
- GPT-OSS:20b presteert ook goed op MMLU-benchmarks, maar scoort meestal lager dan grotere Qwen-modellen vanwege een kleinere parameteraantal en minder nadruk op instructieafstemming.
LMEval (Language Model Evaluation Toolkit)
Niet veel details op dit moment:
- Qwen3-modellen tonen aanzienlijke verbetering in redenering en codegerelateerde taken binnen LMEval, met verbeterde scores op logica, wiskundige redenering en algemene capaciteiten.
- GPT-OSS:20b biedt robuuste basisprestaties op LMEval, maar ligt meestal achter Qwen3:30b-instruct op geavanceerde redenering en instructievolgzaamheidssubtaken.
HumanEval (Codegeneratiebenchmark)
Niet veel gegevens, alleen:
- Qwen3:30b-instruct toont sterke prestaties op meertalige codegeneratiebenchmarks zoals HumanEval-XL, met ondersteuning voor meer dan 20 programmeertalen en een superieure cross-linguale codegeneratiescore.
- GPT-OSS:20b, terwijl competitief, presteert iets minder goed dan Qwen3:30b-instruct in HumanEval-benchmarks, vooral in meertalige en meertalige programmeercontexten vanwege minder uitgebreide meertalentraining.
Samenvattingstabel (benaderende trends uit de literatuur):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Opmerkingen |
|---|---|---|---|
| MMLU Accuraatheid | ~89-91% | ~80-85% | Qwen3 sterker in brede kennis en redenering |
| LMEval Scores | Hoog, geavanceerde redenering & code | Gemiddeld, basisredenering | Qwen3 excelleert in wiskunde en logica |
| HumanEval | Hoog meertalige codegeneratieprestatie | Gemiddeld | Qwen3 beter in cross-linguale codegeneratie |
Indien exacte benchmarkcijfers nodig zijn, bieden gespecialiseerde meertalige grote schaalbenchmarks zoals P-MMEval en HumanEval-XL, verwezen in recente onderzoekspublicaties, gedetailleerde scores voor modellen inclusief Qwen3 en vergelijkbare GPT-OSS-varianten, maar deze zijn niet openbaar gestroomlijnd voor directe zij-voor-zij-scoreophaal op dit moment.
Snelheidsvergelijking Qwen3:30b en GPT-OSS:20b
Op mijn hardware (16 GB VRAM) krijg ik Qwen3:30b en GPT-OSS:20b draaien met 4000 context venster, en ze produceren:
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
En voor vergelijking heb ik ook qwen3:14b en gpt-oss:120b getest:
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Op langere contextvensters zal de snelheid trager zijn, bij qwen3:30b-a3b waarschijnlijk veel trager. Dat is weer op mijn pc. Technische details zijn genomen uit uitgebreide output en toegewezen geheugen is hieronder, commando’s om te proberen:
- ollama run qwen3:30b-a3b –verbose beschrijf het verschil tussen staatshoofdsteden in Australië
- ollama ps tonen geheugenallocatie op 4K context
qwen3:30b-a3b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minuten vanaf nu
totaal duur: 28,151133548s
laadduur: 1,980696196s
prompt eval tel: 16 token(s)
prompt eval duur: 162,58803ms
prompt eval snelheid: 98,41 tokens/s
eval tel: 1188 token(s)
eval duur: 26,007424856s
eval snelheid: 45,68 tokens/s
qwen3:30b-thinking
NAAM ID GROOTTE VERWERKER CONTEXT TOT
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minuten vanaf nu
totaal duur: 1m8,317354579s
laadduur: 1,984986882s
prompt eval tel: 18 token(s)
prompt eval duur: 219,657034ms
prompt eval snelheid: 81,95 tokens/s
eval tel: 2722 token(s)
eval duur: 1m6,11230524s
eval snelheid: 41,17 tokens/s
gpt-oss:20b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minuten vanaf nu
totaal duur: 31,505397616s
laadduur: 13,744361948s
prompt eval tel: 75 token(s)
prompt eval duur: 249,363069ms
prompt eval snelheid: 300,77 tokens/s
eval tel: 2268 token(s)
eval duur: 17,510262884s
eval snelheid: 129,52 tokens/s
qwen3:14b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minuten vanaf nu
totaal duur: 36,902729562s
laadduur: 38,669074ms
prompt eval tel: 18 token(s)
prompt eval duur: 35,321423ms
prompt eval snelheid: 509,61 tokens/s
eval tel: 2214 token(s)
eval duur: 36,828268069s
eval snelheid: 60,12 tokens/s
gpt-oss:120b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minuten vanaf nu
49 GB RAM + 14,4 GB VRAM
totaal duur: 3m59,967272019s
laadduur: 76,758783ms
prompt eval tel: 75 token(s)
prompt eval duur: 297,312854ms
prompt eval snelheid: 252,26 tokens/s
eval tel: 3084 token(s)
eval duur: 3m59,592764501s
eval snelheid: 12,87 tokens/s
Qwen3:30b varianten
Er zijn drie varianten van het qwen3:30b model beschikbaar: qwen3:30b, qwen3:30b-instruct en qwen3:30b-thinking.
Belangrijkste verschillen & aanbevelingen
- qwen3:30b-instruct is het beste voor gesprekken waarbij gebruikersinstructies, duidelijkheid en natuurlijke dialoog prioriteit hebben.
- qwen3:30b is de algemene basis, geschikt als zowel instructievolgzaamheid als toolgebruik belangrijk zijn over diverse taken.
- qwen3:30b-thinking excelleert wanneer diepe redenering, wiskunde en programmeren de hoofdfocus zijn. Het overtreft de anderen in taken die logisch/wiskundige strikteheid meten, maar is niet noodzakelijk beter voor creatief schrijven of informele gesprekken.
Directe Benchmarkvergelijking
| Model | Redenering (AIME25) | Programmeren (LiveCodeBench) | Algemene kennis (MMLU Redux) | Snelheid & context | Ideaal gebruikgeval |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K tokens; Snel | Algemene taal/agents/meertalig |
| qwen3:30b-instruct | Niet beschikbaar (gepland om dicht bij 30b te zijn) | Niet beschikbaar | ~Gelijk aan 30b | 256K tokens | Instructievolgzaamheid, overeenstemming |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K tokens | Wiskunde, code, redenering, lange documenten |
Voor meer benchmarks, hardwarekeuzes en prestatieoptimalisatie, controleer ons LLM-prestaties: benchmarks, beperkingen & optimalisatie hub.
Nuttige links
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Installeer en configureer Ollama
- Ollama cheat sheet - meest nuttige commando’s
- Beperk LLM’s met gestructureerde uitvoer: Ollama, Qwen3 & Python of Go
- Integreer Ollama met Python: REST API en Python-clientvoorbeelden