Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1
Mijn eigen test van ollama model planning
Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.
Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM Performance: Benchmarks, Bottlenecks & Optimization.
Zoals op officiële website staat, heeft de nieuwe Ollama release Nieuwe model planning met
Maximaliseren van GPU-gebruik:
Ollama's nieuwe geheugenbeheer toewijst meer geheugen aan de GPU,
wat de tokengeneratie en verwerkingsnelheid verhoogt
en er worden enkele voorbeelden gegeven, bijvoorbeeld:
Lange context
GPU: 1x NVIDIA GeForce RTX 4090
Model: gemma3:12b
Contextlengte: 128k
Oud Nieuw
52.02 tokens/s tokengeneratiesnelheid 85.54 tokens/s tokengeneratiesnelheid
19.9GiB VRAM 21.4GiB VRAM
48⁄49 lagen geladen op GPU 49⁄49 lagen geladen op GPU
Hier test ik hoe het werkt op mijn PC. Mijn resultaten zijn zeer anders dan de officiële tests, ze zijn volledig tegengesteld. Ik heb een iets andere hardwareconfiguratie en heb verschillende modellen getest, maar de resultaten zijn geen enkele keer beter, en vaak slechter. Dit echo’s het bericht over Eerste tekenen van Ollama Enshittification.
Deze afbeelding komt uit het blogbericht op de Ollama-website.
TL;DR
Ik heb getest hoe de nieuwe versie van Ollama modellen plannen die niet passen in mijn 16 GB VRAM.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Ik heb ollama run <modelnaam> uitgevoerd, daarna een eenvoudige vraag zoals wie ben jij?, en in een aparte terminal heb ik de respons van ollama ps en nvidia-smi gecontroleerd. Alles vrij eenvoudig.
Alleen qwen3:30b-a3b toonde dezelfde CPU/GPU-verdeling, de andere drie modellen werden in de nieuwe versie meer op CPU aangewend. In mijn tests, tot mijn teleurstelling, is de nieuwe versie van Ollama erger, en deze resultaten zijn in tegenspraak met het bericht op de Ollama-blog.
Gedetailleerde vergelijking
| Model | Oude versie: VRAM toegewezen | Oude versie: CPU/GPU | Nieuwe versie: VRAM toegewezen | Nieuwe versie: CPU/GPU |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Teleurstellend.
Voor meer benchmarks, geheugentuning en prestatieadvies, zie onze LLM Performance: Benchmarks, Bottlenecks & Optimization hub.