Hoe alloceert Ollama VRAM voor modellen?

Ollama laadt modellagen in GPU VRAM wanneer dat mogelijk is. Nieuwere versies gebruiken een bijgewerkte planning die meer VRAM kan toewijzen om de GPU-gebruik te maximaliseren, maar bij sommige hardware en modellen kan de verdeling tussen CPU en GPU veranderen en niet altijd verbeteren.

Wat als een model niet past in mijn GPU VRAM?

Ollama kan sommige lagen naar de CPU verplaatsen en de rest op de GPU laten blijven. De verdeling tussen CPU en GPU hangt af van de beschikbare VRAM, de grootte van het model en de Ollama-versie. Meer CPU-verplaatsing betekent meestal langzamere inferentie.

Gebruikt de nieuwe model planning van Ollama meer VRAM?

In sommige opstellingen leidt de nieuwe planning tot meer toegewezen VRAM en houdt meer lagen op de GPU, wat het aantal tokens per seconde kan verhogen. Bij andere opstellingen (bijvoorbeeld 16 GB VRAM met grote modellen) kan het gedrag verschillen en kan er meer belasting op de CPU vallen.

Hoe kan ik de Ollama VRAM- en CPU/GPU-gebruik controleren?

Voer ollama ps uit voor per-model statistieken en nvidia-smi voor GPU-geheugen. Deze tonen de toegewezen VRAM en de verdeling van CPU- en GPU-lagen voor het uitgevoerde model.

Waar kan ik meer informatie vinden over LLM-prestaties en benchmarks?

Ons LLM Performance hub behandelt doorvoer versus latentie, VRAM-limieten, parallelle aanvragen en benchmarks over runtime-en hardware.

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

Mijn eigen test van ollama model planning

Inhoud

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.

Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM Performance: Benchmarks, Bottlenecks & Optimization.

Zoals op officiële website staat, heeft de nieuwe Ollama release Nieuwe model planning met

Maximaliseren van GPU-gebruik:
Ollama's nieuwe geheugenbeheer toewijst meer geheugen aan de GPU,
wat de tokengeneratie en verwerkingsnelheid verhoogt

en er worden enkele voorbeelden gegeven, bijvoorbeeld:

Lange context

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Contextlengte: 128k

Oud                                   Nieuw
52.02 tokens/s tokengeneratiesnelheid 85.54 tokens/s tokengeneratiesnelheid
19.9GiB VRAM                          21.4GiB VRAM
48⁄49 lagen geladen op GPU            49⁄49 lagen geladen op GPU

Hier test ik hoe het werkt op mijn PC. Mijn resultaten zijn zeer anders dan de officiële tests, ze zijn volledig tegengesteld. Ik heb een iets andere hardwareconfiguratie en heb verschillende modellen getest, maar de resultaten zijn geen enkele keer beter, en vaak slechter. Dit echo’s het bericht over Eerste tekenen van Ollama Enshittification.

ollama llamas Deze afbeelding komt uit het blogbericht op de Ollama-website.

TL;DR

Ik heb getest hoe de nieuwe versie van Ollama modellen plannen die niet passen in mijn 16 GB VRAM.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Ik heb ollama run <modelnaam> uitgevoerd, daarna een eenvoudige vraag zoals wie ben jij?, en in een aparte terminal heb ik de respons van ollama ps en nvidia-smi gecontroleerd. Alles vrij eenvoudig.

Alleen qwen3:30b-a3b toonde dezelfde CPU/GPU-verdeling, de andere drie modellen werden in de nieuwe versie meer op CPU aangewend. In mijn tests, tot mijn teleurstelling, is de nieuwe versie van Ollama erger, en deze resultaten zijn in tegenspraak met het bericht op de Ollama-blog.

Gedetailleerde vergelijking

Model	Oude versie: VRAM toegewezen	Oude versie: CPU/GPU	Nieuwe versie: VRAM toegewezen	Nieuwe versie: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Teleurstellend.

Voor meer benchmarks, geheugentuning en prestatieadvies, zie onze LLM Performance: Benchmarks, Bottlenecks & Optimization hub.

TL;DR

Gedetailleerde vergelijking

Nuttige links