Hoe gebruikt Ollama CPU-kernten wanneer het model niet past in de VRAM?

Ollama offloadeert enkele lagen naar de CPU. U kunt instellen hoeveel threads het gebruikt via de num_thread-optie in de API (bijvoorbeeld in de generate-aanvraag). Het gebruik van meer threads (bijvoorbeeld 16) kan ongeveer 10–14% meer tokens per seconde opleveren dan bij lage threadaantallen, maar te veel threads kan de prestaties negatief beïnvloeden.

Beperkt OLLAMA_NUM_THREADS de CPU-gebruik in Ollama?

OLLAMA_NUM_THREADS is een omgevingsvariabele die bedoeld is om het aantal threads te beperken. In sommige opstellingen wordt deze mogelijk niet gerespecteerd en kan Ollama nog steeds veel kernen gebruiken. De per-aanvraag optie num_thread in de API heeft vaak een duidelijker effect.

Wat is de beste num_thread-waarde voor de Ollama CPU-offload?

Het hangt af van je CPU. In tests met Intel-prestatie- en efficiëntiecursussen gaven waarden zoals 12–16 threads vaak de beste tokens per seconde voor uitgeloste lagen. Het gebruik van alle fysieke cores (bijvoorbeeld 20) kan soms de prestaties verlagen. Het is aanbevolen om per machine te optimaliseren.

Waarom is mijn Ollama-inferentie traag als het model de CPU gebruikt?

CPU-offload is veel trager dan volledige GPU-gebruik. Zelfs met meer threads is het verschil groot (bijvoorbeeld enkele cijfers versus tientallen tokens per seconde). Voor snellere inferentie gebruik dan een kleinere of gecomprimeerde model die past in de VRAM, of een GPU met meer VRAM.

Waar kan ik meer informatie vinden over LLM-prestaties en benchmarks?

Ons LLM Performance hub behandelt doorvoer versus latentie, VRAM-limieten, parallelle aanvragen en benchmarks over runtime-en hardware.

Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt

Ollama op Intel CPU: Efficiëntie versus prestatiescores

Inhoud

Ik heb een theorie om te testen - als we alle kernen op een Intel CPU gebruiken, zou dat de snelheid van LLMs verhogen? Het irriteert me dat de nieuwe gemma3 27 bit model (gemma3:27b, 17 GB op ollama) niet in de 16 GB VRAM van mijn GPU past en gedeeltelijk op de CPU draait.

Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM-prestaties: benchmarks, beperkingen en optimalisatie.

Om precies te zijn

ollama ps

toont

gemma3:27b    a418f5838eaf    22 GB    29%/71% CPU/GPU

Hoewel het er niet erg slecht uitziet, is het wel de lagen gesplitst. De werkelijke belasting is: GPU: 28%, CPU: 560%. Ja, meerdere kernen worden gebruikt.

Het portret van Llama en vliegende CPUs

En hier is een idee:

Wat als we ollama aanzetten om ALLE Intel CPU-kernen te gebruiken - zowel prestatie als efficiëntie soorten?

OLLAMA_NUM_THREADS configuratieparameter

Ollama heeft een omgevingsvariabele configuratieparameter OLLAMA_NUM_THREADS die ollama moet vertellen hoeveel threads en kernen het moet gebruiken.

Ik probeerde het eerst te beperken tot 3 kernen:

sudo xed /etc/systemd/system/ollama.service

# voeg OLLAMA_NUM_THREADS=3 toe als
# Environment="OLLAMA_NUM_THREADS=3"

sudo systemctl daemon-reload
sudo systemctl restart ollama

maar dat werkte niet.

Ollama gebruikte nog steeds ongeveer 560% van de CPU bij het uitvoeren van de Gemma 3 27B LLM.

Slechte geluk.

num_thread aanroepoptie

Laten we proberen

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Waarom is de blauwe lucht blauw?",  
"stream": false,
"options":{
  "num_thread": 8
}
}'  | jq .

Het resultaat:

CPU-gebruik: 585%
GPU-gebruik: 25%
GPU-kracht: 67w
Prestatieevaluatie: 6,5 tokens/sec

Laten we nu de kernen verdubbelen. Vertel ollama om een mix van prestatie- en efficiëntiekernen te gebruiken:

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Waarom is de blauwe lucht blauw?",  
"stream": false,
"options":{
  "num_thread": 16
}
}'  | jq .

Het resultaat:

CPU-gebruik: 1030%
GPU-gebruik: 26%
GPU-kracht: 70w
Prestatieevaluatie: 7,4 t/s

Goed! De prestaties zijn met ongeveer 14% gestegen!

Nu gaan we extreem! Alle fysieke kernen gebruiken!

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Waarom is de blauwe lucht blauw?",  
"stream": false,
"options":{
  "num_thread": 20
}
}'  | jq .

Het resultaat:

CPU-gebruik: 1250%
GPU-gebruik: 10-26% (onstabiel)
GPU-kracht: 67w
Prestatieevaluatie: 6,9 t/s

Goed. Nu zien we een lichte daling in prestaties. Laten we proberen 8 prestatie + 4 efficiëntie:

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Waarom is de blauwe lucht blauw?",  
"stream": false,
"options":{
  "num_thread": 12
}
}'  | jq .

Het resultaat:

CPU-gebruik: 801%
GPU-gebruik: 27% (onstabiel)
GPU-kracht: 70w
Prestatieevaluatie: 7,1 t/s

Hier en daar.

Voor vergelijking - Gemma 3 14b is minder slim dan Gemma 27b, maar past wel mooi in de GPU VRAM.

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:12b-it-qat",  
"prompt": "Waarom is de blauwe lucht blauw?",  
"stream": false
}'  | jq .

Het resultaat:

CPU-gebruik: 106%
GPU-gebruik: 94% (onstabiel)
GPU-kracht: 225w
Prestatieevaluatie: 61,1 t/s

Dat noemen we een prestatie. Hoewel Gemma 3 27b slimmer is dan 14b, is het niet tien keer zo slim!

Conclusie

Als de LLM niet in de GPU VRAM past en enkele lagen door Ollama op de CPU worden uitgelost

Kan de LLM-prestatie met 10-14% worden verhoogd door de num_thread parameter te geven
De prestatieverlies door het uitladen is veel groter en wordt niet gecompenseerd door deze toename.
Het is beter om een krachtiger GPU met meer VRAM te hebben. De RTX 3090 is beter dan de RTX 5080, hoewel ik geen van deze heb…

Voor meer benchmarks, CPU/GPU-aftuning en prestatiebegeleiding, controleer ons LLM-prestaties: benchmarks, beperkingen en optimalisatie hub.

OLLAMA_NUM_THREADS configuratieparameter

num_thread aanroepoptie

Conclusie

Nuttige links