Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet
Ollama auf Intel CPU: Effiziente vs. Leistungscores
Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt
Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.
Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.
Um präzise zu sein
ollama ps
zeigt
gemma3:27b a418f5838eaf 22 GB 29%/71% CPU/GPU
Obwohl es nicht schlimm aussieht, ist es die Schicht, die geteilt wird. Die tatsächliche Last ist: GPU: 28%, CPU: 560%. Ja, mehrere Kerne werden genutzt.

Und hier ist eine Idee:
Was, wenn wir Ollama dazu bringen, alle Intel-CPU-Kerne zu nutzen – sowohl die der Leistung als auch die der Effizienz?
OLLAMA_NUM_THREADS-Konfigurationsparameter
Ollama hat eine Umgebungsvariable OLLAMA_NUM_THREADS, die Ollama mitteilen soll, wie viele Threads und Kerne entsprechend genutzt werden sollen.
Zuerst habe ich es versucht, auf 3 Kerne zu beschränken:
sudo xed /etc/systemd/system/ollama.service
# Füge OLLAMA_NUM_THREADS=3 hinzu als
# Environment="OLLAMA_NUM_THREADS=3"
sudo systemctl daemon-reload
sudo systemctl restart ollama
Aber es hat nicht funktioniert.
Ollama nutzte immer noch ca. 560 % der CPU, wenn Gemma 3 27B LLM läuft.
Pech.
num_thread-Call-Option
Lassen Sie uns versuchen, folgenden Befehl auszuführen:
curl http://localhost:11434/api/generate -d '
{
"model": "gemma3:27b",
"prompt": "Warum ist der Himmel blau?",
"stream": false,
"options":{
"num_thread": 8
}
}' | jq .
Das Ergebnis:
- CPU-Nutzung: 585%
- GPU-Nutzung: 25%
- GPU-Leistung: 67 W
- Leistungsbewertung: 6,5 Token/s
Nun versuchen wir, die Kerne zu verdoppeln. Wir sagen Ollama, dass es eine Mischung aus Leistungs- und effizienten Kernen nutzen soll:
curl http://localhost:11434/api/generate -d '
{
"model": "gemma3:27b",
"prompt": "Warum ist der Himmel blau?",
"stream": false,
"options":{
"num_thread": 16
}
}' | jq .
Das Ergebnis:
- CPU-Nutzung: 1030%
- GPU-Nutzung: 26%
- GPU-Leistung: 70 W
- Leistungsbewertung: 7,4 t/s
Gut! Die Leistung stieg um ca. 14 %!
Nun gehen wir extrem! Alle physischen Kerne werden genutzt!
curl http://localhost:11434/api/generate -d '
{
"model": "gemma3:27b",
"prompt": "Warum ist der Himmel blau?",
"stream": false,
"options":{
"num_thread": 20
}
}' | jq .
Das Ergebnis:
- CPU-Nutzung: 1250%
- GPU-Nutzung: 10–26 % (instabil)
- GPU-Leistung: 67 W
- Leistungsbewertung: 6,9 t/s
Okay. Jetzt sehen wir einen Leistungsverlust. Versuchen wir, 8 Leistungs- + 4 effiziente Kerne zu nutzen:
curl http://localhost:11434/api/generate -d '
{
"model": "gemma3:27b",
"prompt": "Warum ist der Himmel blau?",
"stream": false,
"options":{
"num_thread": 12
}
}' | jq .
Das Ergebnis:
- CPU-Nutzung: 801%
- GPU-Nutzung: 27 % (instabil)
- GPU-Leistung: 70 W
- Leistungsbewertung: 7,1 t/s
Hier und da.
Zum Vergleich – Gemma 3 14b ist weniger intelligent als Gemma 27b, passt aber besser in die GPU-VRAM.
curl http://localhost:11434/api/generate -d '
{
"model": "gemma3:12b-it-qat",
"prompt": "Warum ist der Himmel blau?",
"stream": false
}' | jq .
Das Ergebnis:
- CPU-Nutzung: 106%
- GPU-Nutzung: 94 % (instabil)
- GPU-Leistung: 225 W
- Leistungsbewertung: 61,1 t/s
Das nennen wir Leistung. Obwohl Gemma 3 27b intelligenter als 14b ist, ist sie nicht zehnmal intelligenter!
Schlussfolgerung
Wenn ein LLM nicht in die GPU-VRAM passt und einige Schichten von Ollama auf die CPU ausgelagert werden
- Können wir die LLM-Leistung um 10–14 % erhöhen, indem wir den
num_thread-Parameter bereitstellen - Der Leistungsverlust durch die Auslagerung ist viel höher und wird nicht durch diese Erhöhung ausgeglichen.
- Besser eine leistungsstärkere GPU mit mehr VRAM haben. Der RTX 3090 ist besser als der RTX 5080, obwohl ich keine davon habe…
Für weitere Benchmarks, CPU/GPU-Optimierung und Leitfaden zur Leistung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrum.