Wie nutzt Ollama CPU-Kerne, wenn das Modell nicht in die VRAM passt?

Ollama verlagert einige Schichten auf die CPU. Sie können festlegen, wie viele Threads verwendet werden, über die num_thread-Option in der API (z. B. in der Generate-Anfrage). Die Verwendung von mehr Threads (z. B. 16) kann eine Verbesserung von etwa 10–14 % bei den Token pro Sekunde im Vergleich zu niedrigen Thread-Zahlen ergeben, allerdings kann ein zu hoher Wert die Leistung beeinträchtigen.

Begrenzt OLLAMA_NUM_THREADS die CPU-Nutzung in Ollama?

OLLAMA_NUM_THREADS ist eine Umgebungsvariable, die dazu dient, die Anzahl der Threads zu begrenzen. In einigen Konfigurationen wird sie möglicherweise nicht berücksichtigt, und Ollama kann dennoch viele Kerne nutzen. Die num_thread-Option pro Anfrage in der API hat häufig einen deutlicheren Effekt.

Welcher num_thread-Wert ist für die CPU-Entlastung bei Ollama am besten geeignet?

Es hängt von Ihrer CPU ab. In Tests mit Intel-Performance- und effizienten Kernen ergaben sich oft die besten Token pro Sekunde für ausgelagerte Schichten bei Werten wie 12–16 Threads. Die Verwendung aller physischen Kerne (z. B. 20) reduzierte manchmal die Leistung. Eine Anpassung pro Maschine wird empfohlen.

Warum ist meine Ollama-Prädiktion langsam, wenn das Modell den CPU verwendet?

Die CPU-Entlastung ist viel langsamer als die vollständige GPU-Verarbeitung. Selbst mit mehr Threads ist der Unterschied groß (z. B. einstellige vs. zehntelangsame Token pro Sekunde). Für schnellere Inferenz verwenden Sie ein kleineres oder quantisiertes Modell, das in die VRAM passt, oder eine GPU mit mehr VRAM.

Wo kann ich mehr über die Leistung und Benchmarks von LLMs finden?

Unser LLM-Performance-Hub behandelt Durchsatz vs. Latenz, VRAM-Grenzen, parallelle Anfragen und Benchmarks über Laufzeiten und Hardware.

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Ollama auf Intel CPU: Effiziente vs. Leistungscores

Inhaltsverzeichnis

Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt

Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Um präzise zu sein

ollama ps

zeigt

gemma3:27b    a418f5838eaf    22 GB    29%/71% CPU/GPU

Obwohl es nicht schlimm aussieht, ist es die Schicht, die geteilt wird. Die tatsächliche Last ist: GPU: 28%, CPU: 560%. Ja, mehrere Kerne werden genutzt.

Das Portrait von Llama und fliegenden CPUs

Und hier ist eine Idee:

Was, wenn wir Ollama dazu bringen, alle Intel-CPU-Kerne zu nutzen – sowohl die der Leistung als auch die der Effizienz?

OLLAMA_NUM_THREADS-Konfigurationsparameter

Ollama hat eine Umgebungsvariable OLLAMA_NUM_THREADS, die Ollama mitteilen soll, wie viele Threads und Kerne entsprechend genutzt werden sollen.

Zuerst habe ich es versucht, auf 3 Kerne zu beschränken:

sudo xed /etc/systemd/system/ollama.service

# Füge OLLAMA_NUM_THREADS=3 hinzu als
# Environment="OLLAMA_NUM_THREADS=3"

sudo systemctl daemon-reload
sudo systemctl restart ollama

Aber es hat nicht funktioniert.

Ollama nutzte immer noch ca. 560 % der CPU, wenn Gemma 3 27B LLM läuft.

Pech.

num_thread-Call-Option

Lassen Sie uns versuchen, folgenden Befehl auszuführen:

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Warum ist der Himmel blau?",  
"stream": false,
"options":{
  "num_thread": 8
}
}'  | jq .

Das Ergebnis:

CPU-Nutzung: 585%
GPU-Nutzung: 25%
GPU-Leistung: 67 W
Leistungsbewertung: 6,5 Token/s

Nun versuchen wir, die Kerne zu verdoppeln. Wir sagen Ollama, dass es eine Mischung aus Leistungs- und effizienten Kernen nutzen soll:

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Warum ist der Himmel blau?",  
"stream": false,
"options":{
  "num_thread": 16
}
}'  | jq .

Das Ergebnis:

CPU-Nutzung: 1030%
GPU-Nutzung: 26%
GPU-Leistung: 70 W
Leistungsbewertung: 7,4 t/s

Gut! Die Leistung stieg um ca. 14 %!

Nun gehen wir extrem! Alle physischen Kerne werden genutzt!

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Warum ist der Himmel blau?",  
"stream": false,
"options":{
  "num_thread": 20
}
}'  | jq .

Das Ergebnis:

CPU-Nutzung: 1250%
GPU-Nutzung: 10–26 % (instabil)
GPU-Leistung: 67 W
Leistungsbewertung: 6,9 t/s

Okay. Jetzt sehen wir einen Leistungsverlust. Versuchen wir, 8 Leistungs- + 4 effiziente Kerne zu nutzen:

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:27b",  
"prompt": "Warum ist der Himmel blau?",  
"stream": false,
"options":{
  "num_thread": 12
}
}'  | jq .

Das Ergebnis:

CPU-Nutzung: 801%
GPU-Nutzung: 27 % (instabil)
GPU-Leistung: 70 W
Leistungsbewertung: 7,1 t/s

Hier und da.

Zum Vergleich – Gemma 3 14b ist weniger intelligent als Gemma 27b, passt aber besser in die GPU-VRAM.

curl http://localhost:11434/api/generate -d '
{  
"model": "gemma3:12b-it-qat",  
"prompt": "Warum ist der Himmel blau?",  
"stream": false
}'  | jq .

Das Ergebnis:

CPU-Nutzung: 106%
GPU-Nutzung: 94 % (instabil)
GPU-Leistung: 225 W
Leistungsbewertung: 61,1 t/s

Das nennen wir Leistung. Obwohl Gemma 3 27b intelligenter als 14b ist, ist sie nicht zehnmal intelligenter!

Schlussfolgerung

Wenn ein LLM nicht in die GPU-VRAM passt und einige Schichten von Ollama auf die CPU ausgelagert werden

Können wir die LLM-Leistung um 10–14 % erhöhen, indem wir den num_thread-Parameter bereitstellen
Der Leistungsverlust durch die Auslagerung ist viel höher und wird nicht durch diese Erhöhung ausgeglichen.
Besser eine leistungsstärkere GPU mit mehr VRAM haben. Der RTX 3090 ist besser als der RTX 5080, obwohl ich keine davon habe…

Für weitere Benchmarks, CPU/GPU-Optimierung und Leitfaden zur Leistung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrum.

OLLAMA_NUM_THREADS-Konfigurationsparameter

num_thread-Call-Option

Schlussfolgerung

Nützliche Links