Speicherzuordnung und Modellscheduling in der neuen Ollama-Version – v0.12.1
Meine eigene Testung der ollama-Modellplanung
Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell allokiert wie viel VRAM neue Version von Ollama für das Modell allokiert
im Vergleich zur vorherigen Ollama-Version. Die neue Version ist schlechter.
Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.
Wie auf der offiziellen Webseite erwähnt, hat die neue Ollama-Release eine Neue Modellplanung mit
Maximierung der GPU-Nutzung:
Ollamas neue Speicherverwaltung allokiert mehr Speicher für die GPU,
was die Token-Generierung und -Verarbeitungsgeschwindigkeit erhöht
und einige Beispiele werden gegeben, zum Beispiel:
Langer Kontext
GPU: 1x NVIDIA GeForce RTX 4090
Modell: gemma3:12b
Kontextlänge: 128k
Alt Neu
52,02 Token/s Token-Generierungsgeschwindigkeit 85,54 Token/s Token-Generierungsgeschwindigkeit
19,9 GiB VRAM 21,4 GiB VRAM
48⁄49 Schichten auf GPU geladen 49⁄49 Schichten auf GPU geladen
Hier teste ich, wie es auf meinem PC funktioniert. Meine Ergebnisse sind sehr unterschiedlich zu den offiziellen Tests, sie sind sogar komplett entgegengesetzt. Ich habe eine leicht unterschiedliche Hardwarekonfiguration und unterschiedliche Modelle getestet, aber die Ergebnisse sind nicht besser und oft schlechter. Dies entspricht dem Beitrag über Erste Zeichen der Ollama Enshittification.
Dieses Bild stammt aus dem Blogbeitrag auf der Ollama-Website.
TL;DR
Ich habe getestet, wie die neue Version von
Ollama
LLMs, die nicht in meine 16 GB VRAM passen, plant.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Ich habe ollama run <modelname> ausgeführt, dann eine einfache Frage wie Wer sind Sie? gestellt, und in einem separaten Terminal die Antwort von ollama ps und nvidia-smi überprüft. Alles sehr einfach.
Nur qwen3:30b-a3b zeigte die gleiche CPU/GPU-Verteilung, bei den anderen drei Modellen wurde mehr auf die CPU ausgelagert in der neuen Version. In meinen Tests zu meiner Enttäuschung ist die neue Version von Ollama schlechter, und diese Ergebnisse widersprechen dem Beitrag auf der Ollama-Blogseite.
Detaillierte Vergleichsdaten
| Modell | VRAM allokiert (Alt) | CPU/GPU (Alt) | VRAM allokiert (Neu) | CPU/GPU (Neu) |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489 MiB | 41%/59% | 14249 MiB | 44%/56% |
| qwen3:30b-a3b | 15065 MiB | 21%/79% | 14867 MiB | 21%/79% |
| gemma3:27b | 13771 MiB | 28%/72% | 14817 MiB | 29%/71% |
| qwen3:32b | 14676 MiB | 30%/70% | 15139 MiB | 32%/68% |
Enttäuscht.
Für weitere Benchmarks, Speichereinstellungen und Leitfaden zur Leistung, siehe unsere LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrale.