Speicherzuordnung und Modellscheduling in der neuen Ollama-Version – v0.12.1

Meine eigene Testung der ollama-Modellplanung

Inhaltsverzeichnis

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell allokiert wie viel VRAM neue Version von Ollama für das Modell allokiert
im Vergleich zur vorherigen Ollama-Version. Die neue Version ist schlechter.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Wie auf der offiziellen Webseite erwähnt, hat die neue Ollama-Release eine Neue Modellplanung mit

Maximierung der GPU-Nutzung:
Ollamas neue Speicherverwaltung allokiert mehr Speicher für die GPU,
was die Token-Generierung und -Verarbeitungsgeschwindigkeit erhöht

und einige Beispiele werden gegeben, zum Beispiel:

Langer Kontext

    GPU: 1x NVIDIA GeForce RTX 4090
    Modell: gemma3:12b
    Kontextlänge: 128k

Alt                                   Neu
52,02 Token/s Token-Generierungsgeschwindigkeit 85,54 Token/s Token-Generierungsgeschwindigkeit
19,9 GiB VRAM                         21,4 GiB VRAM
48⁄49 Schichten auf GPU geladen       49⁄49 Schichten auf GPU geladen

Hier teste ich, wie es auf meinem PC funktioniert. Meine Ergebnisse sind sehr unterschiedlich zu den offiziellen Tests, sie sind sogar komplett entgegengesetzt. Ich habe eine leicht unterschiedliche Hardwarekonfiguration und unterschiedliche Modelle getestet, aber die Ergebnisse sind nicht besser und oft schlechter. Dies entspricht dem Beitrag über Erste Zeichen der Ollama Enshittification.

ollama llamas Dieses Bild stammt aus dem Blogbeitrag auf der Ollama-Website.

TL;DR

Ich habe getestet, wie die neue Version von
Ollama LLMs, die nicht in meine 16 GB VRAM passen, plant.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Ich habe ollama run <modelname> ausgeführt, dann eine einfache Frage wie Wer sind Sie? gestellt, und in einem separaten Terminal die Antwort von ollama ps und nvidia-smi überprüft. Alles sehr einfach.

Nur qwen3:30b-a3b zeigte die gleiche CPU/GPU-Verteilung, bei den anderen drei Modellen wurde mehr auf die CPU ausgelagert in der neuen Version. In meinen Tests zu meiner Enttäuschung ist die neue Version von Ollama schlechter, und diese Ergebnisse widersprechen dem Beitrag auf der Ollama-Blogseite.

Detaillierte Vergleichsdaten

Modell VRAM allokiert (Alt) CPU/GPU (Alt) VRAM allokiert (Neu) CPU/GPU (Neu)
mistral-small3.2:24b 14489 MiB 41%/59% 14249 MiB 44%/56%
qwen3:30b-a3b 15065 MiB 21%/79% 14867 MiB 21%/79%
gemma3:27b 13771 MiB 28%/72% 14817 MiB 29%/71%
qwen3:32b 14676 MiB 30%/70% 15139 MiB 32%/68%

Enttäuscht.

Für weitere Benchmarks, Speichereinstellungen und Leitfaden zur Leistung, siehe unsere LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrale.