Wie allokiert Ollama VRAM für Modelle?

Ollama lädt Modellebenen in die GPU-VRAM-Adresse, wenn möglich. Neue Versionen verwenden ein aktualisiertes Scheduling, das mehr VRAM zuweisen kann, um die GPU-Nutzung zu maximieren. Auf bestimmten Hardware und Modellen kann sich jedoch die Aufteilung zwischen CPU und GPU ändern und nicht immer verbessern.

Was passiert, wenn ein Modell nicht in meine GPU VRAM passt?

Ollama kann einige Schichten auf den CPU auslagern und den Rest auf der GPU behalten. Die Aufteilung zwischen CPU und GPU hängt von der verfügbaren VRAM, der Modellgröße und der Ollama-Version ab. Eine höhere CPU-Auslagerung bedeutet in der Regel langsameres Inferencing.

Verwendet die neue Modellplanung von Ollama mehr VRAM?

In einigen Konfigurationen weist das neue Planungssystem mehr VRAM zu und behält mehr Schichten auf der GPU bei, was die Anzahl der Token pro Sekunde erhöhen kann. Bei anderen Konfigurationen (z. B. 16 GB VRAM mit großen Modellen) kann das Verhalten anders sein, und mehr Last kann auf den CPU wechseln.

Wie kann ich den Ollama VRAM- und CPU/GPU-Bedarf prüfen?

Führen Sie ollama ps für Modellstatistiken und nvidia-smi zur Überprüfung des GPU-Speichers aus. Diese zeigen die belegte VRAM und die Aufteilung der CPU/GPU-Schichten für das laufende Modell.

Wo kann ich mehr über die Leistung und Benchmarks von LLMs finden?

Unser LLM-Performance-Hub behandelt Durchsatz vs. Latenz, VRAM-Grenzen, parallelle Anfragen und Benchmarks über Laufzeiten und Hardware.

Speicherzuordnung und Modellscheduling in der neuen Ollama-Version – v0.12.1

Meine eigene Testung der ollama-Modellplanung

Inhaltsverzeichnis

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell allokiert wie viel VRAM neue Version von Ollama für das Modell allokiert
im Vergleich zur vorherigen Ollama-Version. Die neue Version ist schlechter.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Wie auf der offiziellen Webseite erwähnt, hat die neue Ollama-Release eine Neue Modellplanung mit

Maximierung der GPU-Nutzung:
Ollamas neue Speicherverwaltung allokiert mehr Speicher für die GPU,
was die Token-Generierung und -Verarbeitungsgeschwindigkeit erhöht

und einige Beispiele werden gegeben, zum Beispiel:

Langer Kontext

    GPU: 1x NVIDIA GeForce RTX 4090
    Modell: gemma3:12b
    Kontextlänge: 128k

Alt                                   Neu
52,02 Token/s Token-Generierungsgeschwindigkeit 85,54 Token/s Token-Generierungsgeschwindigkeit
19,9 GiB VRAM                         21,4 GiB VRAM
48⁄49 Schichten auf GPU geladen       49⁄49 Schichten auf GPU geladen

Hier teste ich, wie es auf meinem PC funktioniert. Meine Ergebnisse sind sehr unterschiedlich zu den offiziellen Tests, sie sind sogar komplett entgegengesetzt. Ich habe eine leicht unterschiedliche Hardwarekonfiguration und unterschiedliche Modelle getestet, aber die Ergebnisse sind nicht besser und oft schlechter. Dies entspricht dem Beitrag über Erste Zeichen der Ollama Enshittification.

ollama llamas Dieses Bild stammt aus dem Blogbeitrag auf der Ollama-Website.

TL;DR

Ich habe getestet, wie die neue Version von
Ollama LLMs, die nicht in meine 16 GB VRAM passen, plant.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Ich habe ollama run <modelname> ausgeführt, dann eine einfache Frage wie Wer sind Sie? gestellt, und in einem separaten Terminal die Antwort von ollama ps und nvidia-smi überprüft. Alles sehr einfach.

Nur qwen3:30b-a3b zeigte die gleiche CPU/GPU-Verteilung, bei den anderen drei Modellen wurde mehr auf die CPU ausgelagert in der neuen Version. In meinen Tests zu meiner Enttäuschung ist die neue Version von Ollama schlechter, und diese Ergebnisse widersprechen dem Beitrag auf der Ollama-Blogseite.

Detaillierte Vergleichsdaten

Modell	VRAM allokiert (Alt)	CPU/GPU (Alt)	VRAM allokiert (Neu)	CPU/GPU (Neu)
mistral-small3.2:24b	14489 MiB	41%/59%	14249 MiB	44%/56%
qwen3:30b-a3b	15065 MiB	21%/79%	14867 MiB	21%/79%
gemma3:27b	13771 MiB	28%/72%	14817 MiB	29%/71%
qwen3:32b	14676 MiB	30%/70%	15139 MiB	32%/68%

Enttäuscht.

Für weitere Benchmarks, Speichereinstellungen und Leitfaden zur Leistung, siehe unsere LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrale.

TL;DR

Detaillierte Vergleichsdaten

Nützliche Links