Welches LLM ist auf einer GPU mit 16 GB VRAM und Ollama am schnellsten?

GPT-OSS 20B erreichte die höchste Geschwindigkeit mit 139,93 Token/sec, während es vollständig in 16 GB VRAM passte. Es läuft zu 100 % auf der GPU ohne CPU-Offloading und ist daher ideal für anwendungsfälle, bei denen Geschwindigkeit von entscheidender Bedeutung ist.

Was geschieht, wenn ein LLM mehr als 16 GB VRAM benötigt?

Ollama verschiebt automatisch Modellschichten in den System-Speicher und die CPU. Dies reduziert die Leistung erheblich – beispielsweise sinkt die Geschwindigkeit von Mistral Small 3.2 24B auf 18,51 Token/sec, wenn 18 % der Schichten auf der CPU laufen.

Wie beeinflusst die Kontextgröße den VRAM-Verbrauch in Ollama?

Größere Kontextfenster erfordern mehr VRAM für den KV-Cache. Bei Verwendung eines Kontexts von 19K kann ein Modell, das bei 4K Kontext in das VRAM passt, CPU-Offloading benötigen. Reduzieren Sie die Kontextgröße, wenn Sie die GPU-Nutzung maximieren möchten.

Ist Qwen3 14B für eine GPU mit 16 GB geeignet?

Ja. Qwen3 14B verwendet nur 12 GB VRAM und läuft zu 100 % auf der GPU mit einer Geschwindigkeit von 61,85 Token pro Sekunde. Es bietet hervorragende Befehlsfolge und passt problemlos in 16 GB, wobei noch Platz für größere Kontextgrößen bleibt.

Sollte ich größere Modelle mit CPU-Offloading verwenden oder kleinere Modelle vollständig auf der GPU ausführen?

Bei interaktiven Anwendungsbeispielen sind in der Regel kleinere Modelle besser, die vollständig auf der GPU laufen. Die Geschwindigkeitsbeeinträchtigung durch die Auslagerung auf den CPU ist erheblich – GPT-OSS 120B mit 12,64 Token/sec fühlt sich im Vergleich zu GPT-OSS 20B mit 139,93 Token/sec langsam an.

Wo kann ich weitere LLM-Leistungsbenchmarks und Optimierungshandbücher finden?

Unser LLM-Performance-Hub behandelt Durchsatz vs. Latenz, VRAM-Grenzen, parallelle Anfragen, Speicherzuordnung und Benchmarks über Laufzeiten und Hardware.

Wie hängt der VRAM-Verbrauch mit der Token-Geschwindigkeit in Ollama zusammen?

Modelle, die vollständig in den VRAM passen, vermeiden das Auslagern auf den CPU und laufen viel schneller. Der Leitfaden zur LLM-Performance erklärt die VRAM-Grenzen und deren Auswirkungen auf die Inferenzgeschwindigkeit.

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

LLM-Geschwindigkeitstest auf RTX 4080 mit 16 GB VRAM

Inhaltsverzeichnis

Die Ausführung großer Sprachmodelle lokal bietet Ihnen Privatsphäre, die Möglichkeit, offline zu arbeiten, und keine API-Kosten. Dieser Benchmark zeigt genau, was man von 9 beliebten LLMs auf Ollama auf einem RTX 4080 erwarten kann.

Mit einer GPU mit 16 GB VRAM stand ich vor einer ständigen Kompromissfrage: Größere Modelle mit potenziell besserer Qualität oder kleinere Modelle mit schnellerer Inferenz. Für weitere Informationen zur Leistung von LLMs – Durchsatz vs. Latenz, VRAM-Grenzen, parallelle Anfragen und Benchmarks über verschiedene Laufzeiten – siehe LLM-Leistung: Benchmarks, Engpässe & Optimierung.

7 llamas - Vergleich von LLMs auf Ollama

TL;DR

Hier ist die Vergleichstabelle der LLM-Leistung auf einem RTX 4080 mit 16 GB VRAM mit Ollama 0.15.2:

Modell	RAM+VRAM verwendet	CPU/GPU-Aufteilung	Tokens/sec
gpt-oss:20b	14 GB	100% GPU	139.93
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3-vl:30b-a3b	22 GB	30%/70%	50.99
glm-4.7-flash	21 GB	27%/73%	33.86
nemotron-3-nano:30b	25 GB	38%/62%	32.77
devstral-small-2:24b	19 GB	18%/82%	18.67
mistral-small3.2:24b	19 GB	18%/82%	18.51
gpt-oss:120b	66 GB	78%/22%	12.64

Hauptinsight: Modelle, die vollständig in VRAM passen, sind deutlich schneller. GPT-OSS 20B erreicht 139.93 Tokens/sec, während GPT-OSS 120B mit intensiver CPU-Entlastung nur 12.64 Tokens/sec erreicht – ein 11-facher Geschwindigkeitsunterschied.

Testhardware-Setup

Der Benchmark wurde auf folgendem System durchgeführt:

GPU: NVIDIA RTX 4080 mit 16 GB VRAM
CPU: Intel Core i7-14700 (8 P-kerne + 12 E-kerne)
RAM: 64 GB DDR5-6000

Dies stellt eine gängige High-End-Consumer-Konfiguration für die lokale LLM-Inferenz dar. Die 16 GB VRAM ist der kritische Engpass – sie bestimmt, welche Modelle vollständig auf der GPU laufen, und welche CPU-Entlastung benötigen.

Das Verständnis von wie Ollama Intel CPU-Kerne verwendet wird wichtig, wenn Modelle die VRAM-Grenze überschreiten, da die CPU-Leistung direkt die Geschwindigkeit der Entlastungsschichten beeinflusst.

Zweck dieses Benchmarks

Das primäre Ziel war es, die Inferenzgeschwindigkeit unter realistischen Bedingungen zu messen. Ich wusste bereits aus Erfahrung, dass Mistral Small 3.2 24B bei der Sprachqualität hervorragt, während Qwen3 14B für meine spezifischen Anwendungsfälle eine überlegene Befehlsfolge bietet.

Dieser Benchmark beantwortet die praktische Frage: Wie schnell kann jedes Modell Text generieren, und was ist der Geschwindigkeitsverlust bei der Überschreitung der VRAM-Grenzen?

Die Testparameter waren:

Kontextgröße: 19.000 Tokens
Prompt: „vergleiche Wetter und Klima zwischen Hauptstädten Australiens“
Metrik: Eval Rate (Tokens pro Sekunde während der Generierung)

Ollama-Installation und Version

Alle Tests verwendeten die Ollama-Version 0.15.2, die neueste Veröffentlichung zum Zeitpunkt des Tests. Für eine vollständige Referenz der Ollama-Befehle, die in diesem Benchmark verwendet wurden, siehe das Ollama-Quickreferenz.

Um Ollama unter Linux zu installieren:

curl -fsSL https://ollama.com/install.sh | sh

Installation prüfen:

ollama --version

Wenn Sie aufgrund von Speicherbeschränkungen Modelle auf einem anderen Laufwerk speichern müssen, sehen Sie sich an, wie Sie Ollama-Modelle auf ein anderes Laufwerk verschieben.

Getestete Modelle

Die folgenden Modelle wurden getestet:

Modell	Parameter	Quantisierung	Hinweise
gpt-oss:20b	20B	Q4_K_M	Schnellstes insgesamt
gpt-oss:120b	120B	Q4_K_M	Größtes getestete
qwen3:14b	14B	Q4_K_M	Beste Befehlsfolge
qwen3-vl:30b-a3b	30B	Q4_K_M	Vision-fähig
ministral-3:14b	14B	Q4_K_M	Effizientes Modell von Mistral
mistral-small3.2:24b	24B	Q4_K_M	Starke Sprachqualität
devstral-small-2:24b	24B	Q4_K_M	Code-fokussiert
glm-4.7-flash	30B	Q4_K_M	Denkmodell
nemotron-3-nano:30b	30B	Q4_K_M	NVIDIA Angebot

Um ein Modell herunterzuladen:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Verständnis von CPU-Entlastung

Wenn die Speicheranforderungen eines Modells die verfügbare VRAM überschreiten, verteilt Ollama automatisch Schichten des Modells zwischen GPU und System RAM. Das Ergebnis zeigt dies als Prozentsatz-Aufteilung wie „18%/82% CPU/GPU“.

Dies hat massive Leistungsfolgen. Jede Token-Generierung erfordert Datenübertragung zwischen CPU und GPU-Speicher – ein Engpass, der sich mit jeder entlasteten Schicht verschlimmert.

Das Muster ist aus unseren Ergebnissen klar:

100% GPU-Modelle: 61–140 Tokens/sec
70–82% GPU-Modelle: 19–51 Tokens/sec
22% GPU (meist CPU): 12,6 Tokens/sec

Dies erklärt, warum ein 20B-Parametermodell in der Praxis ein 11-faches Ergebnis gegenüber einem 120B-Modell erzielen kann. Wenn Sie planen, mehrere parallele Anfragen zu bedienen, wird das Verständnis von wie Ollama parallelle Anfragen behandelt für die Kapazitätsplanung entscheidend.

Detaillierte Benchmark-Ergebnisse

Modelle, die vollständig auf der GPU laufen

GPT-OSS 20B – Der Geschwindigkeitschampion

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Mit 139.93 Tokens/sec ist GPT-OSS 20B klarer Sieger für Geschwindigkeitskritische Anwendungen. Es verwendet nur 14 GB VRAM, was Spielraum für größere Kontextfenster oder andere GPU-Aufgaben lässt.

Qwen3 14B – Ausgeglichene Leistung

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B bietet in meiner Erfahrung die beste Befehlsfolge, mit einem bequemen Speicherbedarf von 12 GB. Mit 61.85 Tokens/sec ist es für interaktive Nutzung ausreichend reaktiv.

Für Entwickler, die Qwen3 in Anwendungen integrieren, siehe Strukturierte Ausgabe von LLMs mit Ollama und Qwen3 für die Extraktion von strukturierten JSON-Antworten.

Ministral 3 14B – Schnell und kompakt

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistral’s kleineres Modell liefert 70.13 Tokens/sec und passt vollständig in VRAM. Eine gute Wahl, wenn Sie Mistral-Familienqualität bei maximaler Geschwindigkeit benötigen.

Modelle, die CPU-Entlastung erfordern

Qwen3-VL 30B – Beste Leistung bei teilweiser Entlastung

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Trotz 30 % der Schichten auf der CPU, hält Qwen3-VL 50.99 Tokens/sec bei – schneller als einige 100 % GPU-Modelle. Die Fähigkeit zur Bildverarbeitung fügt Vielseitigkeit für multimodale Aufgaben hinzu.

Mistral Small 3.2 24B – Qualität vs. Geschwindigkeit

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 bietet überlegene Sprachqualität, aber zahlt einen hohen Geschwindigkeitspreis. Mit 18.51 Tokens/sec fühlt es sich für interaktive Chat deutlich langsamer an. Für Aufgaben, bei denen Qualität wichtiger ist als Latenz, lohnt es sich.

GLM 4.7 Flash – Mixture of Experts Denkmodell

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash ist ein 30B-A3B Mixture of Experts Modell – 30B Gesamtparameter mit nur 3B aktiv pro Token. Als „Denkmodell“ generiert es interne Überlegungen vor den Antworten. Die 33.86 Tokens/sec umfasst sowohl Denken als auch Ausgabetokens. Trotz CPU-Entlastung hält die MoE-Architektur es vernünftig schnell.

GPT-OSS 120B – Der Schwerlastmodell

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Das Ausführen eines 120B-Modells auf 16 GB VRAM ist technisch möglich, aber unangenehm. Mit 78 % auf der CPU macht die 12.64 Tokens/sec interaktive Nutzung frustrierend. Besser geeignet für Batch-Verarbeitung, bei der Latenz keine Rolle spielt.

Praktische Empfehlungen

Für interaktive Chat

Verwenden Sie Modelle, die vollständig in VRAM passen:

GPT-OSS 20B – Maximale Geschwindigkeit (139.93 t/s)
Ministral 3 14B – Gute Geschwindigkeit mit Mistral-Qualität (70.13 t/s)
Qwen3 14B – Beste Befehlsfolge (61.85 t/s)

Für eine bessere Chat-Erfahrung, siehe Open-Source Chat UIs für lokale Ollama.

Für Batch-Verarbeitung

Wenn Geschwindigkeit weniger kritisch ist:

Mistral Small 3.2 24B – Überlegene Sprachqualität
Qwen3-VL 30B – Bild- und Textfähigkeit

Für Entwicklung und Codierung

Wenn Sie Anwendungen mit Ollama erstellen:

Alternative Hosting-Optionen

Wenn Sie Bedenken hinsichtlich der Einschränkungen von Ollama haben (siehe Ollama Enshittification-Bedenken), erkunden Sie andere Optionen im Leitfaden zur lokalen LLM-Hosting oder vergleichen Sie Docker-Modell-Runner vs. Ollama.

Schlussfolgerung

Mit 16 GB VRAM können Sie fähige LLMs mit beeindruckenden Geschwindigkeiten ausführen – wenn Sie klug wählen. Die wichtigsten Erkenntnisse:

Bleiben Sie innerhalb der VRAM-Grenzen für interaktive Nutzung. Ein 20B-Modell mit 140 Tokens/sec übertrifft ein 120B-Modell mit 12 Tokens/sec für die meisten praktischen Zwecke.
GPT-OSS 20B gewinnt bei reiner Geschwindigkeit, aber Qwen3 14B bietet den besten Ausgleich zwischen Geschwindigkeit und Fähigkeiten für Befehlsfolge-Aufgaben.
CPU-Entlastung funktioniert, erwarten Sie jedoch 3-10-fache Verlangsamungen. Akzeptabel für Batch-Verarbeitung, frustrierend für Chat.
Kontextgröße spielt eine Rolle. Die hier verwendete Kontextgröße von 19K erhöht den VRAM-Verbrauch erheblich. Reduzieren Sie die Kontextgröße für eine bessere GPU-Nutzung.

Für eine KI-gestützte Suche, die lokale LLMs mit Web-Ergebnissen kombiniert, siehe Selbsthosting von Perplexica mit Ollama.

Um weitere Benchmarks, VRAM- und Durchsatz-Handelabkommen sowie Leistungsfeinabstimmung über Ollama und andere Laufzeiten zu erkunden, sehen Sie sich unser LLM-Leistung: Benchmarks, Engpässe & Optimierung-Zentrum an.