Porównanie wydajności LLM na Ollama na GPU z 16 GB VRAM

Test prędkości LLM na RTX 4080 z 16 GB VRAM

Page content

Uruchamianie dużych modeli językowych lokalnie zapewnia prywatność, możliwość pracy offline oraz zero kosztów API.
Ten benchmark pokazuje dokładnie, co można się spodziewać od 14 popularnych
LLM na Ollama na RTX 4080.

Z 16 GB VRAM GPU miałem stały kompromis:
większe modele z potencjalnie lepszym jakością, czy mniejsze modele z szybszym inferencją.
Aby dowiedzieć się więcej na temat wydajności LLM — przepustowość vs opóźnienie, ograniczenia VRAM, żądania równoległe oraz benchmarki na różnych środowiskach, zobacz Wydajność LLM: Benchmarki, Bottlenecks & Optymalizacja.

Wydajność LLM na Ollama - ponowne rangowanie krolików

TL;DR

Oto zaktualizowana tabela porównawcza wydajności LLM na RTX 4080 16 GB z Ollama 0.17.7, (2026-03-09) dodano modele Qwen 3.5 9b, 9bq8, 27b i 35b:

Model RAM+VRAM użyte Podział CPU/GPU Tokenów/sec
gpt-oss:20b 14 GB 100% GPU 139.93
qwen3.5:9b 9.3 GB 100% GPU 90.89
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3.5:9b-q8_0 13 GB 100% GPU 61.22
qwen3-coder:30b 20 GB 25%/75% CPU/GPU 57.17
qwen3-vl:30b-a3b 22 GB 30%/70% CPU/GPU 50.99
glm-4.7-flash 21 GB 27%/73% CPU/GPU 33.86
nemotron-3-nano:30b 25 GB 38%/62% CPU/GPU 32.77
qwen3.5:35b 27 GB 43%/57% CPU/GPU 20.66
devstral-small-2:24b 19 GB 18%/82% CPU/GPU 18.67
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 18.51
gpt-oss:120b 66 GB 78%/22% CPU/GPU 12.64
qwen3.5:27b 24 GB 43%/57% CPU/GPU 6.48

Główne spostrzeżenie: Modele, które mieszczą się całkowicie w VRAM, są znacznie szybsze. GPT-OSS 20B osiąga 139.93 tokenów/sec, podczas gdy GPT-OSS 120B z ciężkim przekazaniem do CPU porusza się zaledwie 12.64 tokenów/sec — różnica w prędkości wynosi 11x.

Konfiguracja sprzętu testu

Benchmark przeprowadzono na poniższym systemie:

  • GPU: NVIDIA RTX 4080 z 16 GB VRAM
  • CPU: Intel Core i7-14700 (8 rdzeni P + 12 rdzeni E)
  • RAM: 64 GB DDR5-6000

To reprezentuje typowe wysokiej klasy konfiguracje użytkownika dla lokalnego inferencji LLM.
16 GB VRAM to kluczowe ograniczenie — decyduje, które modele działają całkowicie na GPU, a które wymagają przekazania do CPU.

Zrozumienie jak Ollama wykorzystuje rdzenie procesora Intel staje się ważne, gdy modele przekraczają pojemność VRAM, ponieważ wydajność CPU bezpośrednio wpływa na prędkość inferencji warstw przekazanych.

Cel tego benchmarku

Głównym celem było zmierzenie prędkości inferencji w realistycznych warunkach. Już wcześniej wiedziałem z doświadczenia, że Mistral Small 3.2 24B wyróżnia się jakością języka, podczas gdy Qwen3 14B oferuje lepsze przestrzeganie instrukcji dla moich konkretnych przypadków użycia.

Ten benchmark odpowiada na praktyczne pytanie: Jak szybko może generować tekst każdy model, a także jak duży jest koszt prędkości przy przekraczaniu limitów VRAM?

Parametry testu:

  • Wielkość kontekstu: 19 000 tokenów. Jest to średnia wartość w moich żądaniach generowania.
  • Prompt: “porównaj pogodę i klimat między stolicami Australii”
  • Metryka: szybkość oceny (tokeny na sekundę podczas generowania)

Instalacja i wersja Ollama

Wszystkie testy wykorzystywały wersję Ollama 0.15.2, najnowszą wersję w momencie przeprowadzania testów.
Później ponownie przeprowadzono testy na wersji Ollama 0.17.7 — aby dodać modele Qwen3.5.
Aby uzyskać pełną referencję poleceń Ollama używanych w tym benchmarku, zobacz Ollama cheatsheet.

Aby szybko zainstalować Ollama na Linuxie:

curl -fsSL https://ollama.com/install.sh | sh

Sprawdzenie instalacji:

ollama --version

Jeśli potrzebujesz przechowywania modeli na innym dysku ze względu na ograniczenia miejsca, zobacz jak przenieść modele Ollama na inny dysk.

Modele przetestowane

Poniższe modele zostały przetestowane, w kolejności alfabetycznej:

Model Parametry Kwantyzacja Uwagi
devstral-small-2:24b 24B Q4_K_M Skupiony na kodowaniu
glm-4.7-flash 30B Q4_K_M Model myślenia
gpt-oss:20b 20B Q4_K_M Najlepszy ogólnie
gpt-oss:120b 120B Q4_K_M Największy przetestowany
ministral-3:14b 14B Q4_K_M Efektywny model Mistral
mistral-small3.2:24b 24B Q4_K_M Wysoka jakość języka
nemotron-3-nano:30b 30B Q4_K_M Oferta NVIDIA
qwen3:14b 14B Q4_K_M Najlepsze przestrzeganie instrukcji
qwen3.5:9b 9B Q4_K_M Szybki, całkowicie na GPU
qwen3.5:9b-q8_0 9B Q8_0 Wyższa jakość, całkowicie na GPU
qwen3.5:27b 27B Q4_K_M Wysoka jakość, wolny na Ollama
qwen3-vl:30b-a3b 30B Q4_K_M Wizualnie zdolny
qwen3-coder:30b 30B Q4_K_M Skupiony na kodowaniu
qwen3.5:35b 35B Q4_K_M Dobrze rozwinięte możliwości kodowania

Aby pobrać dowolny model:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Zrozumienie przekazywania do CPU

Gdy wymagania pamięci modelu przekraczają dostępne VRAM, Ollama automatycznie rozdziela warstwy modelu między GPU i pamięć RAM systemu. Wynik pokazuje to jako procentowy podział, np. “18%/82% CPU/GPU”.

To ma ogromny wpływ na wydajność. Każda generacja tokena wymaga transferu danych między pamięcią CPU i GPU — to wąskie gardło, które się zwiększa z każdą warstwą przekazaną do CPU.

Z naszych wyników wynika jasno:

  • Modele 100% na GPU: 61–140 tokenów/sec
  • Modele 70–82% na GPU: 19–51 tokenów/sec
  • 22% na GPU (prawie całość na CPU): 12,6 tokenów/sec

To wyjaśnia, dlaczego model 20B może w praktyce wygrać z modelem 120B 11x. Jeśli planujesz obsługę wielu żądań równoległych, zrozumienie jak Ollama obsługuje żądania równoległe staje się kluczowe dla planowania pojemności.

Szczegółowe wyniki benchmarku

Modele działające 100% na GPU

GPT-OSS 20B — Zwycięzca szybkości

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Z prędkością 139.93 tokenów/sec, GPT-OSS 20B jest wyraźnym zwycięzcą w aplikacjach krytycznych dla szybkości. Używa tylko 14 GB VRAM, pozostawiając miejsce na większe okna kontekstu lub inne obciążenia GPU.

Qwen3 14B — Doskonały kompromis

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B oferuje najlepsze przestrzeganie instrukcji z mojego doświadczenia, z wygodnym 12 GB zapotrzebowaniem na pamięć. Z prędkością 61.85 tokenów/sec, jest wystarczająco szybki do interaktywnego użycia.

Dla programistów integrujących Qwen3 z aplikacjami, zobacz Strukturalne wyjście LLM z Ollama i Qwen3 do wyciągania strukturalnych odpowiedzi w formacie JSON.

Ministral 3 14B — Szybki i zwarty

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mniejszy model Mistral dostarcza 70.13 tokenów/sec, jednocześnie mieszczący się całkowicie w VRAM. Solidna opcja, gdy potrzebujesz jakości modelu Mistral przy maksymalnej prędkości.

qwen3.5:9b - szybki i nowy

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - kwantyzacja q8

Ta kwantyzacja obniża wydajność qwen3.5:9b o 30% w porównaniu do q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

porównaj pogodę i klimat między stolicami Australii
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modele wymagające przekazywania do CPU

qwen3-coder:30b - najszybszy wśród modeli 30B z powodu bycia tekstowym

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Najlepsza wydajność częściowo przekazanego modelu

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Mimo tego, że 30% warstw znajduje się na CPU, Qwen3-VL utrzymuje 50.99 tokenów/sec — szybszy niż niektóre modele 100% na GPU. Możliwość wizualizacji dodaje elastyczność do zadań multimodalnych.

Mistral Small 3.2 24B — Kompromis między jakością a prędkością

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 oferuje wyższą jakość języka, ale płaci drobną cenę za prędkość. Z prędkością 18.51 tokenów/sec, czuje się znacznie wolniej w interaktywnym czacie. Warto, jeśli jakość ma większą wagę niż opóźnienie.

GLM 4.7 Flash — Model Mixture of Experts

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash to model Mixture of Experts z 30B parametrami — tylko 3B aktywnych na token. Jako model “myślenia”, generuje wewnętrzną analizę przed odpowiedzią. 33.86 tokenów/sec obejmuje zarówno myślenie, jak i tokeny wyjściowe. Mimo przekazywania do CPU, architektura MoE utrzymuje rozsądną szybkość.

qwen3.5:35b - nowy model z dość dobrymi wynikami samodzielnej hostingu

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — Duży model

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Uruchamianie modelu 120B na 16 GB VRAM technicznie jest możliwe, ale uciążliwe. Z 78% na CPU, 12.64 tokenów/sec sprawia, że interaktywne użycie frustrujące. Lepsze do przetwarzania wsadowego, gdzie opóźnienie nie ma znaczenia.

qwen3.5:27b - inteligentny, ale wolny na Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Przetestowałem qwen3.5:27b i uzyskałem bardzo dobre opinie na temat wydajności tego modelu z OpenCode.
To bardzo zdolny model, bogaty w wiedzę, naprawdę dobry w wywoływaniu narzędzi, choć wolny na moim komputerze na Ollama.
Próbowałem innych platform do samodzielnej hostingu LLM, i uzyskałem znacznie wyższe prędkości.
Uważam, że czas, by puścić Ollama.
Zapiszę o tym nieco później.

Praktyczne rekomendacje

Dla czatu interaktywnego

Używaj modeli, które mieszczą się całkowicie w VRAM:

  1. GPT-OSS 20B — Maksymalna prędkość (139.93 t/s)
  2. Ministral 3 14B — Dobra prędkość z jakością Mistral (70.13 t/s)
  3. Qwen3 14B — Najlepsze przestrzeganie instrukcji (61.85 t/s)

Aby uzyskać lepsze doświadczenie czatu, rozważ Otwarte interfejsy czatu dla lokalnego Ollama.

Dla przetwarzania wsadowego

Znowu, na moim sprzęcie — 14 GB VRAM.

Gdy prędkość jest mniej krytyczna:

  • Mistral Small 3.2 24B — Wyjątkowa jakość języka
  • Qwen3-VL 30B — Możliwość wizualizacji + tekst

Gdy prędkość nie ma znaczenia:

  • Qwen3.5:35b - Dobre możliwości kodowania
  • Qwen3.5:27b - Bardzo dobre, ale wolne na Ollama. Miałem bardzo dobre wyniki hostingu tego modelu na llama.cpp.

Dla programowania i rozwoju

Jeśli tworzysz aplikacje z Ollama:

Alternatywne opcje hostingu

Jeśli obawy dotyczące ograniczeń Ollama (patrz Obawy związane z Ollama), rozważ inne opcje w Przewodnik po lokalnym hostingu LLM lub porównaj Docker Model Runner vs Ollama.

Podsumowanie

Z 16 GB VRAM możesz uruchomić zdolne LLM z印象深刻 speeds — jeśli wybierzesz odpowiednio. Kluczowe spostrzeżenia:

  1. Zachowuj ograniczenia VRAM dla interaktywnego użycia. Model 20B z 140 tokenów/sec pokonuje model 120B z 12 tokenów/sec w większości praktycznych przypadków.

  2. GPT-OSS 20B wygrywa pod względem czystej prędkości, ale Qwen3 14B oferuje najlepszy kompromis między prędkością a możliwością dla zadań przestrzegania instrukcji.

  3. Przekazywanie do CPU działa, ale spodziewaj się spowolnienia 3–10x. Akceptowalne dla przetwarzania wsadowego, frustrujące dla czatu.

  4. Wielkość kontekstu ma znaczenie. Użyte tu 19K kontekstu znacząco zwiększa zużycie VRAM. Zmniejsz kontekst dla lepszego wykorzystania GPU.

Aby uzyskać AI-powered wyszukiwanie łączące lokalne LLM z wynikami sieci, zobacz samodzielne hostowanie Perplexica z Ollama.

Aby przeanalizować więcej benchmarków, kompromisy między VRAM a przepustowością oraz optymalizację wydajności w Ollama i innych środowiskach, sprawdź nasz Wydajność LLM: Benchmarki, Bottlenecks & Optymalizacja.

Przydatne linki

Wewnętrzne zasoby

Zewnętrzne referencje