Jak Ollama alokuje VRAM dla modeli?

Ollama ładowa modelowe warstwy do pamięci VRAM procesora GPU, kiedy to możliwe. Nowsze wersje korzystają z uaktualnionego harmonogramu, który może przydzielić więcej pamięci VRAM w celu maksymalizacji wykorzystania GPU, jednak na niektórych sprzęcie i modelach podział między CPU a GPU może się zmienić i nie zawsze poprawić wydajność.

Co jeśli model nie zmieści się w VRAM mojej karty GPU?

Ollama może przekazać niektóre warstwy na procesor (CPU) i zachować pozostałe na karcie grafiki (GPU). Podział między procesor a kartę grafiki zależy od dostępnej pamięci wideo (VRAM), wielkości modelu oraz wersji Ollama. Im większa ilość przekazywania obliczeń na procesor, tym wolniejsze jest przetwarzanie.

Czy nowe w planowaniu modeli Ollama zużywa więcej VRAM?

W niektórych konfiguracjach nowe planowanie przydziela więcej VRAM i utrzymuje więcej warstw na GPU, co może zwiększyć liczbę tokenów na sekundę. W innych konfiguracjach (np. 16 GB VRAM z dużymi modelami) zachowanie może się różnić, a większy obciążenie może przenieść się na CPU.

Jak mogę sprawdzić użycie VRAM i CPU/GPU w Ollama?

Uruchom ollama ps w celu uzyskania statystyk dla każdego modelu oraz nvidia-smi w celu sprawdzenia pamięci GPU. Pokazują one przydzieloną pamięć VRAM oraz podział warstw CPU/GPU dla uruchomionego modelu.

Gdzie mogę znaleźć więcej informacji na temat wydajności i testów LLM?

Nasz hub wydajności LLM obejmuje przepustowość vs opóźnienie, limity VRAM, żądania równoległe oraz testy wydajnościowe w różnych środowiskach wykonawczych i sprzęcie.

Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1

Moje własne testy harmonogramowania modeli ollama

Page content

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Aby uzyskać więcej informacji na temat przepływności, opóźnienia, VRAM i testów wydajności na różnych sprzęcie i środowiskach, zobacz Wydajność modeli językowych: testy wydajności, ograniczenia i optymalizacja.

Jak stwierdzono na oficjalnej stronie internetowej nowa wersja Ollama ma Nowe planowanie modeli z

Maksymalizacja wykorzystania GPU:
Nowa zarządzanie pamięcią Ollama alokuje więcej pamięci na GPU,
zwiększając prędkość generowania i przetwarzania tokenów

oraz podano kilka przykładów, np.:

Długi kontekst

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Długość kontekstu: 128k

Stara wersja                                 Nowa wersja
52.02 tokenów/s szybkość generowania tokenów 85.54 tokenów/s szybkość generowania tokenów
19.9GiB pamięci VRAM                       21.4GiB pamięci VRAM
48⁄49 warstw załadowanych na GPU            49⁄49 warstw załadowanych na GPU

Tu testuję, jak to działa na moim komputerze. Moje wyniki są bardzo różne od oficjalnych testów, są zupełnie przeciwne. Mam lekko inną konfigurację sprzętu i przetestowałem inne modele, ale wyniki wcale nie są lepsze, a często gorsze. To odzwierciedla post na temat Pierwsze oznaki enshittifikacji Ollama.

ollama llamas To zdjęcie pochodzi z wpisu na stronie internetowej Ollama.

TL;DR

Przetestowałem, jak nowa wersja Ollama planuje modele językowe, które nie mieszczą się w mojej pamięci VRAM o pojemności 16 GB.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Uruchamiałem ollama run <modelname>, a następnie proste pytanie, np. kim jesteś?, a w osobnym terminalu sprawdzałem odpowiedź ollama ps i nvidia-smi. Wszystko dość proste.

Tylko qwen3:30b-a3b wykazał ten sam rozkład obciążenia CPU/GPU, trzy pozostałe modele były bardziej obciążone CPU w nowej wersji. W moich testach, do mojego rozczarowania, nowa wersja Ollama jest gorsza, a te wyniki są sprzeczne z wpisem na blogu Ollama.

Szczegółowe dane porównania

Model	Stara wersja: VRAM przydzielona	Stara wersja: CPU/GPU	Nowa wersja: VRAM przydzielona	Nowa wersja: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Zdenerwowany.

Aby uzyskać więcej testów wydajności, wskazówek dotyczących dostrajania pamięci i wydajności, sprawdź nasz Wydajność modeli językowych: testy wydajności, ograniczenia i optymalizacja.

TL;DR

Szczegółowe dane porównania

Przydatne linki