Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1

Moje własne testy harmonogramowania modeli ollama

Page content

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Aby uzyskać więcej informacji na temat przepływności, opóźnienia, VRAM i testów wydajności na różnych sprzęcie i środowiskach, zobacz Wydajność modeli językowych: testy wydajności, ograniczenia i optymalizacja.

Jak stwierdzono na oficjalnej stronie internetowej nowa wersja Ollama ma Nowe planowanie modeli z

Maksymalizacja wykorzystania GPU:
Nowa zarządzanie pamięcią Ollama alokuje więcej pamięci na GPU,
zwiększając prędkość generowania i przetwarzania tokenów

oraz podano kilka przykładów, np.:

Długi kontekst

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Długość kontekstu: 128k

Stara wersja                                 Nowa wersja
52.02 tokenów/s szybkość generowania tokenów 85.54 tokenów/s szybkość generowania tokenów
19.9GiB pamięci VRAM                       21.4GiB pamięci VRAM
48⁄49 warstw załadowanych na GPU            49⁄49 warstw załadowanych na GPU

Tu testuję, jak to działa na moim komputerze. Moje wyniki są bardzo różne od oficjalnych testów, są zupełnie przeciwne. Mam lekko inną konfigurację sprzętu i przetestowałem inne modele, ale wyniki wcale nie są lepsze, a często gorsze. To odzwierciedla post na temat Pierwsze oznaki enshittifikacji Ollama.

ollama llamas To zdjęcie pochodzi z wpisu na stronie internetowej Ollama.

TL;DR

Przetestowałem, jak nowa wersja Ollama planuje modele językowe, które nie mieszczą się w mojej pamięci VRAM o pojemności 16 GB.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Uruchamiałem ollama run <modelname>, a następnie proste pytanie, np. kim jesteś?, a w osobnym terminalu sprawdzałem odpowiedź ollama ps i nvidia-smi. Wszystko dość proste.

Tylko qwen3:30b-a3b wykazał ten sam rozkład obciążenia CPU/GPU, trzy pozostałe modele były bardziej obciążone CPU w nowej wersji. W moich testach, do mojego rozczarowania, nowa wersja Ollama jest gorsza, a te wyniki są sprzeczne z wpisem na blogu Ollama.

Szczegółowe dane porównania

Model Stara wersja: VRAM przydzielona Stara wersja: CPU/GPU Nowa wersja: VRAM przydzielona Nowa wersja: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Zdenerwowany.

Aby uzyskać więcej testów wydajności, wskazówek dotyczących dostrajania pamięci i wydajności, sprawdź nasz Wydajność modeli językowych: testy wydajności, ograniczenia i optymalizacja.

Przydatne linki