Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1
Moje własne testy harmonogramowania modeli ollama
Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi z poprzednią wersją Ollama. Nowa wersja jest gorsza.
Aby uzyskać więcej informacji na temat przepływności, opóźnienia, VRAM i testów wydajności na różnych sprzęcie i środowiskach, zobacz Wydajność modeli językowych: testy wydajności, ograniczenia i optymalizacja.
Jak stwierdzono na oficjalnej stronie internetowej nowa wersja Ollama ma Nowe planowanie modeli z
Maksymalizacja wykorzystania GPU:
Nowa zarządzanie pamięcią Ollama alokuje więcej pamięci na GPU,
zwiększając prędkość generowania i przetwarzania tokenów
oraz podano kilka przykładów, np.:
Długi kontekst
GPU: 1x NVIDIA GeForce RTX 4090
Model: gemma3:12b
Długość kontekstu: 128k
Stara wersja Nowa wersja
52.02 tokenów/s szybkość generowania tokenów 85.54 tokenów/s szybkość generowania tokenów
19.9GiB pamięci VRAM 21.4GiB pamięci VRAM
48⁄49 warstw załadowanych na GPU 49⁄49 warstw załadowanych na GPU
Tu testuję, jak to działa na moim komputerze. Moje wyniki są bardzo różne od oficjalnych testów, są zupełnie przeciwne. Mam lekko inną konfigurację sprzętu i przetestowałem inne modele, ale wyniki wcale nie są lepsze, a często gorsze. To odzwierciedla post na temat Pierwsze oznaki enshittifikacji Ollama.
To zdjęcie pochodzi z wpisu na stronie internetowej Ollama.
TL;DR
Przetestowałem, jak nowa wersja Ollama planuje modele językowe, które nie mieszczą się w mojej pamięci VRAM o pojemności 16 GB.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Uruchamiałem ollama run <modelname>, a następnie proste pytanie, np. kim jesteś?, a w osobnym terminalu sprawdzałem odpowiedź ollama ps i nvidia-smi. Wszystko dość proste.
Tylko qwen3:30b-a3b wykazał ten sam rozkład obciążenia CPU/GPU, trzy pozostałe modele były bardziej obciążone CPU w nowej wersji. W moich testach, do mojego rozczarowania, nowa wersja Ollama jest gorsza, a te wyniki są sprzeczne z wpisem na blogu Ollama.
Szczegółowe dane porównania
| Model | Stara wersja: VRAM przydzielona | Stara wersja: CPU/GPU | Nowa wersja: VRAM przydzielona | Nowa wersja: CPU/GPU |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Zdenerwowany.
Aby uzyskać więcej testów wydajności, wskazówek dotyczących dostrajania pamięci i wydajności, sprawdź nasz Wydajność modeli językowych: testy wydajności, ograniczenia i optymalizacja.