Ollama 새 버전(0.12.1)의 메모리 할당 및 모델 스케줄링
내가 직접 수행한 ollama 모델 스케줄링 테스트
여기에서 저는 새로운 버전의 Ollama가 모델에 얼마나 많은 VRAM을 할당하는지와 이전 버전의 Ollama를 비교하고 있습니다. 새로운 버전은 오히려 더 나빠졌습니다.
통과량, 지연, VRAM, 그리고 런타임과 하드웨어에 걸쳐 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하십시오.
공식 웹사이트(공식 웹사이트)에 따르면, 새로운 Ollama 릴리스에는 새로운 모델 스케줄링 기능이 포함되어 있습니다.
GPU 사용률 최대화:
Ollama의 새로운 메모리 관리 방식은 GPU에 더 많은 메모리를 할당하여
토큰 생성 및 처리 속도를 증가시킵니다.
또한 몇 가지 예시가 제공되어 있습니다. 예를 들어:
긴 컨텍스트
GPU: 1x NVIDIA GeForce RTX 4090
모델: gemma3:12b
컨텍스트 길이: 128k
구버전 신버전
52.02 토큰/초의 토큰 생성 속도 85.54 토큰/초의 토큰 생성 속도
19.9GiB의 VRAM 21.4GiB의 VRAM
48⁄49 레이어가 GPU에 로드됨 49⁄49 레이어가 GPU에 로드됨
여기에서 저는 제 PC에서 어떻게 작동하는지 테스트하고 있습니다. 제가 얻은 결과는 공식 테스트와 매우 다르며, 거의 반대되는 결과를 보였습니다. 제가 사용한 하드웨어 구성이 약간 다르고, 다른 모델을 테스트했지만, 결과는 전혀 개선되지 않았으며, 오히려 더 나빠졌습니다. 이것은 Ollama Enshittification의 첫 징후에 대한 포스트와 일치합니다.
이 이미지는 Ollama 웹사이트의 블로그 포스트에서 가져온 것입니다.
TL;DR
제가 테스트한 것은 Ollama 의 새로운 버전이 제 16GB VRAM에 맞지 않는 LLM을 어떻게 스케줄링하는지입니다.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
ollama run <모델명>을 실행한 후, who are you?와 같은 간단한 질문을 하였고, 별도의 터미널에서 ollama ps와 nvidia-smi의 응답을 확인했습니다. 모두 매우 간단한 과정이었습니다.
qwen3:30b-a3b만 CPU/GPU 분산이 동일하게 나타났으며, 나머지 세 모델은 새로운 버전에서 더 많은 비중이 CPU에 할당되었습니다. 제 테스트에 따르면, 실망스럽게도 Ollama의 새로운 버전은 오히려 더 나빠졌으며, 이러한 결과는 Ollama 블로그에 있는 포스트와 모순됩니다.
상세 비교 데이터
| 모델 | 이전 버전: 할당된 VRAM | 이전 버전: CPU/GPU | 새 버전: 할당된 VRAM | 새 버전: CPU/GPU |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
실망했습니다.
더 많은 벤치마크, 메모리 조정, 성능 가이드라인은 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하십시오.