Ollama 새 버전(0.12.1)의 메모리 할당 및 모델 스케줄링

내가 직접 수행한 ollama 모델 스케줄링 테스트

Page content

여기에서 저는 새로운 버전의 Ollama가 모델에 얼마나 많은 VRAM을 할당하는지와 이전 버전의 Ollama를 비교하고 있습니다. 새로운 버전은 오히려 더 나빠졌습니다.

통과량, 지연, VRAM, 그리고 런타임과 하드웨어에 걸쳐 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하십시오.

공식 웹사이트(공식 웹사이트)에 따르면, 새로운 Ollama 릴리스에는 새로운 모델 스케줄링 기능이 포함되어 있습니다.

GPU 사용률 최대화:
Ollama의 새로운 메모리 관리 방식은 GPU에 더 많은 메모리를 할당하여
토큰 생성 및 처리 속도를 증가시킵니다.

또한 몇 가지 예시가 제공되어 있습니다. 예를 들어:

긴 컨텍스트

    GPU: 1x NVIDIA GeForce RTX 4090
    모델: gemma3:12b
    컨텍스트 길이: 128k

구버전                                 신버전
52.02 토큰/초의 토큰 생성 속도         85.54 토큰/초의 토큰 생성 속도
19.9GiB의 VRAM                        21.4GiB의 VRAM
48⁄49 레이어가 GPU에 로드됨           49⁄49 레이어가 GPU에 로드됨

여기에서 저는 제 PC에서 어떻게 작동하는지 테스트하고 있습니다. 제가 얻은 결과는 공식 테스트와 매우 다르며, 거의 반대되는 결과를 보였습니다. 제가 사용한 하드웨어 구성이 약간 다르고, 다른 모델을 테스트했지만, 결과는 전혀 개선되지 않았으며, 오히려 더 나빠졌습니다. 이것은 Ollama Enshittification의 첫 징후에 대한 포스트와 일치합니다.

ollama llamas 이 이미지는 Ollama 웹사이트의 블로그 포스트에서 가져온 것입니다.

TL;DR

제가 테스트한 것은 Ollama 의 새로운 버전이 제 16GB VRAM에 맞지 않는 LLM을 어떻게 스케줄링하는지입니다.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

ollama run <모델명>을 실행한 후, who are you?와 같은 간단한 질문을 하였고, 별도의 터미널에서 ollama psnvidia-smi의 응답을 확인했습니다. 모두 매우 간단한 과정이었습니다.

qwen3:30b-a3b만 CPU/GPU 분산이 동일하게 나타났으며, 나머지 세 모델은 새로운 버전에서 더 많은 비중이 CPU에 할당되었습니다. 제 테스트에 따르면, 실망스럽게도 Ollama의 새로운 버전은 오히려 더 나빠졌으며, 이러한 결과는 Ollama 블로그에 있는 포스트와 모순됩니다.

상세 비교 데이터

모델 이전 버전: 할당된 VRAM 이전 버전: CPU/GPU 새 버전: 할당된 VRAM 새 버전: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

실망했습니다.

더 많은 벤치마크, 메모리 조정, 성능 가이드라인은 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하십시오.

유용한 링크