Ollama는 모델에 VRAM을 어떻게 할당하나요?

Ollama는 가능할 경우 모델 레이어를 GPU VRAM에 로드합니다. 새 버전은 GPU 사용을 극대화하기 위해 VRAM 할당을 최적화한 스케줄링을 사용하지만, 일부 하드웨어 및 모델에서는 CPU와 GPU 간의 분할이 변경되어 항상 개선되는 것은 아닙니다.

모델이 제 GPU VRAM에 맞지 않는다면 어떻게 해야 하나요?

Ollama는 일부 레이어를 CPU로 오프로드하고 나머지는 GPU에 유지할 수 있습니다. CPU/GPU 분할은 사용 가능한 VRAM, 모델 크기 및 Ollama 버전에 따라 달라집니다. 일반적으로 더 많은 CPU 오프로드는 추론 속도가 느려지게 됩니다.

Ollama의 새로운 모델 스케줄링은 더 많은 VRAM을 사용하나요?

일부 설정에서는 새로운 스케줄링이 더 많은 VRAM을 할당하고 GPU에 더 많은 레이어를 유지하여 초당 토큰 수가 증가할 수 있습니다. 다른 설정(예: 16GB VRAM과 대규모 모델)에서는 행동이 달라질 수 있으며, 더 많은 부하가 CPU로 이전될 수 있습니다.

Ollama의 VRAM 및 CPU/GPU 사용량을 확인하는 방법은 무엇인가요?

모델별 통계를 확인하려면 ollama ps를, GPU 메모리 사용량을 확인하려면 nvidia-smi를 실행하세요. 이 명령어는 실행 중인 모델의 할당된 VRAM 및 CPU/GPU 레이어 분배 상황을 보여줍니다.

LLM 성능과 벤치마크에 대한 더 많은 정보는 어디에서 찾을 수 있나요?

우리 LLM 성능 허브는 처리량 대 지연 시간, VRAM 제한, 병렬 요청 및 런타임과 하드웨어에 걸친 벤치마크를 다룹니다.

Ollama 새 버전(0.12.1)의 메모리 할당 및 모델 스케줄링

내가 직접 수행한 ollama 모델 스케줄링 테스트

Page content

여기에서 저는 새로운 버전의 Ollama가 모델에 얼마나 많은 VRAM을 할당하는지와 이전 버전의 Ollama를 비교하고 있습니다. 새로운 버전은 오히려 더 나빠졌습니다.

통과량, 지연, VRAM, 그리고 런타임과 하드웨어에 걸쳐 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하십시오.

공식 웹사이트(공식 웹사이트)에 따르면, 새로운 Ollama 릴리스에는 새로운 모델 스케줄링 기능이 포함되어 있습니다.

GPU 사용률 최대화:
Ollama의 새로운 메모리 관리 방식은 GPU에 더 많은 메모리를 할당하여
토큰 생성 및 처리 속도를 증가시킵니다.

또한 몇 가지 예시가 제공되어 있습니다. 예를 들어:

긴 컨텍스트

    GPU: 1x NVIDIA GeForce RTX 4090
    모델: gemma3:12b
    컨텍스트 길이: 128k

구버전                                 신버전
52.02 토큰/초의 토큰 생성 속도         85.54 토큰/초의 토큰 생성 속도
19.9GiB의 VRAM                        21.4GiB의 VRAM
48⁄49 레이어가 GPU에 로드됨           49⁄49 레이어가 GPU에 로드됨

여기에서 저는 제 PC에서 어떻게 작동하는지 테스트하고 있습니다. 제가 얻은 결과는 공식 테스트와 매우 다르며, 거의 반대되는 결과를 보였습니다. 제가 사용한 하드웨어 구성이 약간 다르고, 다른 모델을 테스트했지만, 결과는 전혀 개선되지 않았으며, 오히려 더 나빠졌습니다. 이것은 Ollama Enshittification의 첫 징후에 대한 포스트와 일치합니다.

ollama llamas 이 이미지는 Ollama 웹사이트의 블로그 포스트에서 가져온 것입니다.

TL;DR

제가 테스트한 것은 Ollama 의 새로운 버전이 제 16GB VRAM에 맞지 않는 LLM을 어떻게 스케줄링하는지입니다.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

ollama run <모델명>을 실행한 후, who are you?와 같은 간단한 질문을 하였고, 별도의 터미널에서 ollama ps와 nvidia-smi의 응답을 확인했습니다. 모두 매우 간단한 과정이었습니다.

qwen3:30b-a3b만 CPU/GPU 분산이 동일하게 나타났으며, 나머지 세 모델은 새로운 버전에서 더 많은 비중이 CPU에 할당되었습니다. 제 테스트에 따르면, 실망스럽게도 Ollama의 새로운 버전은 오히려 더 나빠졌으며, 이러한 결과는 Ollama 블로그에 있는 포스트와 모순됩니다.

상세 비교 데이터

모델	이전 버전: 할당된 VRAM	이전 버전: CPU/GPU	새 버전: 할당된 VRAM	새 버전: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

실망했습니다.

더 많은 벤치마크, 메모리 조정, 성능 가이드라인은 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하십시오.

TL;DR

상세 비교 데이터

유용한 링크