Question 1

Ollamaはモデルに対してVRAMをどのように割り当てますか？

Accepted Answer

Ollama は可能であればモデルのレイヤーを GPU VRAM に読み込みます。新しいバージョンでは、GPU の使用率を最大化するために VRAM の割り当てを最適化するスケジューリングが採用されており、一部のハードウェアやモデルでは CPU と GPU 間の割り当てが変化し、必ずしも改善されるとは限りません。

Question 2

モデルが私のGPUのVRAMに収まらない場合はどうしますか？

Accepted Answer

Ollama はいくつかのレイヤーを CPU にオフロードし、残りを GPU に保持できます。CPU/GPU の分割は、利用可能な VRAM、モデルサイズ、および Ollama のバージョンに依存します。通常、CPU へのオフロードが多ければ多いほど、推論は遅くなります。

Question 3

Ollamaの新しいモデルスケジューリングは、より多くのVRAMを使用しますか？

Accepted Answer

一部の設定では、新しいスケジューリングによりVRAMがより多く割り当てられ、GPU上に保持されるレイヤーの数も増え、1秒あたりのトークン数が増加する場合があります。他の設定（例：16GBのVRAMと大規模モデル）では挙動が異なる可能性があり、より多くの処理負荷がCPUに移行する場合もあります。

Question 4

OllamaのVRAMおよびCPU/GPUの使用状況を確認する方法は？

Accepted Answer

ollama ps を実行してモデルごとの統計情報を、nvidia-smi を実行して GPU メモリ情報を確認してください。これらは、実行中のモデルにおける割り当てられた VRAM および CPU/GPU ごとのレイヤーの分割状況を表示します。

Question 5

LLMの性能とベンチマークについてもっと知るにはどこで確認できますか？

Accepted Answer

弊社のLLMパフォーマンスハブでは、スループットとレイテンシの関係、VRAMの制限、並列リクエスト、およびランタイムとハードウェアにわたるベンチマークについて取り上げています。

モデル	旧バージョン: VRAM割り当て	旧バージョン: CPU/GPU	新バージョン: VRAM割り当て	新バージョン: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング

TL;DR

詳細な比較データ

有用なリンク