Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング
オラマモデルのスケジューリングに関する自分のテスト
ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、以前のバージョンよりも劣っています。
スループット、レイテンシー、VRAM、ベンチマークなど、ランタイムやハードウェアにわたる詳細については、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化をご覧ください。
公式ウェブサイトに記載されているように、新しいOllamaリリースには「New model scheduling」が導入されています。
GPU利用率の最大化:
Ollamaの新しいメモリ管理は、GPUにより多くのメモリを割り当て、
トークン生成および処理速度を向上させます。
いくつかの例が挙げられています。例えば:
長文コンテキスト
GPU: 1x NVIDIA GeForce RTX 4090
モデル: gemma3:12b
コンテキスト長さ: 128k
旧バージョン 新バージョン
52.02トークン/秒 トークン生成速度 85.54トークン/秒 トークン生成速度
19.9GiBのVRAM 21.4GiBのVRAM
48⁄49レイヤーがGPUにロードされた 49⁄49レイヤーがGPUにロードされた
ここでは、私のPC上でどのように動作するかをテストしています。 私の結果は公式テストとは大きく異なり、完全に逆の結果となっています。 ハードウェア構成がわずかに異なり、テストしたモデルも異なっているものの、結果はまったく改善されておらず、むしろ悪化していることが多いです。 これは、Ollama Enshittificationの最初の兆候に関する投稿と一致しています。
この画像は、Ollamaウェブサイトのブログ投稿からのものです。
TL;DR
私は、16GB VRAMに収まらないLLMをスケジュールする新しいOllamaバージョンの動作をテストしました。
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
ollama run <modelname>を実行し、その後、「who are you?」などの単純な質問をした後、別のターミナルでollama psとnvidia-smiの出力を確認しました。すべて非常に単純です。
qwen3:30b-a3bのみが同じCPU/GPUの分散を示し、他の3つのモデルは新しいバージョンではより多くのCPUに押し込まれています。 私のテストでは、残念ながら、新しいOllamaバージョンは以前のバージョンよりも劣っており、この結果はOllamaブログの投稿と矛盾しています。
詳細な比較データ
| モデル | 旧バージョン: VRAM割り当て | 旧バージョン: CPU/GPU | 新バージョン: VRAM割り当て | 新バージョン: CPU/GPU |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
失望しました。
より多くのベンチマーク、メモリチューニング、パフォーマンスガイドラインについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化ハブをご覧ください。