Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング

オラマモデルのスケジューリングに関する自分のテスト

目次

ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、以前のバージョンよりも劣っています。

スループット、レイテンシー、VRAM、ベンチマークなど、ランタイムやハードウェアにわたる詳細については、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化をご覧ください。

公式ウェブサイトに記載されているように、新しいOllamaリリースには「New model scheduling」が導入されています。

GPU利用率の最大化:
Ollamaの新しいメモリ管理は、GPUにより多くのメモリを割り当て、
トークン生成および処理速度を向上させます。

いくつかの例が挙げられています。例えば:

長文コンテキスト

    GPU: 1x NVIDIA GeForce RTX 4090
    モデル: gemma3:12b
    コンテキスト長さ: 128k

旧バージョン                      新バージョン
52.02トークン/秒 トークン生成速度 85.54トークン/秒 トークン生成速度
19.9GiBのVRAM                  21.4GiBのVRAM
48⁄49レイヤーがGPUにロードされた 49⁄49レイヤーがGPUにロードされた

ここでは、私のPC上でどのように動作するかをテストしています。 私の結果は公式テストとは大きく異なり、完全に逆の結果となっています。 ハードウェア構成がわずかに異なり、テストしたモデルも異なっているものの、結果はまったく改善されておらず、むしろ悪化していることが多いです。 これは、Ollama Enshittificationの最初の兆候に関する投稿と一致しています。

ollama llamas この画像は、Ollamaウェブサイトのブログ投稿からのものです。

TL;DR

私は、16GB VRAMに収まらないLLMをスケジュールする新しいOllamaバージョンの動作をテストしました。

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

ollama run <modelname>を実行し、その後、「who are you?」などの単純な質問をした後、別のターミナルでollama psnvidia-smiの出力を確認しました。すべて非常に単純です。

qwen3:30b-a3bのみが同じCPU/GPUの分散を示し、他の3つのモデルは新しいバージョンではより多くのCPUに押し込まれています私のテストでは、残念ながら、新しいOllamaバージョンは以前のバージョンよりも劣っており、この結果はOllamaブログの投稿と矛盾しています。

詳細な比較データ

モデル 旧バージョン: VRAM割り当て 旧バージョン: CPU/GPU 新バージョン: VRAM割り当て 新バージョン: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

失望しました。

より多くのベンチマーク、メモリチューニング、パフォーマンスガイドラインについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化ハブをご覧ください。

有用なリンク