Question 1

モデルがVRAMに収まらない場合、OllamaはCPUコアをどのように使用しますか？

Accepted Answer

Ollama はいくつかのレイヤーを CPU にオフロードします。API（例：generate リクエスト）における num_thread オプションを通じて、使用するスレッド数を設定できます。多くのスレッド（例：16 スレッド）を使用すると、スレッド数が少ない場合と比較して、10〜14％程度、秒あたりのトークン数が向上する可能性がありますが、スレッド数をあまりにも多く設定するとパフォーマンスが低下する可能性があります。

Question 2

OLLAMA_NUM_THREADSはOllamaでのCPU使用量を制限しますか？

Accepted Answer

OLLAMA_NUM_THREADS は、スレッド数を制限するための環境変数です。一部の設定ではこの設定が無視される場合があり、Ollama は依然として多くのコアを使用する可能性があります。API における per-request の num_thread オプションは、多くの場合、より明確な効果を持ちます。

Question 3

Ollama CPUオフロードで最適なnum_thread値はどれですか？

Accepted Answer

ご使用のCPUによります。インテルのパフォーマンスコアと効率コアを用いたテストでは、12〜16スレッドの値がオフロードレイヤーにおいて秒あたりのトークン数が最良となることがよくありました。すべての物理コア（例：20コア）を使用すると、パフォーマンスが低下する場合があります。そのため、各マシンごとに調整することをお勧めします。

Question 4

なぜモデルがCPUを使用しているときにOllamaの推論が遅いのですか？

Accepted Answer

CPUオフロードはフルGPUに比べてはるかに遅く、スレッド数を増やしてもギャップは大きい（例：1桁の数と10桁の数のトークン数/秒）。より高速な推論が必要な場合は、VRAMに収まるようにサイズが調整されたモデルや、VRAM容量が大きいGPUを使用してください。

Question 5

LLMの性能とベンチマークについてもっと知るにはどこで見つけることができますか？

Accepted Answer

弊社のLLMパフォーマンスハブでは、スループットとレイテンシの関係、VRAMの制限、並列リクエスト、およびランタイムとハードウェアにわたるベンチマークについて取り上げています。

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

OLLAMA_NUM_THREADS設定パラメータ

num_thread呼び出しオプション

結論

有用なリンク