16GB VRAM GPU上でOllamaを使用したLLMの性能比較

RTX 4080(16GB VRAM)でのLLM速度テスト

目次

大規模言語モデルをローカルで実行すると、プライバシーの確保、オフラインでの使用が可能になり、APIコストはゼロになります。このベンチマークでは、RTX 4080上で動作する14のポピュラーなLLMs on Ollamaから期待できる性能が明らかになります。

16GBのVRAMを持つGPUでは、常にトレードオフに直面しました:より大きなモデルで潜在的な品質の向上、またはより小さなモデルで高速な推論。LLMの性能に関する詳細な情報—スループットとレイテンシー、VRAMの制限、並列リクエスト、およびランタイムにわたるベンチマークについては、LLM Performance: Benchmarks, Bottlenecks & Optimizationを参照してください。

LLM performance on Ollama - reranking cockroaches

TL;DR

RTX 4080 16GBでOllama 0.17.7を使用したLLM性能の比較表を更新しました。(2026-03-09)にQwen 3.5 9b, 9bq8, 27b, 35bモデルを追加しました:

モデル RAM+VRAM 使用量 CPU/GPU 分割 タークン/秒
gpt-oss:20b 14 GB 100% GPU 139.93
qwen3.5:9b 9.3 GB 100% GPU 90.89
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3.5:9b-q8_0 13 GB 100% GPU 61.22
qwen3-coder:30b 20 GB 25%/75% CPU/GPU 57.17
qwen3-vl:30b-a3b 22 GB 30%/70% CPU/GPU 50.99
glm-4.7-flash 21 GB 27%/73% CPU/GPU 33.86
nemotron-3-nano:30b 25 GB 38%/62% CPU/GPU 32.77
qwen3.5:35b 27 GB 43%/57% CPU/GPU 20.66
devstral-small-2:24b 19 GB 18%/82% CPU/GPU 18.67
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 18.51
gpt-oss:120b 66 GB 78%/22% CPU/GPU 12.64
qwen3.5:27b 24 GB 43%/57% CPU/GPU 6.48

重要な洞察:VRAMに完全に収まるモデルははるかに高速です。GPT-OSS 20Bは139.93トークン/秒を達成しますが、GPT-OSS 120BはCPUオフロードが重く、12.64トークン/秒と11倍の速度差があります。

テストハードウェア構成

ベンチマークは以下のシステムで実施されました:

  • GPU:NVIDIA RTX 4080(16GB VRAM)
  • CPU:Intel Core i7-14700(8 P-コア + 12 E-コア)
  • RAM:64GB DDR5-6000

これは、ローカルLLM推論のための一般的な高級コンシューマー構成です。16GB VRAMは重要な制約で、これはGPU上で完全に実行できるモデルとCPUオフロードが必要なモデルを決定します。

モデルがVRAM容量を超える場合、OllamaがIntel CPUコアを使用する方法を理解することが重要になります。CPU性能はオフロードされたレイヤーの推論速度に直接影響を与えます。

このベンチマークの目的

このベンチマークの主な目的は、現実的な条件下での推論速度を測定することでした。私は、Mistral Small 3.2 24Bが言語品質に優れており、Qwen3 14Bが私の特定の使用ケースにおいて指示に従う能力が優れているという経験がありました。

このベンチマークは実用的な質問に答えます:各モデルがテキストをどのくらいの速度で生成し、VRAMの制限を超えた場合の速度ペナルティはどれくらいですか?

テストパラメータ:

  • コンテキストサイズ:19,000トークン。これは私のGenerateリクエストの平均値です。
  • プロンプト:“compare weather and climate between capital cities of australia”
  • メトリクス:評価速度(生成中のトークン/秒)

Ollamaのインストールとバージョン

すべてのテストではOllamaバージョン0.15.2を使用しました。テスト時の最新リリースです。 後日、Ollama v 0.17.7で再実行しました—Qwen3.5モデルを追加するためです。 このベンチマークで使用したOllamaコマンドの完全な参照については、Ollama cheatsheetを参照してください。

LinuxでOllamaをインストールする方法:

curl -fsSL https://ollama.com/install.sh | sh

インストールを確認:

ollama --version

スペース制約によりモデルを別のドライブに保存する必要がある場合は、Ollamaモデルを別のドライブに移動する方法を確認してください。

テストしたモデル

以下のモデルがアルファベット順にベンチマークされました:

モデル パラメータ 量子化 メモ
devstral-small-2:24b 24B Q4_K_M コードに特化
glm-4.7-flash 30B Q4_K_M 考えモデル
gpt-oss:20b 20B Q4_K_M 最も高速
gpt-oss:120b 120B Q4_K_M 最大のテストモデル
ministral-3:14b 14B Q4_K_M Mistralの効率的なモデル
mistral-small3.2:24b 24B Q4_K_M すぐれた言語品質
nemotron-3-nano:30b 30B Q4_K_M NVIDIAの提供
qwen3:14b 14B Q4_K_M 指示に従う能力が最良
qwen3.5:9b 9B Q4_K_M 高速で完全にGPU
qwen3.5:9b-q8_0 9B Q8_0 高品質で完全にGPU
qwen3.5:27b 27B Q4_K_M 高品質だがOllamaでは遅い
qwen3-vl:30b-a3b 30B Q4_K_M 視覚機能あり
qwen3-coder:30b 30B Q4_K_M コードに特化
qwen3.5:35b 35B Q4_K_M 良いコード能力

モデルをダウンロードするには:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

CPUオフロードの理解

モデルのメモリ要件が利用可能なVRAMを超えると、Ollamaは自動的にモデルレイヤーをGPUとシステムRAMの間で分配します。出力は「18%/82% CPU/GPU」といったパーセンテージの分割として表示されます。

これは大きなパフォーマンスの影響を与えます。 各トークン生成にはCPUとGPUメモリ間のデータ転送が必要であり、オフロードされたレイヤーごとにボトルネックが重なってきます。

結果からパターンが明確です:

  • 100% GPUモデル:61-140トークン/秒
  • 70-82% GPUモデル:19-51トークン/秒
  • 22% GPU(主にCPU):12.6トークン/秒

これは、20Bパラメータモデルが実際には120Bモデルを11倍も上回る理由を説明しています。複数の同時リクエストを処理する予定がある場合は、Ollamaが並列リクエストを処理する方法を理解することが容量計画において不可欠です。

詳細なベンチマーク結果

GPU上100%で動作するモデル

GPT-OSS 20B — 速度のチャンピオン

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

139.93トークン/秒で、GPT-OSS 20Bは速度を重視するアプリケーションにおいて明確な勝者です。14GBのVRAMのみを使用し、より大きなコンテキストウィンドウやその他のGPUワークロードに余裕があります。

Qwen3 14B — 優れたバランス

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

私の経験では、Qwen3 14Bは指示に従う能力が最良で、12GBのメモリ使用量が快適です。61.85トークン/秒で、インタラクティブな使用には十分な応答速度です。

Qwen3をアプリケーションに統合する開発者向けには、LLM Structured Output with Ollama and Qwen3で構造化されたJSON応答の抽出方法をご覧ください。

Ministral 3 14B — 高速でコンパクト

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistralの小さなモデルは70.13トークン/秒で、完全にVRAMに収まります。最大の速度でMistralファミリの品質が必要な場合の良い選択肢です。

qwen3.5:9b - 速く、新しいモデル

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - q8量子化

この量子化はq4に比べてqwen3.5:9bの性能を30%低下させます。

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

CPUオフロードが必要なモデル

qwen3-coder:30b - 30B LLMセットの中で最も速いモデル、テキスト専用だから

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — 部分的にオフロードされた性能が最も良い

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

30%のレイヤーがCPUにあるにもかかわらず、Qwen3-VLは50.99トークン/秒を維持します。視覚機能により、マルチモーダルタスクにおいて多様性が加わります。

Mistral Small 3.2 24B — 質と速度のトレードオフ

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2は優れた言語品質を提供しますが、速度のペナルティが大きいです。18.51トークン/秒では、インタラクティブなチャットで明らかに遅くなります。品質が重要で、レイテンシーが重要でないタスクには価値があります。

GLM 4.7 Flash — MoE思考モデル

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flashは30B-A3B Mixture of Expertsモデルで、30Bの総パラメータ数のうち、1トークンあたりに3Bがアクティブです。“思考"モデルとして、応答前の内部的な推論を生成します。33.86トークン/秒は思考と出力トークンの両方を含みます。CPUオフロードにもかかわらず、MoEアーキテクチャにより、比較的速いです。

qwen3.5:35b - 自己ホスティング性能が良好な新モデル

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — ヘビーなモデル

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

16GB VRAMで120Bモデルを実行することは技術的には可能ですが、非常に困難です。78%がCPUにあるため、12.64トークン/秒でインタラクティブな使用は不快です。ラテンシーが重要でないバッチ処理に適しています。

qwen3.5:27b - Ollamaでは遅いがスマートなモデル

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

qwen3.5:27bをテストしましたが、OpenCodeでこのモデルの性能に関する非常に良い評価を得ました。非常に能力があり、知識が豊富で、素晴らしいツール呼び出し機能がありますが、私のマシンではOllama上では遅いです。他のLLM自ホスティングプラットフォームを試して、はるかに高い速度を得ました。Ollamaを離れることの時が来たと思います。後で少し詳しく書きます。

実用的な推奨事項

インタラクティブなチャット

VRAMに完全に収まるモデルを使用してください:

  1. GPT-OSS 20B — 最大の速度(139.93 t/s)
  2. Ministral 3 14B — Mistral品質の良好な速度(70.13 t/s)
  3. Qwen3 14B — 指示に従う能力が最良(61.85 t/s)

より良いチャット体験のために、ローカルOllama用のオープンソースチャットUIを検討してください。

バッチ処理

これはまた、私の機器では14GB VRAMです。

速度がより重要でない場合:

  • Mistral Small 3.2 24B — 優れた言語品質
  • Qwen3-VL 30B — 視覚+テキストの能力

速度がまったく重要でない場合:

  • Qwen3.5:35b - 良好なコーディング能力
  • Qwen3.5:27b - 非常に良好だが、Ollamaでは遅い。llama.cpp上でこのモデルをホストするには成功しました。

開発とコーディング

Ollamaでアプリケーションを開発している場合:

代替ホスティングオプション

Ollamaの制限が気になる場合は(Ollama enshittificationの懸念を参照)、ローカルLLMホスティングガイドまたはDockerモデルランナーとOllamaの比較を参照してください。

結論

16GB VRAMでは、適切な選択をすれば、印象的な速度で機能的なLLMを実行できます。主要な発見点:

  1. インタラクティブな使用にはVRAMの制限内に留まることが重要です。20Bモデルの140トークン/秒は、120Bモデルの12トークン/秒を圧倒的に上回ります。

  2. GPT-OSS 20Bは純粋な速度で勝利しますが、Qwen3 14Bは指示に従うタスクにおける速度と能力のバランスが最良です。

  3. CPUオフロードは機能しますが、3-10倍の遅延を予期してください。バッチ処理には受け入れ可能ですが、チャットには不快です。

  4. コンテキストサイズは重要です。 ここでは19Kのコンテキストが使用され、VRAMの使用量を大幅に増加させます。GPU利用率を向上させるためにコンテキストサイズを減らしてください。

ローカルLLMとウェブ結果を組み合わせたAI駆動型の検索については、Ollamaと併用したPerplexicaの自ホスティングを参照してください。

Ollamaと他のランタイムにわたるベンチマーク、VRAMとスループットのトレードオフ、およびパフォーマンスチューニングについては、LLM Performance: Benchmarks, Bottlenecks & Optimizationハブを参照してください。

有用なリンク

内部リソース

外部参照