llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)
16 GB VRAMにおけるllama.cppのトークン処理速度(表)。
ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。
llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。
VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU
この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。
LLMの速度比較表(トークン/秒とVRAM)
| モデル | サイズ | 19K VRAM | 19K GPU/CPU | 19K T/s | 32K VRAM | 32K ロード | 32K T/s | 64K VRAM | 64K ロード | 64K T/s |
|---|---|---|---|---|---|---|---|---|---|---|
| Qwen3.6-35B-A3B-UD-IQ3_XXS | 13.2 | 13.8GB | 96%/100% | 147.5 | 14.0GB | 96%/101% | 149.1 | 14.7GB | 96%/101% | 145.8 |
| Qwen3.6-35B-A3B-UD-IQ4_XS | 17.7 | 14.3GB | 62%/266% | 95.0 | 14.9GB | 58%/279% | 92.3 | 14.9GB | 57%/293% | 86.4 |
| Qwen3.5-35B-A3B-UD-IQ3_S | 13.6 | 14.3GB | 93%/100% | 136.4 | 14.6GB | 93%/100% | 138.5 | 14.9GB | 88%/115% | 136.8 |
| Qwen3.5-27B-IQ3_XXS-bartowsky | 11.3 | 12.8 | 98/100 | 44.9 | 13.5 | 98/100 | 44.9 | 14.5 | 45/415 | 23.6 |
| Qwen3.5-27B-UD-IQ3_XXS | 11.5 | 12.9 | 98/100 | 45.3 | 13.7 | 98/100 | 45.1 | 14.7 | 45/410 | 22.7 |
| Qwen3.5-27B-IQ4_XS.gguf | 15.0 | 14.6 | 49/406 | 20.5 | 14.7 | 37/465 | 17.4 | 14.7 | 23/533 | 13.3 |
| Qwen3.5-122B-A10B-UD-IQ3_XXS | 44.7 | 14.7 | 30/470 | 22.3 | 14.7 | 30/480 | 21.8 | 14.7 | 28/490 | 21.5 |
| Qwen3.5-122B-A10B-UD-IQ3_S | 46.5 | 14.7 | 25/516 | 19.4 | 14.7 | 24/516 | 19.5 | 14.7 | 24/516 | 19.6 |
| Mistral-Small-4-119B UD-IQ3_XXS | 42.8 | 14.8 | 28/585 | 30.4 | 14.7 | 27/574 | 28.5 | 14.9 | 20/590 | 31.5 |
| Qwen3-Coder-Next-UD-IQ4_XS | 38.4 | 14.6 | 32/460 | 41.1 | 14.7 | 29/440 | 41.3 | 14.8 | 32/460 | 38.3 |
| Nemotron Super 120b IQ3_XXS | 56.2 | 15.0 | 26/517 | 17.5 | 14.6 | 26/531 | 17.4 | 14.6 | 26/535 | 17.6 |
| gemma-4-26B-A4B-it-UD-IQ4_XS | 13.4 | 14.7 | 95/100 | 121.7 | 14.9 | 95/115 | 114.9 | 14.9 | 75/190 | 96.1 |
| gemma-4-31B-it-UD-IQ3_XXS | 11.8 | 14.8 | 68/287 | 29.2 | 14.8 | 41/480 | 18.4 | 14.8 | 18/634 | 8.1 |
| GLM-4.7-Flash-IQ4_XS | 16.3 | 15.0 | 66/240 | 91.8 | 14.9 | 62/262 | 86.1 | 14.9 | 53/313 | 72.5 |
| GLM-4.7-Flash-REAP-23B IQ4_XS | 12.6 | 13.7 | 92/100 | 122.0 | 14.4 | 95/102 | 123.2 | 14.9 | 71/196 | 97.1 |
19K、32K、64Kはコンテキストのサイズを示します。
上記の load は GPUの負荷 です。
この列の数値が低い場合は、モデルが主にCPUで動作しており、このハードウェアでは十分な速度が得られていないことを意味します。これは、モデルのGPUへの配置量が不足している場合や、コンテキストの処理がホスト(CPU)側に押し戻される際に、一般的に観察されるパターンと一致します。
llama.cpp、LLMのパフォーマンス、OpenCodeおよびその他の比較について
インストールパス、llama-cli と llama-server の使用例、およびVRAMとトークン/秒(コンテキストサイズ、バッチ処理、-ngl)に関連する重要なフラグについては、まず llama.cppのクイックスタート:CLIとサーバー を参照してください。
より広範なパフォーマンスの概要(スループットとレイテンシ、VRAMの制限、並列リクエスト、およびハードウェアとランタイム全体でのベンチマークの統合方法)については、2026年のLLMパフォーマンス:ベンチマーク、ボトルネック&最適化 を参照してください。
応答の質は他の記事で分析されています。例えば:
- OpenCode向けの最優秀LLM - ローカルでテスト済み OpenCodeの詳細については、OpenCodeクイックスタート:ターミナルAIコーディングエージェントのインストール、設定、および使用方法 で読むことができます。
- Hugoページの翻訳品質の比較 - Ollama上のLLM
Ollama上のLLMについても同様のテストを行いました:16GB VRAM GPU向けOllamaの最優秀LLM。
llama.cpp経由でQwen 3.6 27Bまたは35Bを実行しており、生成速度をさらに向上させたい場合は、Qwen 3.6 MTP vs 標準デコーディング(16GB GPU) を参照してください。MTP投機的デコーディングは、27Bのデンスモデルにおいて最大67%の生成スループット向上をもたらします。各 --spec-draft-n-max レベルにおけるVRAMコストとコンテキストウィンドウのトレードオフを示すテーブルも掲載されています。
なぜコンテキスト長がトークン/秒に影響するのか
19Kから32K、あるいは64Kトークンへとコンテキストを拡大すると、KVキャッシュが成長し、VRAMへの圧力が高まります。一部の行では64Kでトークン/秒が大幅に低下しているのに対し、他の行では横ばいとなっています。これは、モデルが一般的に「遅い」と仮定するのではなく、量子化、コンテキストの制限、またはレイヤーのオフロード設定を見直す必要があることを示すシグナルです。
私がテストのために選択したモデルと量子化は、自分自身で実行し、この機器上でコスト/ベネフィットの観点から良い恩恵をもたらすかどうかを確認するためのものでした。そのため、ここでは200kコンテキストのq8量子化などは使用していません :) …
GPU/CPUは nvitop によって測定された負荷です。
llama.cppがGPUへのレイヤーのアンロードを自動構成する際には、1GBの空き領域を確保しようとするようになっています。
このパラメータはコマンドライン引数 -ngl で手動で指定できますが、ここでは細かくチューニングしていません。
コンテキストウィンドウサイズを32kから64kに増やした際にパフォーマンスが著しく低下する場合、アンロードされるレイヤーの数を微調整することで、64kでの速度を向上させることができることを理解しておく必要があります。
テストハードウェアとllama.cppのセットアップ
以下の構成のPCでLLMの速度をテストしました:
- CPU i-14700
- RAM 64GB 6000Hz (2x32GB)
- GPU RTX-4080
- NVidiaドライバー搭載のUbuntu
- llama.cpp/llama-cli、アンロードレイヤーは指定なし
- llama-cli開始前の初期VRAM使用量:300MB
128Kコンテキストでの追加実行(Qwen3.5 27Bおよび122B)
| モデル | 128K ロード | 128K T/s |
|---|---|---|
| Qwen3.5-27B-UD-IQ3_XXS | 16/625 | 9.6 |
| Qwen3.5-122B-A10B-UD-IQ3_XXS | 27/496 | 19.2 |
微調整された実行
興味深いモデルと量子化については、VRAMをより効果的に活用するための特殊なllama-cppコマンドラインパラメータを探す試みを行いました。 以下が達成できた結果です:
| モデル | コンテキスト | GPU上のレイヤー数 | CPU/CPU負荷 | 速度 |
|---|---|---|---|---|
| Qwen3.5-27B-IQ4_XS.gguf | 18k | 65 | 98%/100% | 38.0 |
| Qwen3.5-27B-IQ4_XS.gguf | 64k | 53 | 33%/488% | 15.7 |
16GB VRAM環境に向けた結論
- 現在の一番のお気に入りである Qwen3.5-27B-UD-IQ3_XXS は、スイートスポットである50kコンテキストで良好な結果を示しています(約36t/sを得ています)。
- Qwen3.5-122B-A10B-UD-IQ3_XXS は、64Kを超えるコンテキストにおいて、パフォーマンス面で Qwen3.5 27B を凌駕しています。
- Qwen3.5-35B-A3B-UD-IQ3_S を100kトークンのコンテキスト処理まで押し広げることができ、VRAMに収まるため、パフォーマンスの低下はありません。
- gemma-4-31B は16GB VRAMでは使用しませんが、gemma-4-26B はまあまあかもしれません… テストが必要です。
- Nemotron cascade 2 と GLM-4.7 Flash REAP 23B の動作がどのくらい良いかもテストする必要があります。Qwen3.5-35B q3 より優れているでしょうか? 疑わしいですが、念のため確認するためにテストしてみます。