llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)

16 GB VRAMにおけるllama.cppのトークン処理速度(表)。

目次

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表(トークン/秒とVRAM)

モデル サイズ 19K VRAM 19K GPU/CPU 19K T/s 32K VRAM 32K ロード 32K T/s 64K VRAM 64K ロード 64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS 13.2 13.8GB 96%/100% 147.5 14.0GB 96%/101% 149.1 14.7GB 96%/101% 145.8
Qwen3.6-35B-A3B-UD-IQ4_XS 17.7 14.3GB 62%/266% 95.0 14.9GB 58%/279% 92.3 14.9GB 57%/293% 86.4
Qwen3.5-35B-A3B-UD-IQ3_S 13.6 14.3GB 93%/100% 136.4 14.6GB 93%/100% 138.5 14.9GB 88%/115% 136.8
Qwen3.5-27B-IQ3_XXS-bartowsky 11.3 12.8 98/100 44.9 13.5 98/100 44.9 14.5 45/415 23.6
Qwen3.5-27B-UD-IQ3_XXS 11.5 12.9 98/100 45.3 13.7 98/100 45.1 14.7 45/410 22.7
Qwen3.5-27B-IQ4_XS.gguf 15.0 14.6 49/406 20.5 14.7 37/465 17.4 14.7 23/533 13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS 44.7 14.7 30/470 22.3 14.7 30/480 21.8 14.7 28/490 21.5
Qwen3.5-122B-A10B-UD-IQ3_S 46.5 14.7 25/516 19.4 14.7 24/516 19.5 14.7 24/516 19.6
Mistral-Small-4-119B UD-IQ3_XXS 42.8 14.8 28/585 30.4 14.7 27/574 28.5 14.9 20/590 31.5
Qwen3-Coder-Next-UD-IQ4_XS 38.4 14.6 32/460 41.1 14.7 29/440 41.3 14.8 32/460 38.3
Nemotron Super 120b IQ3_XXS 56.2 15.0 26/517 17.5 14.6 26/531 17.4 14.6 26/535 17.6
gemma-4-26B-A4B-it-UD-IQ4_XS 13.4 14.7 95/100 121.7 14.9 95/115 114.9 14.9 75/190 96.1
gemma-4-31B-it-UD-IQ3_XXS 11.8 14.8 68/287 29.2 14.8 41/480 18.4 14.8 18/634 8.1
GLM-4.7-Flash-IQ4_XS 16.3 15.0 66/240 91.8 14.9 62/262 86.1 14.9 53/313 72.5
GLM-4.7-Flash-REAP-23B IQ4_XS 12.6 13.7 92/100 122.0 14.4 95/102 123.2 14.9 71/196 97.1

19K、32K、64Kはコンテキストのサイズを示します。

上記の loadGPUの負荷 です。 この列の数値が低い場合は、モデルが主にCPUで動作しており、このハードウェアでは十分な速度が得られていないことを意味します。これは、モデルのGPUへの配置量が不足している場合や、コンテキストの処理がホスト(CPU)側に押し戻される際に、一般的に観察されるパターンと一致します。

llama.cpp、LLMのパフォーマンス、OpenCodeおよびその他の比較について

インストールパス、llama-clillama-server の使用例、およびVRAMとトークン/秒(コンテキストサイズ、バッチ処理、-ngl)に関連する重要なフラグについては、まず llama.cppのクイックスタート:CLIとサーバー を参照してください。

より広範なパフォーマンスの概要(スループットとレイテンシ、VRAMの制限、並列リクエスト、およびハードウェアとランタイム全体でのベンチマークの統合方法)については、2026年のLLMパフォーマンス:ベンチマーク、ボトルネック&最適化 を参照してください。

応答の質は他の記事で分析されています。例えば:

Ollama上のLLMについても同様のテストを行いました:16GB VRAM GPU向けOllamaの最優秀LLM

llama.cpp経由でQwen 3.6 27Bまたは35Bを実行しており、生成速度をさらに向上させたい場合は、Qwen 3.6 MTP vs 標準デコーディング(16GB GPU) を参照してください。MTP投機的デコーディングは、27Bのデンスモデルにおいて最大67%の生成スループット向上をもたらします。各 --spec-draft-n-max レベルにおけるVRAMコストとコンテキストウィンドウのトレードオフを示すテーブルも掲載されています。

なぜコンテキスト長がトークン/秒に影響するのか

19Kから32K、あるいは64Kトークンへとコンテキストを拡大すると、KVキャッシュが成長し、VRAMへの圧力が高まります。一部の行では64Kでトークン/秒が大幅に低下しているのに対し、他の行では横ばいとなっています。これは、モデルが一般的に「遅い」と仮定するのではなく、量子化、コンテキストの制限、またはレイヤーのオフロード設定を見直す必要があることを示すシグナルです。

私がテストのために選択したモデルと量子化は、自分自身で実行し、この機器上でコスト/ベネフィットの観点から良い恩恵をもたらすかどうかを確認するためのものでした。そのため、ここでは200kコンテキストのq8量子化などは使用していません :) …

GPU/CPUは nvitop によって測定された負荷です。

llama.cppがGPUへのレイヤーのアンロードを自動構成する際には、1GBの空き領域を確保しようとするようになっています。 このパラメータはコマンドライン引数 -ngl で手動で指定できますが、ここでは細かくチューニングしていません。 コンテキストウィンドウサイズを32kから64kに増やした際にパフォーマンスが著しく低下する場合、アンロードされるレイヤーの数を微調整することで、64kでの速度を向上させることができることを理解しておく必要があります。

テストハードウェアとllama.cppのセットアップ

以下の構成のPCでLLMの速度をテストしました:

  • CPU i-14700
  • RAM 64GB 6000Hz (2x32GB)
  • GPU RTX-4080
  • NVidiaドライバー搭載のUbuntu
  • llama.cpp/llama-cli、アンロードレイヤーは指定なし
  • llama-cli開始前の初期VRAM使用量:300MB

128Kコンテキストでの追加実行(Qwen3.5 27Bおよび122B)

モデル 128K ロード 128K T/s
Qwen3.5-27B-UD-IQ3_XXS 16/625 9.6
Qwen3.5-122B-A10B-UD-IQ3_XXS 27/496 19.2

微調整された実行

興味深いモデルと量子化については、VRAMをより効果的に活用するための特殊なllama-cppコマンドラインパラメータを探す試みを行いました。 以下が達成できた結果です:

モデル コンテキスト GPU上のレイヤー数 CPU/CPU負荷 速度
Qwen3.5-27B-IQ4_XS.gguf 18k 65 98%/100% 38.0
Qwen3.5-27B-IQ4_XS.gguf 64k 53 33%/488% 15.7

16GB VRAM環境に向けた結論

  • 現在の一番のお気に入りである Qwen3.5-27B-UD-IQ3_XXS は、スイートスポットである50kコンテキストで良好な結果を示しています(約36t/sを得ています)。
  • Qwen3.5-122B-A10B-UD-IQ3_XXS は、64Kを超えるコンテキストにおいて、パフォーマンス面で Qwen3.5 27B を凌駕しています。
  • Qwen3.5-35B-A3B-UD-IQ3_S を100kトークンのコンテキスト処理まで押し広げることができ、VRAMに収まるため、パフォーマンスの低下はありません。
  • gemma-4-31B は16GB VRAMでは使用しませんが、gemma-4-26B はまあまあかもしれません… テストが必要です。
  • Nemotron cascade 2 と GLM-4.7 Flash REAP 23B の動作がどのくらい良いかもテストする必要があります。Qwen3.5-35B q3 より優れているでしょうか? 疑わしいですが、念のため確認するためにテストしてみます。

購読する

システム、インフラ、AIエンジニアリングの新記事をお届けします。