llama.cppでLLMを実行している際のGPU負荷が低いことは何を意味しますか？

これは多くのレイヤーがCPUに留まることを意味するため、トークン生成速度は急激に低下します。nglパラメータでGPUへのレイヤーオフロード数を増やす、より小さい量子化モデルを選択する、あるいはコンテキスト長を短くしてモデルのより多くの部分をGPUに収めるなどの対策を試してみてください。

16GBのVRAMにおいて、より長いコンテキストウィンドウはトークン毎秒数にどのような影響を与えるか？

コンテキストの長さが増加すると、KVキャッシュとVRAMの使用量が増大し、トークン生成速度（TPS）の低下や部分的なオフロードを強制する可能性があります。一方、コンテキストを短くしたり、小型モデルを採用したり、より積極的な量子化を行うことで、16GBの単一GPUでも高速な処理を維持できます。

16 GBのメモリに大規模モデルを収めるために重要な量子化のトレードオフ

低ビット量子化はVRAM使用量を削減し、トークン生成速度を向上させることができますが、品質が低下する可能性があります。16 GBのGPUでllama.cppを使用する場合、長いコンテキストや大きなチェックポイントが必要な際には、IQ3およびIQ4スタイルの量子化が一般的な妥協策となります。

16 GBのGPU1枚で、Mixture-of-Expertsモデルは高速に実行できるか？

MoEモデルは、各フォワードステップでネットワークの一部のみが実行されるため、高いトークン毎秒数（TPS）を実現できます。ただし、選択したコンテキスト長におけるアクティブなエキスパート、重み、およびKVキャッシュに対応する十分なVRAMが必要です。

同じGPU上で64Kのコンテキストが32Kに比べて大幅に低速になる場合、どのような対策を試すことができますか？

nglによりGPUに読み込まれるレイヤー数を調整するか、タスクに合わせてコンテキスト長を短くするか、あるいはより軽量な量子化（quantization）に切り替えてデバイス上のレイヤー数を増やし、KVキャッシュへの負荷を軽減してください。

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

16 GB VRAMにおけるllama.cppのトークン処理速度（表）。

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表（トークン/秒とVRAM）

モデル	サイズ	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K ロード	32K T/s	64K VRAM	64K ロード	64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS	13.2	13.8GB	96%/100%	147.5	14.0GB	96%/101%	149.1	14.7GB	96%/101%	145.8
Qwen3.6-35B-A3B-UD-IQ4_XS	17.7	14.3GB	62%/266%	95.0	14.9GB	58%/279%	92.3	14.9GB	57%/293%	86.4
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-IQ3_XXS-bartowsky	11.3	12.8	98/100	44.9	13.5	98/100	44.9	14.5	45/415	23.6
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-27B-IQ4_XS.gguf	15.0	14.6	49/406	20.5	14.7	37/465	17.4	14.7	23/533	13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
Qwen3.5-122B-A10B-UD-IQ3_S	46.5	14.7	25/516	19.4	14.7	24/516	19.5	14.7	24/516	19.6
Mistral-Small-4-119B UD-IQ3_XXS	42.8	14.8	28/585	30.4	14.7	27/574	28.5	14.9	20/590	31.5
Qwen3-Coder-Next-UD-IQ4_XS	38.4	14.6	32/460	41.1	14.7	29/440	41.3	14.8	32/460	38.3
Nemotron Super 120b IQ3_XXS	56.2	15.0	26/517	17.5	14.6	26/531	17.4	14.6	26/535	17.6
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K、32K、64Kはコンテキストのサイズを示します。

上記の load は GPUの負荷 です。この列の数値が低い場合は、モデルが主にCPUで動作しており、このハードウェアでは十分な速度が得られていないことを意味します。これは、モデルのGPUへの配置量が不足している場合や、コンテキストの処理がホスト（CPU）側に押し戻される際に、一般的に観察されるパターンと一致します。

llama.cpp、LLMのパフォーマンス、OpenCodeおよびその他の比較について

インストールパス、llama-cli と llama-server の使用例、およびVRAMとトークン/秒（コンテキストサイズ、バッチ処理、-ngl）に関連する重要なフラグについては、まず llama.cppのクイックスタート：CLIとサーバーを参照してください。

より広範なパフォーマンスの概要（スループットとレイテンシ、VRAMの制限、並列リクエスト、およびハードウェアとランタイム全体でのベンチマークの統合方法）については、2026年のLLMパフォーマンス：ベンチマーク、ボトルネック＆最適化を参照してください。

応答の質は他の記事で分析されています。例えば：

OpenCode向けの最優秀LLM - ローカルでテスト済み OpenCodeの詳細については、OpenCodeクイックスタート：ターミナルAIコーディングエージェントのインストール、設定、および使用方法で読むことができます。
Hugoページの翻訳品質の比較 - Ollama上のLLM

Ollama上のLLMについても同様のテストを行いました：16GB VRAM GPU向けOllamaの最優秀LLM。

llama.cpp経由でQwen 3.6 27Bまたは35Bを実行しており、生成速度をさらに向上させたい場合は、Qwen 3.6 MTP vs 標準デコーディング（16GB GPU）を参照してください。MTP投機的デコーディングは、27Bのデンスモデルにおいて最大67%の生成スループット向上をもたらします。各 --spec-draft-n-max レベルにおけるVRAMコストとコンテキストウィンドウのトレードオフを示すテーブルも掲載されています。

なぜコンテキスト長がトークン/秒に影響するのか

19Kから32K、あるいは64Kトークンへとコンテキストを拡大すると、KVキャッシュが成長し、VRAMへの圧力が高まります。一部の行では64Kでトークン/秒が大幅に低下しているのに対し、他の行では横ばいとなっています。これは、モデルが一般的に「遅い」と仮定するのではなく、量子化、コンテキストの制限、またはレイヤーのオフロード設定を見直す必要があることを示すシグナルです。

私がテストのために選択したモデルと量子化は、自分自身で実行し、この機器上でコスト/ベネフィットの観点から良い恩恵をもたらすかどうかを確認するためのものでした。そのため、ここでは200kコンテキストのq8量子化などは使用していません :) …

GPU/CPUは nvitop によって測定された負荷です。

llama.cppがGPUへのレイヤーのアンロードを自動構成する際には、1GBの空き領域を確保しようとするようになっています。このパラメータはコマンドライン引数 -ngl で手動で指定できますが、ここでは細かくチューニングしていません。コンテキストウィンドウサイズを32kから64kに増やした際にパフォーマンスが著しく低下する場合、アンロードされるレイヤーの数を微調整することで、64kでの速度を向上させることができることを理解しておく必要があります。

テストハードウェアとllama.cppのセットアップ

以下の構成のPCでLLMの速度をテストしました：

CPU i-14700
RAM 64GB 6000Hz (2x32GB)
GPU RTX-4080
NVidiaドライバー搭載のUbuntu
llama.cpp/llama-cli、アンロードレイヤーは指定なし
llama-cli開始前の初期VRAM使用量：300MB

128Kコンテキストでの追加実行（Qwen3.5 27Bおよび122B）

モデル	128K ロード	128K T/s
Qwen3.5-27B-UD-IQ3_XXS	16/625	9.6
Qwen3.5-122B-A10B-UD-IQ3_XXS	27/496	19.2

微調整された実行

興味深いモデルと量子化については、VRAMをより効果的に活用するための特殊なllama-cppコマンドラインパラメータを探す試みを行いました。以下が達成できた結果です：

モデル	コンテキスト	GPU上のレイヤー数	CPU/CPU負荷	速度
Qwen3.5-27B-IQ4_XS.gguf	18k	65	98%/100%	38.0
Qwen3.5-27B-IQ4_XS.gguf	64k	53	33%/488%	15.7

16GB VRAM環境に向けた結論

現在の一番のお気に入りである Qwen3.5-27B-UD-IQ3_XXS は、スイートスポットである50kコンテキストで良好な結果を示しています（約36t/sを得ています）。
Qwen3.5-122B-A10B-UD-IQ3_XXS は、64Kを超えるコンテキストにおいて、パフォーマンス面で Qwen3.5 27B を凌駕しています。
Qwen3.5-35B-A3B-UD-IQ3_S を100kトークンのコンテキスト処理まで押し広げることができ、VRAMに収まるため、パフォーマンスの低下はありません。
gemma-4-31B は16GB VRAMでは使用しませんが、gemma-4-26B はまあまあかもしれません… テストが必要です。
Nemotron cascade 2 と GLM-4.7 Flash REAP 23B の動作がどのくらい良いかもテストする必要があります。Qwen3.5-35B q3 より優れているでしょうか？疑わしいですが、念のため確認するためにテストしてみます。