llama.cpp で LLM を実行する際に、GPU 負荷が低いということは何か？

多くの層が CPU に残ることが多く、トークン生成速度が急激に低下します。ngl で GPU への層オフロード数を増やしたり、より小さな量子化モデルを選択したり、コンテキスト長を短くすることでモデルのより多くを GPU に収めることを試してみてください。

コンテキストウィンドウが長くなると、16GB の VRAM における毎秒のトークン数はどのように影響を受けますか？

コンテキストが長いほど KV キャッシュと VRAM の使用量が増加し、毎秒のトークン処理数が低下したり、部分的なオフロードを余儀なくされたりします。コンテキストを短くする、モデルを小型にする、あるいはより積極的な量子化を行うことで、16 GB の単一 GPU での処理速度を維持できます。

16GB で大規模モデルを収容するために重要な量子化のトレードオフとは？

低いビットの量子化は VRAM の消費を削減し、トークン生成速度を向上させますが、品質が低下する可能性があります。IQ3 や IQ4 スタイルの量子化は、16 GB の GPU 1 台で llama.cpp を使用し、長いコンテキストや大きなチェックポイントが必要な場合に、よく用いられる折衷案です。

Mixture-of-Experts モデルは、16 GB の GPU 1 台で高速に動作できるでしょうか？

MoE モデルは、フォワードステップごとにネットワークの一部のみが実行されるため、高いトークン毎秒処理速度を実現できますが、選択したコンテキスト長に対して、アクティブなエキスパート、重み、および KV キャッシュを収容する十分な VRAM が必要です。

同じ GPU で 64K のコンテキストが 32K よりも大幅に遅い場合、どのような対策を試すことができますか？

ngl で GPU にロードするレイヤー数を調整し、タスクに適合する短いコンテキストを受け入れるか、より軽量な量子化に変えてデバイス上に多くのレイヤーを保持し、KV キャッシュの圧力を軽減します。

llama.cpp を用いた 16 GB VRAM LLM ベンチマーク（速度とコンテキスト）

llama.cpp の 16 GB VRAM におけるトークン速度（表）。

ここでは、VRAM 16GB を搭載した GPU で動作する複数の LLM の速度を比較し、セルフホスティングに適したモデルを選択しています。

これらの LLM を llama.cpp で、19K、32K、64K トークンのコンテキストウィンドウで実行しました。

Stylized GPU with VRAM blocks and benchmark-style charts

本記事では、速度という観点から、可能な限り高い性能を引き出すための試みを記録しています。

LLM 速度比較表（秒間トークン数と VRAM）

モデル	サイズ	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K Load	32K T/s	64K VRAM	64K Load	64K: T/s
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
nvidia Nemotron-Cascade-2-30B IQ4_XS	18.2	14.6	60/305	115.8	14.7	57/311	113.6	14.7	55/324	103.4
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K、32K、64K はコンテキストサイズを示しています。

上記の load は GPU 負荷 を指します。この列の値が低い場合、モデルは主に CPU で実行されており、このハードウェアでは十分な速度が得られていないことを意味します。このパターンは、GPU に収まるモデルの部分が少なすぎる場合や、コンテキストの処理がホスト（CPU）に押し戻される場合に観察される現象と一致します。

llama.cpp、LLM 性能、OpenCode および他の比較について

インストールパス、llama-cli と llama-server の例、VRAM と秒間トークン数（コンテキストサイズ、バッチ処理、-ngl）に影響するフラグについては、まず llama.cpp クイックスタート：CLI とサーバーから始めましょう。

より広範な性能の全体像（スループット対レイテンシ、VRAM の制限、並列リクエスト、ハードウェアとランタイム間でのベンチマークの統合方法）については、2026 年の LLM 性能：ベンチマーク、ボトルネック、最適化を参照してください。

レスポンスの質については、他の記事で分析されています。例えば：

OpenCode 向け最高の LLM - ローカルテスト結果。Opencode については、OpenCode クイックスタート：インストール、設定、ターミナル AI コーディングエージェントの利用で詳しく読むことができます。
Hugo ページ翻訳品質の比較 - Ollama 上の LLM

Ollama 上の LLM についても同様のテストを実行しました：16GB VRAM GPU 向け Ollama のベスト LLM。

コンテキスト長が秒間トークン数に与える影響

19K から 32K、あるいは 64K トークンへ移行すると、KV キャッシュが増大し、VRAM の圧力が高まります。行によっては 64K で秒間トークン数が大きく低下するのに対し、他の行では平坦なままになることがありますが、これはモデルが一般的に「遅い」という仮定ではなく、クアンタイゼーション、コンテキスト制限、またはレイヤーオフロードを見直す必要があるシグナルです。

私がテストのために選んだモデルとクアンタイゼーションは、独自に実行し、この装置においてコスト対効果的な利得をもたらすかどうかを確認するためです。したがって、ここでは 20 万コンテキストを持つ q8 クアンタイゼーションは含まれません :) …

GPU/CPU は nvitop で測定された負荷です。

llama.cpp は、レイヤーを GPU へアンロードして自動構成する際、1GB の空き領域を確保しようとします。このパラメータはコマンドラインパラメータ -ngl で手動で指定しますが、ここでは微調整は行いません。 32k から 64k へコンテキストウィンドウサイズを増加させた際に性能が大幅に低下している場合、アンロードするレイヤーの数を微調整することで 64k での速度向上を試みることができる、という点を理解する必要があります。

テスト用ハードウェアと llama.cpp のセットアップ

以下の構成を持つ PC で LLM の速度をテストしました：

CPU: i-14700
RAM: 64GB 6000Hz (2x32GB)
GPU: RTX-4080
Ubuntu (NVidia ドライバー搭載)
llama.cpp/llama-cli、アンロードレイヤーは指定なし
llama-cli 開始前の初期 VRAM 使用量: 300MB

128K コンテキストでの追加実行（Qwen3.5 27B と 122B）

モデル	128K Load	128K: T/s
Qwen3.5-27B-UD-IQ3_XXS	16/625	9.6
Qwen3.5-122B-A10B-UD-IQ3_XXS	27/496	19.2

16GB VRAM 環境における結論

現在の私の最も好きな Qwen3.5-27B-UD-IQ3_XXS は、スイートスポットである 50k コンテキストで良好なパフォーマンスを示しています（約 36t/s を記録）。
Qwen3.5-122B-A10B-UD-IQ3_XXS は、64K 以上のコンテキストにおいて、Qwen3.5 27B を性能面で凌駕しています。
Qwen3.5-35B-A3B-UD-IQ3_S は 10 万トークンのコンテキストを処理できるように押し上げることができ、VRAM に収まるため、パフォーマンスの低下は見られません。
16GB VRAM では gemma-4-31B は使用しないが、gemma-4-26B はまあまあかもしれません。テストが必要です。
Nemotron cascade 2 と GLM-4.7 Flash REAP 23B がどれだけ良く動作するかをテストする必要があります。Qwen3.5-35B q3 よりも優れているでしょうか？疑わしいですが、それでも疑念を確認するためにテストするかもしれません。