ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。
llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。
VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU
この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。
LLMの速度比較表(トークン/秒とVRAM)
| モデル |
サイズ |
19K VRAM |
19K GPU/CPU |
19K T/s |
32K VRAM |
32K ロード |
32K T/s |
64K VRAM |
64K ロード |
64K T/s |
| Qwen3.6-35B-A3B-UD-IQ3_XXS |
13.2 |
13.8GB |
96%/100% |
147.5 |
14.0GB |
96%/101% |
149.1 |
14.7GB |
96%/101% |
145.8 |
| Qwen3.6-35B-A3B-UD-IQ4_XS |
17.7 |
14.3GB |
62%/266% |
95.0 |
14.9GB |
58%/279% |
92.3 |
14.9GB |
57%/293% |
86.4 |
| Qwen3.5-35B-A3B-UD-IQ3_S |
13.6 |
14.3GB |
93%/100% |
136.4 |
14.6GB |
93%/100% |
138.5 |
14.9GB |
88%/115% |
136.8 |
| Qwen3.5-27B-IQ3_XXS-bartowsky |
11.3 |
12.8 |
98/100 |
44.9 |
13.5 |
98/100 |
44.9 |
14.5 |
45/415 |
23.6 |
| Qwen3.5-27B-UD-IQ3_XXS |
11.5 |
12.9 |
98/100 |
45.3 |
13.7 |
98/100 |
45.1 |
14.7 |
45/410 |
22.7 |
| Qwen3.5-27B-IQ4_XS.gguf |
15.0 |
14.6 |
49/406 |
20.5 |
14.7 |
37/465 |
17.4 |
14.7 |
23/533 |
13.3 |
| Qwen3.5-122B-A10B-UD-IQ3_XXS |
44.7 |
14.7 |
30/470 |
22.3 |
14.7 |
30/480 |
21.8 |
14.7 |
28/490 |
21.5 |
| Qwen3.5-122B-A10B-UD-IQ3_S |
46.5 |
14.7 |
25/516 |
19.4 |
14.7 |
24/516 |
19.5 |
14.7 |
24/516 |
19.6 |
| Mistral-Small-4-119B UD-IQ3_XXS |
42.8 |
14.8 |
28/585 |
30.4 |
14.7 |
27/574 |
28.5 |
14.9 |
20/590 |
31.5 |
| Qwen3-Coder-Next-UD-IQ4_XS |
38.4 |
14.6 |
32/460 |
41.1 |
14.7 |
29/440 |
41.3 |
14.8 |
32/460 |
38.3 |
| Nemotron Super 120b IQ3_XXS |
56.2 |
15.0 |
26/517 |
17.5 |
14.6 |
26/531 |
17.4 |
14.6 |
26/535 |
17.6 |
| gemma-4-26B-A4B-it-UD-IQ4_XS |
13.4 |
14.7 |
95/100 |
121.7 |
14.9 |
95/115 |
114.9 |
14.9 |
75/190 |
96.1 |
| gemma-4-31B-it-UD-IQ3_XXS |
11.8 |
14.8 |
68/287 |
29.2 |
14.8 |
41/480 |
18.4 |
14.8 |
18/634 |
8.1 |
| GLM-4.7-Flash-IQ4_XS |
16.3 |
15.0 |
66/240 |
91.8 |
14.9 |
62/262 |
86.1 |
14.9 |
53/313 |
72.5 |
| GLM-4.7-Flash-REAP-23B IQ4_XS |
12.6 |
13.7 |
92/100 |
122.0 |
14.4 |
95/102 |
123.2 |
14.9 |
71/196 |
97.1 |
19K、32K、64Kはコンテキストのサイズを示します。