16GB VRAM GPU에서 Ollama 상의 LLM 성능 비교

RTX 4080 16GB VRAM에서의 LLM 속도 테스트

Page content

로컬에서 대규모 언어 모델을 실행하면 프라이버시, 오프라인 기능, API 비용이 전혀 들지 않습니다.
이 벤치마크는 RTX 4080에서 Ollama를 사용하여 실행되는 9개의 인기 있는 LLMs on Ollama on an RTX 4080에서 기대할 수 있는 내용을 정확히 보여줍니다.

16GB VRAM GPU를 사용하면서 저는 지속적으로 균형을 맞추는 데 어려움을 겪었습니다:
더 큰 모델은 잠재적으로 더 높은 품질을 제공하지만, 더 작은 모델은 추론 속도가 빠릅니다.
LLM 성능에 대한 더 많은 내용—생산성 대 지연 시간, VRAM 제한, 병렬 요청, 런타임 간의 벤치마크 등—은 LLM Performance: Benchmarks, Bottlenecks & Optimization에서 확인할 수 있습니다.

7 llamas - Comparing LLMs on Ollama

TL;DR

다음은 Ollama 0.15.2와 RTX 4080 16GB에서의 LLM 성능 비교 표입니다:

모델 RAM+VRAM 사용량 CPU/GPU 분할 토큰/초
gpt-oss:20b 14 GB 100% GPU 139.93
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3-vl:30b-a3b 22 GB 30%/70% 50.99
glm-4.7-flash 21 GB 27%/73% 33.86
nemotron-3-nano:30b 25 GB 38%/62% 32.77
devstral-small-2:24b 19 GB 18%/82% 18.67
mistral-small3.2:24b 19 GB 18%/82% 18.51
gpt-oss:120b 66 GB 78%/22% 12.64

핵심 통찰: VRAM에 완전히 적합한 모델은 훨씬 더 빠릅니다. GPT-OSS 20B는 139.93 토큰/초를 달성하지만, GPT-OSS 120B는 CPU 오프로딩이 심한 경우 12.64 토큰/초로 진행되어, 11배의 속도 차이가 발생합니다.

테스트 하드웨어 설정

이 벤치마크는 다음 시스템에서 수행되었습니다:

  • GPU: NVIDIA RTX 4080, 16GB VRAM
  • CPU: Intel Core i7-14700 (8개의 P-코어 + 12개의 E-코어)
  • RAM: 64GB DDR5-6000

이 구성은 로컬 LLM 추론에 자주 사용되는 고사양 소비자 구성입니다. 16GB VRAM은 모델이 완전히 GPU에 실행되는지 아니면 CPU 오프로딩이 필요한지 결정하는 핵심 제한 요소입니다.

Ollama가 인텔 CPU 코어를 어떻게 사용하는지를 이해하는 것이 중요합니다. 모델이 VRAM 용량을 초과할 때 CPU 성능이 오프로딩된 레이어 추론 속도에 직접 영향을 미칩니다.

이 벤치마크의 목적

이 벤치마크의 주요 목적은 현실적인 조건 하에서 추론 속도를 측정하는 것이었습니다. 저는 이미 경험상 Mistral Small 3.2 24B가 언어 품질에서 뛰어난 성능을 보이고, Qwen3 14B가 특정 사용 사례에서 지시를 따르는 데 우수하다는 것을 알고 있었습니다.

이 벤치마크는 실용적인 질문에 답합니다: 각 모델이 얼마나 빠르게 텍스트를 생성할 수 있으며, VRAM 제한을 초과했을 때 속도에 어떤 페널티가 있는가?

테스트 파라미터는 다음과 같습니다:

  • 컨텍스트 크기: 19,000 토큰
  • 프롬프트: “호주 수도 도시의 날씨와 기후를 비교하라”
  • 지표: 평가 속도 (생성 중 토큰/초)

Ollama 설치 및 버전

모든 테스트는 Ollama 버전 0.15.2를 사용하여 수행되었습니다. 이 벤치마크에서 사용된 Ollama 명령어에 대한 완전한 참조는 Ollama cheatsheet에서 확인할 수 있습니다.

Linux에서 Ollama 설치:

curl -fsSL https://ollama.com/install.sh | sh

설치 확인:

ollama --version

공간 제약으로 인해 모델을 다른 드라이브에 저장해야 하는 경우, Ollama 모델을 다른 드라이브로 이동하는 방법을 확인하세요.

테스트된 모델

다음 모델들이 벤치마크되었습니다:

모델 파라미터 양자화 메모
gpt-oss:20b 20B Q4_K_M 가장 빠른 모델
gpt-oss:120b 120B Q4_K_M 가장 큰 테스트 모델
qwen3:14b 14B Q4_K_M 지시사항을 따르는 데 최고
qwen3-vl:30b-a3b 30B Q4_K_M 시각 기능이 있는 모델
ministral-3:14b 14B Q4_K_M Mistral의 효율적인 모델
mistral-small3.2:24b 24B Q4_K_M 언어 품질이 우수한 모델
devstral-small-2:24b 24B Q4_K_M 코드 중심 모델
glm-4.7-flash 30B Q4_K_M 사고 모델
nemotron-3-nano:30b 30B Q4_K_M NVIDIA의 제공 모델

모델을 다운로드하려면:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

CPU 오프로딩 이해

모델의 메모리 요구사항이 사용 가능한 VRAM을 초과하는 경우, Ollama는 자동으로 모델 레이어를 GPU와 시스템 RAM 사이에 분배합니다. 출력은 “18%/82% CPU/GPU"와 같은 비율 분할로 표시됩니다.

이것은 성능에 큰 영향을 미칩니다. 각 토큰 생성은 CPU와 GPU 메모리 간의 데이터 전송이 필요하며, 이는 오프로딩된 레이어 수만큼 병목 현상이 악화됩니다.

결과에서 명확히 보이는 패턴은 다음과 같습니다:

  • 100% GPU 모델: 61-140 토큰/초
  • 70-82% GPU 모델: 19-51 토큰/초
  • 22% GPU (대부분 CPU): 12.6 토큰/초

이것이 왜 20B 파라미터 모델이 실제로 120B 모델보다 11배 빠를 수 있는지 설명합니다. 여러 병렬 요청을 처리하려는 경우, Ollama가 병렬 요청을 어떻게 처리하는지를 이해하는 것이 용량 계획에 필수적입니다.

상세 벤치마크 결과

GPU에 100% 실행되는 모델

GPT-OSS 20B — 속도 챔피언

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

139.93 토큰/초의 속도로, GPT-OSS 20B는 속도가 중요한 응용 프로그램에 명확한 우승자입니다. 14GB의 VRAM만 사용하여, 더 큰 컨텍스트 창이나 다른 GPU 작업 부하에 대한 여유 공간이 있습니다.

Qwen3 14B — 훌륭한 균형

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B는 제 경험상 지시를 따르는 데 가장 우수하며, 12GB의 메모리 사용량이 편안합니다. 61.85 토큰/초의 속도로, 대화형 사용에 충분히 빠릅니다.

Qwen3을 애플리케이션에 통합하는 개발자에게는 LLM Structured Output with Ollama and Qwen3에서 구조화된 JSON 응답을 추출하는 방법을 확인하세요.

Ministral 3 14B — 빠르고 간결

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistral의 작은 모델은 70.13 토큰/초의 속도로 VRAM에 완전히 적합합니다. 최대 속도에서 Mistral 패밀리 품질을 원하는 경우에 좋은 선택입니다.

CPU 오프로딩이 필요한 모델

Qwen3-VL 30B — 부분 오프로딩 모델 중 최고 성능

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

30%의 레이어가 CPU에 있는 경우에도, Qwen3-VL은 50.99 토큰/초를 유지하며, 일부 100% GPU 모델보다 더 빠릅니다. 시각 기능은 멀티모달 작업에 유연성을 제공합니다.

Mistral Small 3.2 24B — 품질 대 속도의 균형

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2는 뛰어난 언어 품질을 제공하지만, 속도에 대한 가격을 지불합니다. 18.51 토큰/초의 속도로, 대화형 채팅에서는 느리게 느껴집니다. 품질이 더 중요한 작업에 적합합니다.

GLM 4.7 Flash — MoE 사고 모델

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash는 30B-A3B Mixture of Experts 모델입니다. 총 30B 파라미터 중 토큰당 3B만 활성화됩니다. “사고” 모델로서, 응답 전에 내부 사고를 생성합니다. 33.86 토큰/초는 사고와 출력 토큰 모두를 포함합니다. CPU 오프로딩에도 불구하고, MoE 아키텍처는 상대적으로 빠릅니다.

GPT-OSS 120B — 강력한 모델

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

16GB VRAM에서 120B 모델을 실행하는 것은 기술적으로 가능하지만 고통스럽습니다. 78%가 CPU에 있을 경우, 12.64 토큰/초의 속도로 인터랙티브 사용이 불편합니다. 배치 처리에 더 적합합니다.

실용적인 추천

대화형 채팅을 위한 추천

VRAM에 완전히 적합한 모델 사용:

  1. GPT-OSS 20B — 최대 속도 (139.93 t/s)
  2. Ministral 3 14B — Mistral 품질과 빠른 속도 (70.13 t/s)
  3. Qwen3 14B — 지시사항을 따르는 데 최고 (61.85 t/s)

더 나은 채팅 경험을 위해, 로컬 Ollama용 오픈소스 채팅 UI를 확인하세요.

배치 처리를 위한 추천

속도가 덜 중요할 때:

  • Mistral Small 3.2 24B — 우수한 언어 품질
  • Qwen3-VL 30B — 시각 + 텍스트 기능

개발 및 코딩을 위한 추천

Ollama로 애플리케이션을 구축하는 경우:

대체 호스팅 옵션

Ollama의 제한이 걱정된다면, 로컬 LLM 호스팅 가이드에서 다른 옵션을 확인하거나, Docker 모델 러너 vs Ollama 비교를 참조하세요.

결론

16GB VRAM을 사용하면, 적절한 모델을 선택할 경우 인상적인 속도로 능력 있는 LLM을 실행할 수 있습니다. 주요 결론은 다음과 같습니다:

  1. 인터랙티브 사용을 위해 VRAM 제한 내에 머무르세요. 20B 모델은 140 토큰/초로, 대부분의 실용적인 목적에서 12B 모델의 12 토큰/초보다 우수합니다.

  2. GPT-OSS 20B는 순수 속도에서 우승하지만, Qwen3 14B는 지시를 따르는 작업에서 속도와 기능의 최적 균형을 제공합니다.

  3. CPU 오프로딩은 작동하지만, 3-10배의 속도 저하를 기대하세요. 배치 처리에는 적합하지만, 채팅에는 짜증납니다.

  4. 컨텍스트 크기도 중요합니다. 여기서 사용된 19K 컨텍스트는 VRAM 사용량을 크게 증가시킵니다. 컨텍스트를 줄여 GPU 사용률을 향상시킬 수 있습니다.

AI 기반 검색을 위해 로컬 LLM과 웹 결과를 결합하려면, Ollama와 함께 Perplexica를 자체 호스팅을 참조하세요.

더 많은 벤치마크, VRAM과 처리량의 트레이드오프, Ollama와 다른 런타임 간의 성능 조정에 대해 확인하려면, LLM Performance: Benchmarks, Bottlenecks & Optimization 허브를 참조하세요.

유용한 링크

내부 자료

외부 참조