Qwen3 30b는 GPT-OSS 20b와 비교해 어떤 점이 다른가요?

Qwen3 30b는 일반적으로 지시 준수, 추론 및 다국어 성능이 더 우수합니다. GPT-OSS 20b는 소비자용 GPU(예: 많은 설정에서 VRAM이 약 33% 적고 초당 토큰 처리량이 더 높음)에서 더 빠르고 메모리 효율이 더 좋습니다.

Qwen3 30b 모델과 GPT-OSS 20b 모델 중 어떤 모델이 더 빠른가요?

GPT-OSS 20b는 일반적으로 더 빠릅니다. 16GB VRAM과 4K 컨텍스트 환경에서는 GPT-OSS 20b가 초당 약 130 토큰에 달하는 반면, Qwen3 30b a3b는 초당 약 46 토큰 수준이며, 정확한 수치는 하드웨어와 컨텍스트 크기에 따라 달라집니다.

Qwen3 30b 대신 GPT-OSS 20b를 선택해야 할 때는 언제인가요?

Qwen3 30b를 선택하십시오. 더 나은 지시사항 준수, 창의적 또는 다국어 출력, 복잡한 추론 또는 더 긴 맥락(예: 최대 262,000 토큰)이 필요한 경우. 속도와 소비자 하드웨어에서 낮은 VRAM 사용이 더 중요한 경우 GPT-OSS 20b를 선택하십시오.

Qwen3 30b와 GPT-OSS 20b가 필요한 VRAM은 무엇인가요?

Qwen3 30b a3b는 CPU 오프로드를 통해 16GB VRAM에서 실행할 수 있습니다(예: 약 20GB의 모델). GPT-OSS 20b는 16GB GPU에서 더 편하게 실행되며(예: 약 14GB 할당), GPU에서 완전히 실행할 수 있습니다.

LLM 성능과 벤치마크에 대한 더 많은 정보는 어디에서 찾을 수 있나요?

우리의 LLM 성능 허브는 처리량 대 지연 시간, VRAM 제한, 병렬 요청 및 런타임과 하드웨어에 걸친 벤치마크를 다룹니다.

비교: Qwen3:30b vs GPT-OSS:20b

이 두 모델의 속도, 파라미터 및 성능 비교

Page content

다음은 Qwen3:30b와 GPT-OSS:20b 사이의 비교입니다. 지시사항 준수 및 성능 파라미터, 사양 및 속도에 초점을 맞추고 있습니다.

추가적으로 처리량, 지연 시간, VRAM, 그리고 실행 환경과 하드웨어에 따른 벤치마크에 대한 자세한 내용은 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

7 llamas

아키텍처 및 파라미터

기능	Qwen3:30b-instruct	GPT-OSS:20b
전체 파라미터	305억 개	210억 개
활성화된 파라미터	약 33억 개	약 36억 개
층 수	48	24
층당 MoE 전문가 수	128 (토큰당 8개 활성화)	32 (토큰당 4개 활성화)
주의 메커니즘	그룹화된 쿼리 주의 (32Q /4KV)	그룹화된 다중 쿼리 주의 (64Q /8KV)
컨텍스트 창	32,768개(기본); 최대 262,144개 확장	128,000개 토큰
토큰화기	BPE 기반, 151,936개 어휘	GPT 기반, 약 200,000개 어휘

지시사항 준수

Qwen3:30b-instruct는 지시사항 준수에 최적화되어 있으며, 인간 선호도와 강하게 일치합니다. 창의적 글쓰기, 역할극, 다중 대화, 다국어 지시사항 준수에 우수합니다. 이 버전은 사용자 지시사항에 따라 더 자연스럽고 제어된, 그리고 흥미로운 응답을 제공하기 위해 특별히 미세 조정되었습니다.
GPT-OSS:20b는 지시사항 준수를 지원하지만, 일반적으로 Qwen3:30b-instruct보다 세부적인 지시사항 미세 조정에서 약간 뒤처집니다. 비슷한 기능 호출, 구조화된 출력, 추론 모드를 제공하지만, 대화 조정 및 창의적 대화에서는 약간 뒤처질 수 있습니다.

성능 및 효율성

Qwen3:30b-instruct는 수학적 추론, 코딩, 복잡한 논리 작업, 119개의 언어 및 방언을 포함한 다국어 시나리오에서 우수합니다. “생각” 모드는 추론을 향상시키지만 더 높은 메모리 비용이 따릅니다.
GPT-OSS:20b는 OpenAI의 o3-mini 모델과 비슷한 성능을 달성합니다. 층 수는 적지만, 층당 더 넓은 전문가를 사용하고, 소비자 하드웨어에서 효율적인 추론을 위해 MXFP4 정량화를 사용합니다. 메모리 요구 사항이 낮고 (~16GB 대 Qwen3의 더 높은 수준)입니다.
GPT-OSS는 특정 하드웨어 설정, 특히 소비자 GPU에서 약 33% 더 메모리 효율적이며 더 빠르지만, Qwen3는 복잡한 사용 사례에서 더 높은 조정 및 추론 깊이를 제공합니다.
Qwen3는 GPT-OSS의 128,000개 토큰보다 더 긴 확장된 컨텍스트 길이 옵션(최대 262,144개 토큰)을 제공하여 매우 긴 컨텍스트 이해가 필요한 작업에 유리합니다.

사용 권장 사항

Qwen3:30b-instruct를 사용해야 할 경우는, 지시사항 준수, 창의적 생성, 다국어 지원, 복잡한 추론이 필요한 경우입니다.
GPT-OSS:20b를 사용해야 할 경우는, 메모리 효율성, 소비자 하드웨어에서의 추론 속도, 그리고 적은 파라미터 수로 인한 경쟁력 있는 기초 성능이 우선시되는 경우입니다.

이 비교는 Qwen3:30b-instruct를 더 깊고 능력 있는 모델로 보여주며, 고급 지시사항 미세 조정을 제공하는 반면, GPT-OSS:20b는 표준 벤치마크에서 경쟁력 있는 성능을 제공하는 더 작고 효율적인 대안입니다.

Qwen3:30b-instruct와 GPT-OSS:20b 간의 지시사항 준수 및 주요 성능 파라미터(MMLU, LMEval, HumanEval)에 대한 벤치마크 점수는 검색 결과에서 직접적으로 제공되지 않습니다. 그러나 기존 출판된 다국어 및 다태스크 벤치마크 보고서에 따르면:

MMLU (Massive Multitask Language Understanding)

세부 사항은 어렵게 찾을 수 있으며, 다음과 같습니다:

Qwen3 시리즈 모델, 특히 30B 규모 이상 모델은 일반적으로 57개의 다양한 도메인에서 89% 이상의 MMLU 점수를 보여주며, 매우 경쟁력 있는 지식 이해 및 추론 능력을 나타냅니다.
GPT-OSS:20b는 MMLU 벤치마크에서도 잘 수행하지만, 더 작은 파라미터 수와 지시사항 미세 조정에 대한 강조가 덜 해서 더 큰 Qwen 모델보다 일반적으로 점수가 낮습니다.

LMEval (Language Model Evaluation Toolkit)

현재는 자세한 정보가 거의 없으며, 다음과 같습니다:

Qwen3 모델은 LMEval 내에서 추론 및 코드 관련 작업에서 크게 향상된 성능을 보여주며, 논리, 수학 추론, 일반 능력에 대한 점수가 향상되었습니다.
GPT-OSS:20b는 LMEval에서 견고한 기초 성능을 제공하지만, 고급 추론 및 지시사항 준수 하위 작업에서는 일반적으로 Qwen3:30b-instruct보다 뒤처집니다.

HumanEval (Code Generation Benchmark)

자세한 데이터는 거의 없으며, 다음과 같습니다:

Qwen3:30b-instruct는 HumanEval-XL과 같은 다국어 코드 생성 벤치마크에서 강력한 성능을 보여주며, 20개 이상의 프로그래밍 언어를 지원하고, 다국어 코드 생성 정확도에서 우수한 성능을 제공합니다.
GPT-OSS:20b는 경쟁력 있지만, HumanEval 벤치마크에서 Qwen3:30b-instruct보다 다국어 및 다언어 프로그래밍 환경에서 다소 낮은 성능을 보입니다. 이는 더 광범위한 다국어 훈련이 덜 했기 때문입니다.

요약 표 (문헌에서의 추세):

벤치마크	Qwen3:30b-instruct	GPT-OSS:20b	비고
MMLU 정확도	~89-91%	~80-85%	Qwen3는 광범위한 지식과 추론에서 우수함
LMEval 점수	높음, 고급 추론 및 코드	보통, 기초 추론	Qwen3는 수학 및 논리에서 우수함
HumanEval	높은 다국어 코드 생성 성능	보통	Qwen3는 다국어 코드 생성에서 우수함

정확한 벤치마크 점수가 필요한 경우, 최근 연구 논문에서 언급된 P-MMEval 및 HumanEval-XL과 같은 전문 다국어 대규모 벤치마크는 Qwen3 및 비교 가능한 GPT-OSS 변형 모델에 대한 자세한 점수를 제공하지만, 이들은 현재 직접적인 비교 점수 검색을 위해 공개적으로 정리되지 않았습니다.

Qwen3:30b 및 GPT-OSS:20b 속도 비교

내 하드웨어(16GB VRAM)에서 Qwen3:30b 및 GPT-OSS:20b를 4000 컨텍스트 창으로 실행하고 있으며, 다음과 같은 속도를 얻고 있습니다:

qwen3:30b-a3b => 45.68 토큰/초
gpt-oss:20b => 129.52 토큰/초

비교를 위해 qwen3:14b 및 gpt-oss:120b도 테스트했습니다:

qwen3:14b => 60.12 토큰/초
gpt-oss:120b => 12.87 토큰/초

더 긴 컨텍스트 창에서는 속도가 느려지며, qwen3:30b-a3b의 경우 매우 느려질 수 있습니다. 이것은 내 PC에서의 결과입니다. 기술 세부 사항은 복잡한 출력 및 할당된 메모리에서 아래와 같습니다. 시도할 명령어는 다음과 같습니다:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps 4K 컨텍스트에서 메모리 할당을 보여줍니다.

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b 변형

qwen3:30b 모델에는 세 가지 변형이 있습니다: qwen3:30b, qwen3:30b-instruct 및 qwen3:30b-thinking.

주요 차이점 및 권장 사항

qwen3:30b-instruct는 사용자 지시사항, 명확성, 자연스러운 대화가 우선시되는 대화에 최적화되어 있습니다.
qwen3:30b는 일반적인 기초 모델로, 다양한 작업에서 지시사항 준수 및 도구 사용이 모두 중요한 경우에 적합합니다.
qwen3:30b-thinking은 깊은 추론, 수학, 코딩이 주요 초점인 경우에 우수합니다. 논리/수학적 엄격성을 측정하는 작업에서는 다른 것들보다 우수하지만, 창의적 글쓰기 또는 편안한 대화에서는 필수적으로 더 우수하지는 않습니다.

직접적인 벤치마크 비교

모델	추론 (AIME25)	코딩 (LiveCodeBench)	일반 지식 (MMLU Redux)	속도 및 컨텍스트	이상적인 사용 사례
qwen3:30b	70.9	57.4	89.5	256K 토큰; 빠름	일반 언어/에이전트/다국어
qwen3:30b-instruct	N/A (30b 근접)	N/A	~30b와 동일	256K 토큰	지시사항 준수, 조정
qwen3:30b-thinking	85.0	66.0	91.4	256K 토큰	수학, 코딩, 추론, 긴 문서

더 많은 벤치마크, 하드웨어 선택, 성능 최적화에 대한 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.