Comparação: Qwen3:30b vs GPT-OSS:20b
Comparando velocidade, parâmetros e desempenho desses dois modelos
Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b, focando na seguir instruções e parâmetros de desempenho, especificações e velocidade.
Para mais informações sobre vazão, latência, VRAM e benchmarks em diferentes ambientes de execução e hardware, consulte LLM Performance: Benchmarks, Bottlenecks & Optimization.

Arquitetura e Parâmetros
| Recurso | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Parâmetros Totais | 30,5 bilhões | 21 bilhões |
| Parâmetros Ativados | ~3,3 bilhões | ~3,6 bilhões |
| Número de Camadas | 48 | 24 |
| Especialistas MoE por Camada | 128 (8 ativos por token) | 32 (4 ativos por token) |
| Mecanismo de Atenção | Grouped Query Attention (32Q /4KV) | Grouped Multi-Query Attention (64Q /8KV) |
| Janela de Contexto | 32.768 nativa; Até 262.144 estendida | 128.000 tokens |
| Tokenizer | Baseado em BPE, vocabulário de 151.936 | Baseado em GPT, vocabulário ≈ 200k |
Seguimento de Instruções
- Qwen3:30b-instruct é otimizado para seguir instruções com forte alinhamento de preferências humanas. Destaca-se em escrita criativa, role-playing, diálogos multi-turno e seguimento de instruções multilíngues. Esta variante é ajustada especificamente para fornecer respostas mais naturais, controladas e envolventes, alinhadas com as instruções do usuário.
- GPT-OSS:20b suporta o seguimento de instruções, mas geralmente é classificado ligeiramente atrás do Qwen3:30b-instruct no ajuste de instruções nuances. Oferece chamadas de função, saída estruturada e modos de raciocínio comparáveis, mas pode ficar atrás no alinhamento conversacional e diálogo criativo.
Desempenho e Eficiência
- Qwen3:30b-instruct destaca-se em raciocínio matemático, codificação, tarefas lógicas complexas e cenários multilíngues, cobrindo 119 idiomas e dialetos. Seu modo “pensamento” permite raciocínio aprimorado, mas a um custo de memória maior.
- GPT-OSS:20b alcança desempenho comparável ao modelo o3-mini da OpenAI. Usa menos camadas, mas especialistas mais largos por camada e quantização nativa MXFP4 para inferência eficiente em hardware de consumo com requisitos de memória menores (~16GB vs. maior para Qwen3).
- O GPT-OSS é aproximadamente 33% mais eficiente em memória e mais rápido em certos setups de hardware, especialmente em GPUs de consumo, mas o Qwen3 frequentemente oferece melhor alinhamento e profundidade de raciocínio, especialmente em casos de uso complexos.
- O Qwen3 tem uma opção de comprimento de contexto estendido disponível maior (até 262.144 tokens) em comparação com os 128.000 tokens do GPT-OSS, beneficiando tarefas que requerem compreensão de contexto muito longo.
Recomendação de Uso
- Escolha o Qwen3:30b-instruct para casos de uso que exijam seguimento de instruções superior, geração criativa, suporte multilíngue e raciocínio complexo.
- Escolha o GPT-OSS:20b se a eficiência de memória, velocidade de inferência em hardware de consumo e desempenho de linha de base competitivo com menos parâmetros forem a prioridade.
Esta comparação destaca o Qwen3:30b-instruct como um modelo mais profundo e capaz, com ajuste de instruções avançado, enquanto o GPT-OSS:20b oferece uma alternativa mais compacta e eficiente com desempenho competitivo em benchmarks padrão.
Pontuações de benchmark que comparam especificamente Qwen3:30b-instruct e GPT-OSS:20b para seguimento de instruções e parâmetros-chave de desempenho (MMLU, LMEval, HumanEval) não estão diretamente disponíveis nos resultados da busca. No entanto, com base em relatórios de benchmarks multilíngues e multitarefa publicados existentes:
MMLU (Massive Multitask Language Understanding)
Difícil de encontrar detalhes, apenas:
- Modelos da série Qwen3, especialmente na escala de 30B e acima, demonstram fortes pontuações MMLU, tipicamente excedendo 89%, indicando capacidades de compreensão e raciocínio de conhecimento muito competitivas em 57 domínios diversos.
- O GPT-OSS:20b também performa bem nos benchmarks MMLU, mas geralmente pontua menor que os modelos Qwen maiores devido à contagem de parâmetros menor e menos ênfase no ajuste de instruções.
LMEval (Language Model Evaluation Toolkit)
Não há muitos detalhes ATM:
- Os modelos Qwen3 mostram melhoria significativa em raciocínio e tarefas relacionadas a código dentro do LMEval, com pontuações aprimoradas em lógica, raciocínio matemático e capacidades gerais.
- O GPT-OSS:20b fornece desempenho de linha de base robusto no LMEval, mas geralmente fica atrás do Qwen3:30b-instruct em subtarefas de raciocínio avançado e seguimento de instruções.
HumanEval (Benchmark de Geração de Código)
Não há muitos dados, apenas:
- O Qwen3:30b-instruct exibe forte desempenho em benchmarks de geração de código multilíngue como HumanEval-XL, suportando mais de 20 linguagens de programação e fornecendo superior precisão na geração de código cruzado-linguístico.
- O GPT-OSS:20b, embora competitivo, performa um pouco mais baixo que o Qwen3:30b-instruct nos benchmarks HumanEval, especialmente em contextos de programação multilíngue e multi-idioma devido ao treinamento multilíngue menos extensivo.
Tabela Resumo (tendências aproximadas da literatura):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Notas |
|---|---|---|---|
| Precisão MMLU | ~89-91% | ~80-85% | Qwen3 mais forte em conhecimento amplo e raciocínio |
| Pontuações LMEval | Alto, raciocínio avançado e código | Moderado, raciocínio de linha de base | Qwen3 excelencia em matemática e lógica |
| HumanEval | Alto desempenho de geração de código multilíngue | Moderado | Qwen3 melhor na geração de código cruzado-linguístico |
Se números exatos de benchmark forem necessários, benchmarks multilíngues de grande escala especializados como P-MMEval e HumanEval-XL, referenciados em artigos de pesquisa recentes, fornecem pontuações detalhadas para modelos incluindo Qwen3 e variantes comparáveis do GPT-OSS, mas estes não estão publicamente disponíveis para recuperação direta de pontuações lado a lado neste momento.
Comparação de Velocidade Qwen3:30b e GPT-OSS:20b
No meu hardware (16GB VRAM) estou obtendo Qwen3:30b e GPT-OSS:20b rodando com janela de contexto de 4000, e eles estão produzindo:
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
E para comparação, também testei o qwen3:14b e o gpt-oss:120b
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Em janelas de contexto mais longas, a velocidade será mais lenta; no caso do qwen3:30b-a3b, provavelmente muito mais lenta. Isso é, novamente, no meu PC. Detalhes técnicos tomados da saída verbosa e memória alocada estão abaixo, comandos para tentar:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps mostrando alocação de memória em contexto 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutos agora
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutos agora
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutos agora
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutos agora
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutos agora
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Variantes do Qwen3:30b
Existem três variantes do modelo qwen3:30b disponíveis: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.
Principais Diferenças e Recomendações
- qwen3:30b-instruct é o melhor para conversas onde instruções do usuário, clareza e diálogo natural são priorizados.
- qwen3:30b é a fundação geral, adequada se tanto o seguimento de instruções quanto o uso de ferramentas forem importantes em tarefas diversas.
- qwen3:30b-thinking destaca-se quando raciocínio profundo, matemática e codificação são o foco principal. Superou os outros em tarefas que medem rigor lógico/matemático, mas não é necessariamente melhor para escrita criativa ou conversas casuais.
Comparação Direta de Benchmark
| Modelo | Raciocínio (AIME25) | Codificação (LiveCodeBench) | Conhecimento Geral (MMLU Redux) | Velocidade e Contexto | Caso de Uso Ideal |
|---|---|---|---|---|---|
| qwen3:30b | 70.9 | 57.4 | 89.5 | 256K tokens; Rápido | Linguagem geral/agentes/multilíngue |
| qwen3:30b-instruct | N/A (Previsto próximo a 30b) | N/A | ~Mesmo que 30b | 256K tokens | Seguimento de instruções, alinhamento |
| qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K tokens | Matemática, código, raciocínio, docs longos |
Para mais benchmarks, escolhas de hardware e ajuste de desempenho, verifique nosso hub LLM Performance: Benchmarks, Bottlenecks & Optimization.
Links Úteis
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Instalar e configurar Ollama
- Ollama cheatsheet - comandos mais úteis
- Constraining LLMs with Structured Output: Ollama, Qwen3 & Python or Go
- Integrando Ollama com Python: REST API e Exemplos de Cliente Python