A RTX 4080 consegue executar o GPT-OSS 120b de forma eficaz?

Sim, surpreendentemente bem. A RTX 4080 alcança 969 tokens/s na avaliação do prompt e 12,45 tokens/s na geração, embora o modelo execute 78% no CPU e apenas 22% no GPU, pois o tamanho do modelo de 65 GB excede a VRAM de 16 GB.

Como o Mac Studio se comporta com o GPT-OSS 120b?

O Mac Studio inicia com 34 tokens/s, mas o desempenho degrada significativamente para 6 tokens/s conforme o tamanho do contexto aumenta, tornando-o menos adequado para tarefas de longo contexto com este modelo.

O NVIDIA DGX Spark vale a pena para a execução de grandes modelos de linguagem?

Para o GPT-OSS 120b, o DGX Spark oferece desempenho excelente a 41 tokens/s. No entanto, para modelos de porte médio a grande, como Qwen3:32b e Llama3.1:70b, o desempenho não é tão impressionante, o que sugere que ele é mais benéfico para modelos muito grandes que realmente necessitam da alta capacidade de RAM.

O que é o GPT-OSS 120b e por que ele é significativo?

O GPT-OSS 120b é um modelo Mixture-of-Experts (MoE) com 117 bilhões de parâmetros e 5,1 bilhões de parâmetros ativos por passagem, utilizando quantização MXFP4. Com 65 GB, é um dos modelos abertos maiores disponíveis, tornando-se um excelente benchmark para testar hardware de IA de alta capacidade.

Posso executar o GPT-OSS 120b em um sistema com apenas 16 GB de VRAM?

Não inteiramente na GPU. Com 16 GB de VRAM, o modelo dependerá fortemente de offloading para a CPU. Você precisará de pelo menos 64 GB de RAM do sistema para um desempenho razoável, embora não esteja pronto para produção. O modelo apresenta o melhor desempenho em sistemas com alta VRAM ou arquiteturas de memória unificada.

Onde posso encontrar mais benchmarks de desempenho de LLM e guias de otimização?

Nosso hub de desempenho de LLMs abrange throughput versus latência, limites de VRAM, solicitações paralelas, alocação de memória e benchmarks em diferentes runtimes e hardware.

Como o offloading de CPU afeta a velocidade de geração de tokens?

A descarga pesada de CPU reduz a velocidade de geração. A seção Desempenho do LLM apresenta benchmarks comparando cenários de GPU total versus descarga de CPU, além de orientações sobre como interpretar a taxa de avaliação e tokens por segundo.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

Benchmarks do GPT-OSS 120b em três plataformas de IA

Conteúdo da página

Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).

Sim, o modelo pode rodar com descarregamento parcial para a CPU e, se você tiver 64 GB de RAM no sistema (como eu), pode experimentar. No entanto, essa configuração não seria considerada em nenhum lugar próxima ao desempenho de produção. Para cargas de trabalho verdadeiramente exigentes, você pode precisar de algo como o NVIDIA DGX Spark, que foi projetado especificamente para cargas de trabalho de IA de alta capacidade. Para mais informações sobre desempenho de LLM – throughput versus latência, limites de VRAM e benchmarks entre tempos de execução e hardware – veja LLM Performance: Benchmarks, Bottlenecks & Optimization.

7 llamas

Eu esperava que este LLM se beneficiasse significativamente de rodar em um “dispositivo de IA com alta RAM” como o DGX Spark. Embora os resultados sejam bons, eles não são tão dramaticamente melhores quanto você poderia esperar dada a diferença de preço entre o DGX Spark e opções mais acessíveis.

TL;DR

Comparação de desempenho do Ollama rodando GPT-OSS 120b em três plataformas:

Dispositivo	Desempenho de Avaliação de Prompt (tokens/seg)	Desempenho de Geração (tokens/seg)	Observações
NVIDIA DGX Spark	1159	41	Melhor desempenho geral, totalmente acelerado por GPU
Mac Studio	Desconhecido	34 → 6	Um teste mostrou degradação com o aumento do tamanho do contexto
RTX 4080	969	12.45	Divisão de 78% CPU / 22% GPU devido a limites de VRAM

Especificações do modelo:

Modelo: GPT-OSS 120b
Parâmetros: 117B (arquitetura Mixture-of-Experts)
Parâmetros ativos por passagem: 5.1B
Quantização: MXFP4
Tamanho do modelo: 65GB

Isso é semelhante em arquitetura a outros modelos MoE como Qwen3:30b, mas em uma escala muito maior.

GPT-OSS 120b no NVIDIA DGX Spark

Os dados de desempenho de LLM para o NVIDIA DGX Spark vêm do post oficial do blog da Ollama (linkado abaixo na seção Links Úteis). O DGX Spark representa a entrada da NVIDIA no mercado de supercomputadores pessoais de IA, com 128 GB de memória unificada projetados especificamente para rodar grandes modelos de linguagem.

ollama on dgx spark performance table

O desempenho do GPT-OSS 120b parece impressionante em 41 tokens/seg para geração. Isso o torna o claro vencedor para este modelo em particular, mostrando que a capacidade de memória extra pode fazer uma diferença real para modelos extremamente grandes.

No entanto, o desempenho dos LLMs de médio a grande porte não parece tão convincente. Isso é particularmente perceptível com Qwen3:32b e Llama3.1:70b – exatamente os modelos onde você esperaria que a alta capacidade de RAM brilhasse. O desempenho no DGX Spark para esses modelos não é inspirador quando comparado ao prêmio de preço. Se você trabalha principalmente com modelos na faixa de 30-70B de parâmetros, pode querer considerar alternativas como uma estação de trabalho bem configurada) ou até mesmo uma Quadro RTX 5880 Ada com seus 48 GB de VRAM.

GPT-OSS 120b no Mac Studio Max

O canal do YouTube Slinging Bits conduziu testes abrangentes rodando o GPT-OSS 120b no Ollama com tamanhos de contexto variados. Os resultados revelam uma preocupação significativa de desempenho: a velocidade de geração do modelo caiu dramaticamente de 34 tokens/s para apenas 6 tokens/s à medida que o tamanho do contexto aumentava.

Essa degradação de desempenho provavelmente é devido à pressão de memória e à forma como o macOS gerencia a arquitetura de memória unificada. Embora o Mac Studio Max tenha uma memória unificada impressionante (até 192 GB na configuração M2 Ultra), a maneira como ele lida com modelos muito grandes sob cargas de contexto crescentes difere significativamente da VRAM dedicada de GPU.

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

Para aplicativos que exigem desempenho consistente em vários comprimentos de contexto, isso torna o Mac Studio menos ideal para o GPT-OSS 120b, apesar de suas excelentes capacidades para cargas de trabalho de IA. Você pode ter melhor sorte com modelos menores ou considerar usar os recursos de manuseio de solicitações paralelas do Ollama para maximizar o throughput em cenários de produção.

GPT-OSS 120b na RTX 4080

Inicialmente, pensei que rodar o Ollama com o GPT-OSS 120b no meu PC de consumidor não seria particularmente emocionante, mas os resultados me surpreenderam agradavelmente. Aqui está o que aconteceu quando testei com esta consulta:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include 
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the 
numbers, but the broad patterns remain unchanged.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Agora vem a parte interessante – o Ollama com este LLM estava rodando principalmente na CPU! O modelo simplesmente não cabe na VRAM de 16 GB, então o Ollama descarregou inteligentemente a maior parte dele para a RAM do sistema. Você pode ver esse comportamento usando o comando ollama ps:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Apesar de rodar com uma divisão de 78% CPU / 22% GPU, a RTX 4080 ainda entrega um desempenho respeitável para um modelo deste tamanho. A avaliação do prompt é incrivelmente rápida em 969 tokens/s, e até mesmo a velocidade de geração de 12.45 tokens/s é utilizável para muitos aplicativos.

Isso é particularmente impressionante quando você considera que:

O modelo é quase 4x maior que a VRAM disponível
A maior parte da computação acontece na CPU (o que se beneficia dos meus 64 GB de RAM do sistema)
Compreender como o Ollama usa os núcleos da CPU pode ajudar a otimizar ainda mais essa configuração

Quem diria que uma GPU de consumidor poderia lidar com um modelo de 117B de parâmetros, muito menos com desempenho utilizável? Isso demonstra o poder do gerenciamento inteligente de memória do Ollama e a importância de ter RAM do sistema suficiente. Se você estiver interessado em integrar o Ollama aos seus aplicativos, confira este guia sobre usando Ollama com Python.

Nota: Embora isso funcione para experimentação e testes, você notará que o GPT-OSS pode ter algumas peculiaridades, particularmente com formatos de saída estruturada.

Para explorar mais benchmarks, compensações de descarregamento de VRAM e CPU e ajuste de desempenho entre plataformas, confira nosso hub LLM Performance: Benchmarks, Bottlenecks & Optimization.

Fontes Primárias

Ollama on NVIDIA DGX Spark: Performance Benchmarks - Post oficial do blog da Ollama com dados abrangentes de desempenho do DGX Spark
GPT-OSS 120B on Mac Studio - Slinging Bits YouTube - Teste detalhado em vídeo do GPT-OSS 120b com tamanhos de contexto variados

Leitura Relacionada sobre Comparação de Hardware e Ollama

DGX Spark vs. Mac Studio: A Practical, Price-Checked Look at NVIDIA’s Personal AI Supercomputer - Explicação detalhada das configurações do DGX Spark, preços globais e comparação direta com Mac Studio para trabalho local de IA
NVIDIA DGX Spark - Anticipation - Cobertura inicial do DGX Spark: disponibilidade, preços e especificações técnicas
NVidia RTX 5080 and RTX 5090 prices in Australia - October 2025 - Preços atuais de mercado para GPUs de consumo de próxima geração
Is the Quadro RTX 5880 Ada 48GB Any Good? - Revisão da alternativa de GPU de estação de trabalho de 48GB para cargas de trabalho de IA
Ollama cheatsheet - Referência de comandos abrangente e dicas para Ollama

P.S. Novos Dados

Já depois de publicar este post, encontrei no site da NVIDIA mais estatísticas sobre Inferência de LLM no DGX Spark:

Melhor, mas não contradiz muito o dito acima (55 tokens vs 41), mas é uma adição interessante, especialmente sobre o Qwen3 235B (em DGX Spark duplo) produzindo 11+ tokens/segundo

https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/