NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama
Benchmarks do GPT-OSS 120b em três plataformas de IA
Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).
Sim, o modelo pode rodar com descarregamento parcial para a CPU e, se você tiver 64 GB de RAM no sistema (como eu), pode experimentar. No entanto, essa configuração não seria considerada em nenhum lugar próxima ao desempenho de produção. Para cargas de trabalho verdadeiramente exigentes, você pode precisar de algo como o NVIDIA DGX Spark, que foi projetado especificamente para cargas de trabalho de IA de alta capacidade. Para mais informações sobre desempenho de LLM – throughput versus latência, limites de VRAM e benchmarks entre tempos de execução e hardware – veja LLM Performance: Benchmarks, Bottlenecks & Optimization.

Eu esperava que este LLM se beneficiasse significativamente de rodar em um “dispositivo de IA com alta RAM” como o DGX Spark. Embora os resultados sejam bons, eles não são tão dramaticamente melhores quanto você poderia esperar dada a diferença de preço entre o DGX Spark e opções mais acessíveis.
TL;DR
Comparação de desempenho do Ollama rodando GPT-OSS 120b em três plataformas:
| Dispositivo | Desempenho de Avaliação de Prompt (tokens/seg) | Desempenho de Geração (tokens/seg) | Observações |
|---|---|---|---|
| NVIDIA DGX Spark | 1159 | 41 | Melhor desempenho geral, totalmente acelerado por GPU |
| Mac Studio | Desconhecido | 34 → 6 | Um teste mostrou degradação com o aumento do tamanho do contexto |
| RTX 4080 | 969 | 12.45 | Divisão de 78% CPU / 22% GPU devido a limites de VRAM |
Especificações do modelo:
- Modelo: GPT-OSS 120b
- Parâmetros: 117B (arquitetura Mixture-of-Experts)
- Parâmetros ativos por passagem: 5.1B
- Quantização: MXFP4
- Tamanho do modelo: 65GB
Isso é semelhante em arquitetura a outros modelos MoE como Qwen3:30b, mas em uma escala muito maior.
GPT-OSS 120b no NVIDIA DGX Spark
Os dados de desempenho de LLM para o NVIDIA DGX Spark vêm do post oficial do blog da Ollama (linkado abaixo na seção Links Úteis). O DGX Spark representa a entrada da NVIDIA no mercado de supercomputadores pessoais de IA, com 128 GB de memória unificada projetados especificamente para rodar grandes modelos de linguagem.

O desempenho do GPT-OSS 120b parece impressionante em 41 tokens/seg para geração. Isso o torna o claro vencedor para este modelo em particular, mostrando que a capacidade de memória extra pode fazer uma diferença real para modelos extremamente grandes.
No entanto, o desempenho dos LLMs de médio a grande porte não parece tão convincente. Isso é particularmente perceptível com Qwen3:32b e Llama3.1:70b – exatamente os modelos onde você esperaria que a alta capacidade de RAM brilhasse. O desempenho no DGX Spark para esses modelos não é inspirador quando comparado ao prêmio de preço. Se você trabalha principalmente com modelos na faixa de 30-70B de parâmetros, pode querer considerar alternativas como uma estação de trabalho bem configurada) ou até mesmo uma Quadro RTX 5880 Ada com seus 48 GB de VRAM.
GPT-OSS 120b no Mac Studio Max
O canal do YouTube Slinging Bits conduziu testes abrangentes rodando o GPT-OSS 120b no Ollama com tamanhos de contexto variados. Os resultados revelam uma preocupação significativa de desempenho: a velocidade de geração do modelo caiu dramaticamente de 34 tokens/s para apenas 6 tokens/s à medida que o tamanho do contexto aumentava.
Essa degradação de desempenho provavelmente é devido à pressão de memória e à forma como o macOS gerencia a arquitetura de memória unificada. Embora o Mac Studio Max tenha uma memória unificada impressionante (até 192 GB na configuração M2 Ultra), a maneira como ele lida com modelos muito grandes sob cargas de contexto crescentes difere significativamente da VRAM dedicada de GPU.


Para aplicativos que exigem desempenho consistente em vários comprimentos de contexto, isso torna o Mac Studio menos ideal para o GPT-OSS 120b, apesar de suas excelentes capacidades para cargas de trabalho de IA. Você pode ter melhor sorte com modelos menores ou considerar usar os recursos de manuseio de solicitações paralelas do Ollama para maximizar o throughput em cenários de produção.
GPT-OSS 120b na RTX 4080
Inicialmente, pensei que rodar o Ollama com o GPT-OSS 120b no meu PC de consumidor não seria particularmente emocionante, mas os resultados me surpreenderam agradavelmente. Aqui está o que aconteceu quando testei com esta consulta:
$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia
Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the
numbers, but the broad patterns remain unchanged.*
total duration: 4m39.942105769s
load duration: 75.843974ms
prompt eval count: 75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate: 969.72 tokens/s
eval count: 3483 token(s)
eval duration: 4m39.788119563s
eval rate: 12.45 tokens/s
Agora vem a parte interessante – o Ollama com este LLM estava rodando principalmente na CPU! O modelo simplesmente não cabe na VRAM de 16 GB, então o Ollama descarregou inteligentemente a maior parte dele para a RAM do sistema. Você pode ver esse comportamento usando o comando ollama ps:
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT
gpt-oss:120b a951a23b46a1 65 GB 78%/22% CPU/GPU 4096
Apesar de rodar com uma divisão de 78% CPU / 22% GPU, a RTX 4080 ainda entrega um desempenho respeitável para um modelo deste tamanho. A avaliação do prompt é incrivelmente rápida em 969 tokens/s, e até mesmo a velocidade de geração de 12.45 tokens/s é utilizável para muitos aplicativos.
Isso é particularmente impressionante quando você considera que:
- O modelo é quase 4x maior que a VRAM disponível
- A maior parte da computação acontece na CPU (o que se beneficia dos meus 64 GB de RAM do sistema)
- Compreender como o Ollama usa os núcleos da CPU pode ajudar a otimizar ainda mais essa configuração
Quem diria que uma GPU de consumidor poderia lidar com um modelo de 117B de parâmetros, muito menos com desempenho utilizável? Isso demonstra o poder do gerenciamento inteligente de memória do Ollama e a importância de ter RAM do sistema suficiente. Se você estiver interessado em integrar o Ollama aos seus aplicativos, confira este guia sobre usando Ollama com Python.
Nota: Embora isso funcione para experimentação e testes, você notará que o GPT-OSS pode ter algumas peculiaridades, particularmente com formatos de saída estruturada.
Para explorar mais benchmarks, compensações de descarregamento de VRAM e CPU e ajuste de desempenho entre plataformas, confira nosso hub LLM Performance: Benchmarks, Bottlenecks & Optimization.
Fontes Primárias
- Ollama on NVIDIA DGX Spark: Performance Benchmarks - Post oficial do blog da Ollama com dados abrangentes de desempenho do DGX Spark
- GPT-OSS 120B on Mac Studio - Slinging Bits YouTube - Teste detalhado em vídeo do GPT-OSS 120b com tamanhos de contexto variados
Leitura Relacionada sobre Comparação de Hardware e Ollama
- DGX Spark vs. Mac Studio: A Practical, Price-Checked Look at NVIDIA’s Personal AI Supercomputer - Explicação detalhada das configurações do DGX Spark, preços globais e comparação direta com Mac Studio para trabalho local de IA
- NVIDIA DGX Spark - Anticipation - Cobertura inicial do DGX Spark: disponibilidade, preços e especificações técnicas
- NVidia RTX 5080 and RTX 5090 prices in Australia - October 2025 - Preços atuais de mercado para GPUs de consumo de próxima geração
- Is the Quadro RTX 5880 Ada 48GB Any Good? - Revisão da alternativa de GPU de estação de trabalho de 48GB para cargas de trabalho de IA
- Ollama cheatsheet - Referência de comandos abrangente e dicas para Ollama
P.S. Novos Dados
Já depois de publicar este post, encontrei no site da NVIDIA mais estatísticas sobre Inferência de LLM no DGX Spark:

Melhor, mas não contradiz muito o dito acima (55 tokens vs 41), mas é uma adição interessante, especialmente sobre o Qwen3 235B (em DGX Spark duplo) produzindo 11+ tokens/segundo
https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/