NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

Benchmarks do GPT-OSS 120b em três plataformas de IA

Conteúdo da página

Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).

Sim, o modelo pode rodar com descarregamento parcial para a CPU e, se você tiver 64 GB de RAM no sistema (como eu), pode experimentar. No entanto, essa configuração não seria considerada em nenhum lugar próxima ao desempenho de produção. Para cargas de trabalho verdadeiramente exigentes, você pode precisar de algo como o NVIDIA DGX Spark, que foi projetado especificamente para cargas de trabalho de IA de alta capacidade. Para mais informações sobre desempenho de LLM – throughput versus latência, limites de VRAM e benchmarks entre tempos de execução e hardware – veja LLM Performance: Benchmarks, Bottlenecks & Optimization.

7 llamas

Eu esperava que este LLM se beneficiasse significativamente de rodar em um “dispositivo de IA com alta RAM” como o DGX Spark. Embora os resultados sejam bons, eles não são tão dramaticamente melhores quanto você poderia esperar dada a diferença de preço entre o DGX Spark e opções mais acessíveis.

TL;DR

Comparação de desempenho do Ollama rodando GPT-OSS 120b em três plataformas:

Dispositivo Desempenho de Avaliação de Prompt (tokens/seg) Desempenho de Geração (tokens/seg) Observações
NVIDIA DGX Spark 1159 41 Melhor desempenho geral, totalmente acelerado por GPU
Mac Studio Desconhecido 34 → 6 Um teste mostrou degradação com o aumento do tamanho do contexto
RTX 4080 969 12.45 Divisão de 78% CPU / 22% GPU devido a limites de VRAM

Especificações do modelo:

  • Modelo: GPT-OSS 120b
  • Parâmetros: 117B (arquitetura Mixture-of-Experts)
  • Parâmetros ativos por passagem: 5.1B
  • Quantização: MXFP4
  • Tamanho do modelo: 65GB

Isso é semelhante em arquitetura a outros modelos MoE como Qwen3:30b, mas em uma escala muito maior.

GPT-OSS 120b no NVIDIA DGX Spark

Os dados de desempenho de LLM para o NVIDIA DGX Spark vêm do post oficial do blog da Ollama (linkado abaixo na seção Links Úteis). O DGX Spark representa a entrada da NVIDIA no mercado de supercomputadores pessoais de IA, com 128 GB de memória unificada projetados especificamente para rodar grandes modelos de linguagem.

ollama on dgx spark performance table

O desempenho do GPT-OSS 120b parece impressionante em 41 tokens/seg para geração. Isso o torna o claro vencedor para este modelo em particular, mostrando que a capacidade de memória extra pode fazer uma diferença real para modelos extremamente grandes.

No entanto, o desempenho dos LLMs de médio a grande porte não parece tão convincente. Isso é particularmente perceptível com Qwen3:32b e Llama3.1:70b – exatamente os modelos onde você esperaria que a alta capacidade de RAM brilhasse. O desempenho no DGX Spark para esses modelos não é inspirador quando comparado ao prêmio de preço. Se você trabalha principalmente com modelos na faixa de 30-70B de parâmetros, pode querer considerar alternativas como uma estação de trabalho bem configurada) ou até mesmo uma Quadro RTX 5880 Ada com seus 48 GB de VRAM.

GPT-OSS 120b no Mac Studio Max

O canal do YouTube Slinging Bits conduziu testes abrangentes rodando o GPT-OSS 120b no Ollama com tamanhos de contexto variados. Os resultados revelam uma preocupação significativa de desempenho: a velocidade de geração do modelo caiu dramaticamente de 34 tokens/s para apenas 6 tokens/s à medida que o tamanho do contexto aumentava.

Essa degradação de desempenho provavelmente é devido à pressão de memória e à forma como o macOS gerencia a arquitetura de memória unificada. Embora o Mac Studio Max tenha uma memória unificada impressionante (até 192 GB na configuração M2 Ultra), a maneira como ele lida com modelos muito grandes sob cargas de contexto crescentes difere significativamente da VRAM dedicada de GPU.

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

Para aplicativos que exigem desempenho consistente em vários comprimentos de contexto, isso torna o Mac Studio menos ideal para o GPT-OSS 120b, apesar de suas excelentes capacidades para cargas de trabalho de IA. Você pode ter melhor sorte com modelos menores ou considerar usar os recursos de manuseio de solicitações paralelas do Ollama para maximizar o throughput em cenários de produção.

GPT-OSS 120b na RTX 4080

Inicialmente, pensei que rodar o Ollama com o GPT-OSS 120b no meu PC de consumidor não seria particularmente emocionante, mas os resultados me surpreenderam agradavelmente. Aqui está o que aconteceu quando testei com esta consulta:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include 
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the 
numbers, but the broad patterns remain unchanged.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Agora vem a parte interessante – o Ollama com este LLM estava rodando principalmente na CPU! O modelo simplesmente não cabe na VRAM de 16 GB, então o Ollama descarregou inteligentemente a maior parte dele para a RAM do sistema. Você pode ver esse comportamento usando o comando ollama ps:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Apesar de rodar com uma divisão de 78% CPU / 22% GPU, a RTX 4080 ainda entrega um desempenho respeitável para um modelo deste tamanho. A avaliação do prompt é incrivelmente rápida em 969 tokens/s, e até mesmo a velocidade de geração de 12.45 tokens/s é utilizável para muitos aplicativos.

Isso é particularmente impressionante quando você considera que:

  1. O modelo é quase 4x maior que a VRAM disponível
  2. A maior parte da computação acontece na CPU (o que se beneficia dos meus 64 GB de RAM do sistema)
  3. Compreender como o Ollama usa os núcleos da CPU pode ajudar a otimizar ainda mais essa configuração

Quem diria que uma GPU de consumidor poderia lidar com um modelo de 117B de parâmetros, muito menos com desempenho utilizável? Isso demonstra o poder do gerenciamento inteligente de memória do Ollama e a importância de ter RAM do sistema suficiente. Se você estiver interessado em integrar o Ollama aos seus aplicativos, confira este guia sobre usando Ollama com Python.

Nota: Embora isso funcione para experimentação e testes, você notará que o GPT-OSS pode ter algumas peculiaridades, particularmente com formatos de saída estruturada.

Para explorar mais benchmarks, compensações de descarregamento de VRAM e CPU e ajuste de desempenho entre plataformas, confira nosso hub LLM Performance: Benchmarks, Bottlenecks & Optimization.

Fontes Primárias

Leitura Relacionada sobre Comparação de Hardware e Ollama


P.S. Novos Dados

Já depois de publicar este post, encontrei no site da NVIDIA mais estatísticas sobre Inferência de LLM no DGX Spark:

nvidia-spark-inferrence.png

Melhor, mas não contradiz muito o dito acima (55 tokens vs 41), mas é uma adição interessante, especialmente sobre o Qwen3 235B (em DGX Spark duplo) produzindo 11+ tokens/segundo

https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.