NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

GPT-OSS 120b benchmarks op drie AI-platforms

Inhoud

Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio, en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).

Ja, het model kan draaien met gedeeltelijke uitlating naar de CPU, en als je 64 GB systeemgeheugen hebt (zoals ik), kun je het proberen. Echter, deze opstelling zou niet als iets dat dicht bij productie-klare prestaties zou worden beschouwd. Voor werkladingen die echt veel vereisen, zou je iets nodig hebben zoals de NVIDIA DGX Spark, die specifiek is ontworpen voor hoge-capaciteit AI werkladingen. Voor meer over LLM prestaties—doorstroming versus vertraging, VRAM limieten en benchmarks over runtime en hardware—zie LLM prestaties: benchmarks, bottlenecks & optimalisatie.

7 llamas

Ik verwachtte dat deze LLM aanzienlijk zou profiteren van het draaien op een “hoog-RAM AI apparaat” zoals de DGX Spark. Hoewel de resultaten goed zijn, zijn ze niet zo dramatisch beter als je zou verwachten gegeven de prijsverschillen tussen DGX Spark en betaalbare opties.

TL;DR

Ollama draaiend met GPT-OSS 120b prestatievergelijking over drie platforms:

Apparaat Prompt Eval Prestaties (tokens/sec) Generatieprestaties (tokens/sec) Opmerkingen
NVIDIA DGX Spark 1159 41 Beste overal prestaties, volledig GPU-geaccelereerd
Mac Studio Onbekend 34 → 6 Een test toonde afname met toename van contextgrootte
RTX 4080 969 12.45 78% CPU / 22% GPU split vanwege VRAM limieten

Model specificaties:

  • Model: GPT-OSS 120b
  • Parameters: 117B (Mixture-of-Experts architectuur)
  • Actieve parameters per pass: 5.1B
  • Quantisatie: MXFP4
  • Modelgrootte: 65GB

Dit is vergelijkbaar in architectuur met andere MoE modellen zoals Qwen3:30b, maar op een veel grotere schaal.

GPT-OSS 120b op NVIDIA DGX Spark

De LLM prestatiedata voor NVIDIA DGX Spark komt van de officiële Ollama blogpost (vermeld hieronder in de nuttige linkssectie). De DGX Spark vertegenwoordigt NVIDIA’s entree in de persoonlijke AI supercomputer markt, met 128 GB geïntegreerd geheugen dat specifiek is ontworpen voor het draaien van grote taalmodellen.

ollama op dgx spark prestatietabel

De prestaties van GPT-OSS 120b zien er indrukwekkend uit met 41 tokens/sec voor generatie. Dit maakt het duidelijk winnaar voor dit specifieke model, wat aantoont dat de extra geheugencapaciteit echt een verschil kan maken voor zeer grote modellen.

De prestaties van gemiddelde tot grote LLMs zien er echter niet zo overtuigend uit. Dit is vooral merkbaar met Qwen3:32b en Llama3.1:70b—precies de modellen waarbij je zou verwachten dat de hoge RAM capaciteit zou schitteren. De prestaties op DGX Spark voor deze modellen zijn niet inspirerend in vergelijking met de prijsvoordeel. Als je vooral werkt met modellen in de 30-70B parameter bereik, zou je misschien overwegen alternatieven zoals een goed ingevoerde werkstation) of zelfs een Quadro RTX 5880 Ada met zijn 48 GB VRAM.

GPT-OSS 120b op Mac Studio Max

De Slinging Bits YouTube-kanaal heeft uitgebreide tests uitgevoerd met GPT-OSS 120b draaiend op Ollama met verschillende contextgroottes. De resultaten tonen een aanzienlijk prestatieprobleem: de generatiesnelheid van het model daalde dramatisch van 34 tokens/s naar slechts 6 tokens/s met toenemende contextgrootte.

Deze prestatievermindering is waarschijnlijk te wijten aan geheugendruk en de manier waarop macOS de geïntegreerde geheugenarchitectuur beheert. Hoewel Mac Studio Max indrukwekkende geïntegreerde geheugen heeft (tot 192 GB in de M2 Ultra configuratie), is de manier waarop het grote modellen beheert onder toenemende contextbelastingen aanzienlijk anders dan bij toegewijde GPU VRAM.

ollama met gpt-oss 120b op mac studio

“ollama-gpt-oss-120b-on-mac-studio-overzicht”

Voor toepassingen die consistente prestaties vereisen over verschillende contextlengtes, maakt dit Mac Studio minder ideaal voor GPT-OSS 120b, ondanks zijn overige uitstekende mogelijkheden voor AI werkladingen. Je zou betere kans hebben met kleinere modellen of overwegen om Ollama’s parallele aanvraagbehandeling kenmerken te gebruiken om doorstroming te maximaliseren in productiescenario’s.

GPT-OSS 120b op RTX 4080

Ik dacht aanvankelijk dat het draaien van Ollama met GPT-OSS 120b op mijn consumentenpc niet erg opvallend zou zijn, maar de resultaten hebben me aangenaam verrast. Hier is wat er gebeurde toen ik het testte met deze query:

$ ollama run gpt-oss:120b --verbose Vergelijk het weer in de hoofdsteden van Australië


Denkend...
We moeten het weer in de hoofdsteden van Australië vergelijken. Geef een vergelijking, misschien inclusief 
...
*Alle data toegankelijk September 2024; eventuele updates van de BOM na die datum kunnen de getallen licht aanpassen, maar de brede patronen blijven onveranderd.*


totaal duur:       4m39.942105769s
laadduur:        75.843974ms
prompt eval tellen:    75 token(s)
prompt eval duur: 77.341981ms
prompt eval snelheid:     969.72 tokens/s
eval tellen:           3483 token(s)
eval duur:        4m39.788119563s
eval snelheid:            12.45 tokens/s

Nu is hier het interessante deel—Ollama met deze LLM draait vooral op CPU! Het model past gewoon niet in de 16 GB VRAM, dus Ollama verlaadt intelligent de meeste van het model naar systeemgeheugen. Je kunt dit gedrag bekijken met de ollama ps commando:

$ ollama ps

NAAM            ID              GROOTTE     VERWERKER          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Hoewel het draait met een 78% CPU / 22% GPU split, levert de RTX 4080 toch respectabele prestaties voor een model van deze grootte. De prompt evaluatie is ongelooflijk snel met 969 tokens/s, en zelfs de generatiesnelheid van 12.45 tokens/s is bruikbaar voor veel toepassingen.

Dit is vooral indrukwekkend als je bedenkt dat:

  1. Het model bijna 4x groter is dan de beschikbare VRAM
  2. De meeste berekeningen plaatsvinden op CPU (wat voordelen heeft van mijn 64 GB systeemgeheugen)
  3. Het begrijpen van hoe Ollama CPU-kernen gebruikt kan helpen bij verdere optimalisatie van deze opstelling

Wie had gedacht dat een consumenten GPU een 117B parameter model zou kunnen aanpakken, laat staan met bruikbare prestaties? Dit toont de kracht van Ollama’s intelligente geheugenbeheer en de belangrijkheid van voldoende systeemgeheugen te hebben. Als je geïnteresseerd bent in het integreren van Ollama in jouw toepassingen, bekijk dan deze gids over het gebruiken van Ollama met Python.

Opmerking: Hoewel dit werkt voor experimenten en testen, zul je GPT-OSS kan enkele quirks hebben, vooral met gestructureerde uitvoerformaten.

Om meer benchmarks, VRAM en CPU offloading trade-offs, en prestatieoptimalisatie over platforms te verkennen, bekijk dan onze LLM prestaties: benchmarks, bottlenecks & optimalisatie hub.

Primair bronmateriaal

Gerelateerde lezing over hardware vergelijking en Ollama


P.S. Nieuwe gegevens

Al na het publiceren van deze post vond ik op de NVIDIA site extra statistieken over LLM inferentie op DGX Spark:

nvidia-spark-inferrence.png

Beter, maar niet veel in tegenspraak met het bovenstaande (55 tokens versus 41), maar het is een interessante aanvulling, vooral over Qwen3 235B (op dubbele DGX Spark) die 11+ tokens per seconde produceert

https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks