Vergleich: Qwen3:30b vs GPT-OSS:20b

Vergleich der Geschwindigkeit, Parameter und Leistung dieser beiden Modelle

Inhaltsverzeichnis

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b
mit Fokus auf Befehlsfolge und Leistungsparameter, Spezifikationen und Geschwindigkeit.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

7 llamas

Architektur und Parameter

Feature Qwen3:30b-instruct GPT-OSS:20b
Gesamte Parameter 30,5 Milliarden 21 Milliarden
Aktivierte Parameter ~3,3 Milliarden ~3,6 Milliarden
Anzahl der Schichten 48 24
MoE-Experten pro Schicht 128 (8 aktiv pro Token) 32 (4 aktiv pro Token)
Aufmerksamkeitsmechanismus Gruppierte Query-Aufmerksamkeit (32Q /4KV) Gruppierte Multi-Query-Aufmerksamkeit (64Q /8KV)
Kontextfenster 32.768 nativ; Bis zu 262.144 erweitert 128.000 Tokens
Tokenizer BPE-basiert, 151.936 Vokabular GPT-basiert, ≈ 200.000 Vokabular

Befehlsfolge

  • Qwen3:30b-instruct ist für die Befehlsfolge optimiert mit starker Ausrichtung auf menschliche Präferenzen. Es excelt in kreativem Schreiben, Rollenspielen, mehrschichtigen Dialogen und mehrsprachiger Befehlsfolge. Diese Variante ist speziell feinabgestimmt, um natürlichere, kontrolliertere und ansprechendere Antworten zu liefern, die mit den Benutzeranweisungen übereinstimmen.
  • GPT-OSS:20b unterstützt die Befehlsfolge, wird aber allgemein etwas hinter Qwen3:30b-instruct in der feineren Befehlsanpassung bewertet. Es bietet vergleichbare Funktionenaufrufe, strukturierte Ausgaben und Reasoning-Modi, könnte aber in der konversationellen Ausrichtung und kreativen Dialogführung zurückbleiben.

Leistung und Effizienz

  • Qwen3:30b-instruct excelt in mathematischem Reasoning, Programmierung, komplexen logischen Aufgaben und mehrsprachigen Szenarien, die 119 Sprachen und Dialekte abdecken. Sein „Thinking“-Modus ermöglicht erweitertes Reasoning, bringt aber höhere Speicherkosten mit sich.
  • GPT-OSS:20b erreicht eine Leistung, die vergleichbar mit der von OpenAI’s o3-mini-Modell ist. Es verwendet weniger Schichten, aber breitere Experten pro Schicht und native MXFP4-Quantisierung für effiziente Inferenz auf Verbraucherhardware mit geringeren Speicheranforderungen (~16 GB vs. höher für Qwen3).
  • GPT-OSS ist ungefähr 33 % speicher-effizienter und schneller auf bestimmten Hardware-Konfigurationen, insbesondere auf VerbrauchergPUs, aber Qwen3 liefert oft bessere Ausrichtung und Reasoning-Tiefe, insbesondere bei komplexen Anwendungsfallen.
  • Qwen3 bietet eine längere erweiterte Kontextlänge (bis zu 262.144 Tokens) im Vergleich zu GPT-OSS mit 128.000 Tokens, was bei Aufgaben mit sehr langer Kontextverarbeitung von Vorteil ist.

Empfehlung zur Verwendung

  • Wählen Sie Qwen3:30b-instruct für Anwendungsfälle, die eine überlegene Befehlsfolge, kreative Generierung, mehrsprachige Unterstützung und komplexe Reasoning erfordern.
  • Wählen Sie GPT-OSS:20b, wenn Speicher-Effizienz, Inferenzgeschwindigkeit auf Verbraucherhardware und wettbewerbsfähige Baseline-Leistung mit weniger Parametern Priorität hat.

Diese Vergleich unterstreicht Qwen3:30b-instruct als tieferes, fähigeres Modell mit fortgeschrittener Befehlsanpassung, während GPT-OSS:20b eine kompaktere, effizientere Alternative mit wettbewerbsfähiger Leistung auf Standardbenchmarks anbietet.

Benchmarkscores, die Qwen3:30b-instruct und GPT-OSS:20b speziell für Befehlsfolge und Schlüsselleistungsparameter (MMLU, LMEval, HumanEval) vergleichen, sind nicht direkt in den Suchergebnissen verfügbar. Allerdings basierend auf bestehenden veröffentlichten mehrsprachigen und multitask-Benchmark-Berichten:

MMLU (Massive Multitask Language Understanding)

Schwer zu finden, nur:

  • Qwen3-Reihe-Modelle, insbesondere in der 30B-Größe und darüber, zeigen starke MMLU-Scores, die typischerweise 89 % übertreffen, was sehr wettbewerbsfähige Kenntnisverarbeitung und Reasoning-Fähigkeiten über 57 verschiedene Bereiche zeigt.
  • GPT-OSS:20b leistet sich auch gut auf MMLU-Benchmarks, erzielt aber normalerweise niedrigere Scores als größere Qwen-Modelle aufgrund der geringeren Parameterzahl und der geringeren Fokus auf Befehlsfeinabstimmung.

LMEval (Language Model Evaluation Toolkit)

Nicht viel Details zurzeit:

  • Qwen3-Modelle zeigen erhebliche Verbesserungen bei Reasoning- und code-bezogenen Aufgaben innerhalb von LMEval, mit verbesserten Scores in Logik, Mathematik-Reasoning und allgemeinen Fähigkeiten.
  • GPT-OSS:20b bietet robuste Baseline-Leistung auf LMEval, verläuft aber allgemein hinter Qwen3:30b-instruct bei fortgeschrittenem Reasoning und Befehlsfolge-Unteraufgaben.

HumanEval (Code Generation Benchmark)

Nicht viel Daten, nur:

  • Qwen3:30b-instruct zeigt starke Leistung auf mehrsprachigen Code-Generierungsbenchmarks wie HumanEval-XL, unterstützt über 20 Programmiersprachen und liefert überlegene mehrsprachige Code-Generierungspräzision.
  • GPT-OSS:20b, obwohl wettbewerbsfähig, leistet sich etwas niedrigere Scores in HumanEval-Benchmarks als Qwen3:30b-instruct, insbesondere in mehrsprachigen und multi-sprachigen Programmierkontexten aufgrund weniger umfassender mehrsprachiger Schulung.
Benchmark Qwen3:30b-instruct GPT-OSS:20b Hinweise
MMLU Genauigkeit ~89-91% ~80-85% Qwen3 stärker in breiter Kenntnis und Reasoning
LMEval Scores Hoch, fortgeschrittenes Reasoning & Code Mittel, Baseline Reasoning Qwen3 excelt in Mathematik und Logik
HumanEval Hoch mehrsprachige Codegenerierung Mittel Qwen3 besser in mehrsprachiger Codegenerierung

Wenn genaue Benchmark-Zahlen benötigt werden, bieten spezialisierte mehrsprachige großskalige Benchmarks wie P-MMEval und HumanEval-XL, die in aktuellen Forschungsarbeiten erwähnt werden, detaillierte Scores für Modelle wie Qwen3 und vergleichbare GPT-OSS-Varianten, sind aber derzeit nicht öffentlich vereinfacht für direkte Seiten-zu-Seiten-Score-Retrieval.

Geschwindigkeitsvergleich zwischen Qwen3:30b und GPT-OSS:20b

Auf meiner Hardware (16 GB VRAM) erhalte ich Qwen3:30b und GPT-OSS:20b mit einem 4000 Kontextfenster, und sie erzeugen:

  • qwen3:30b-a3b => 45,68 Token/s
  • gpt-oss:20b => 129,52 Token/s

Und für den Vergleich habe ich auch qwen3:14b und gpt-oss:120b getestet:

  • qwen3:14b => 60,12 Token/s
  • gpt-oss:120b => 12,87 Token/s

Bei längerem Kontextfenster wird die Geschwindigkeit langsamer sein, bei qwen3:30b-a3b vermutlich viel langsamer. Das ist wiederum auf meinem PC. Technische Details entnommen aus verbose Ausgabe und zugeordnetem Speicher sind unten, Befehle zum Ausprobieren:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps zeigt Speicherallokation auf 4K Kontext

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 Minuten von jetzt an
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 Minuten von jetzt an
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 Minuten von jetzt an
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 Minuten von jetzt an    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 Minuten von jetzt an
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b-Varianten

Es gibt drei Varianten des Qwen3:30b-Modells: qwen3:30b, qwen3:30b-instruct und qwen3:30b-thinking.

Wichtige Unterschiede & Empfehlungen

  • qwen3:30b-instruct ist am besten für Gespräche geeignet, bei denen Benutzeranweisungen, Klarheit und natürliche Dialoge priorisiert werden.
  • qwen3:30b ist die allgemeine Grundlage und geeignet, wenn sowohl Befehlsfolge als auch Werkzeugnutzung über verschiedene Aufgaben hinweg wichtig sind.
  • qwen3:30b-thinking excelt, wenn tiefes Reasoning, Mathematik und Programmierung im Vordergrund stehen. Es übertrifft die anderen bei Aufgaben, die logische/mathematische Strenge messen, ist aber nicht unbedingt besser für kreatives Schreiben oder lockere Gespräche.

Direkter Benchmark-Vergleich

Modell Reasoning (AIME25) Coding (LiveCodeBench) Allgemeinwissen (MMLU Redux) Geschwindigkeit & Kontext Ideal für folgende Anwendungsfälle
qwen3:30b 70,9 57,4 89,5 256K Tokens; Schnell Allgemeine Sprache/Agenten/mehrsprachig
qwen3:30b-instruct N/A (Geplant für 30b) N/A ~Gleich wie 30b 256K Tokens Befehlsfolge, Ausrichtung
qwen3:30b-thinking 85,0 66,0 91,4 256K Tokens Mathematik, Code, Reasoning, lange Dokumente

Für weitere Benchmarks, Hardware-Optionen und Leistungsfeinabstimmung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization Hub.