Vergleich: Qwen3:30b vs GPT-OSS:20b
Vergleich der Geschwindigkeit, Parameter und Leistung dieser beiden Modelle
Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b
mit Fokus auf Befehlsfolge und Leistungsparameter, Spezifikationen und Geschwindigkeit.
Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Architektur und Parameter
| Feature | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Gesamte Parameter | 30,5 Milliarden | 21 Milliarden |
| Aktivierte Parameter | ~3,3 Milliarden | ~3,6 Milliarden |
| Anzahl der Schichten | 48 | 24 |
| MoE-Experten pro Schicht | 128 (8 aktiv pro Token) | 32 (4 aktiv pro Token) |
| Aufmerksamkeitsmechanismus | Gruppierte Query-Aufmerksamkeit (32Q /4KV) | Gruppierte Multi-Query-Aufmerksamkeit (64Q /8KV) |
| Kontextfenster | 32.768 nativ; Bis zu 262.144 erweitert | 128.000 Tokens |
| Tokenizer | BPE-basiert, 151.936 Vokabular | GPT-basiert, ≈ 200.000 Vokabular |
Befehlsfolge
- Qwen3:30b-instruct ist für die Befehlsfolge optimiert mit starker Ausrichtung auf menschliche Präferenzen. Es excelt in kreativem Schreiben, Rollenspielen, mehrschichtigen Dialogen und mehrsprachiger Befehlsfolge. Diese Variante ist speziell feinabgestimmt, um natürlichere, kontrolliertere und ansprechendere Antworten zu liefern, die mit den Benutzeranweisungen übereinstimmen.
- GPT-OSS:20b unterstützt die Befehlsfolge, wird aber allgemein etwas hinter Qwen3:30b-instruct in der feineren Befehlsanpassung bewertet. Es bietet vergleichbare Funktionenaufrufe, strukturierte Ausgaben und Reasoning-Modi, könnte aber in der konversationellen Ausrichtung und kreativen Dialogführung zurückbleiben.
Leistung und Effizienz
- Qwen3:30b-instruct excelt in mathematischem Reasoning, Programmierung, komplexen logischen Aufgaben und mehrsprachigen Szenarien, die 119 Sprachen und Dialekte abdecken. Sein „Thinking“-Modus ermöglicht erweitertes Reasoning, bringt aber höhere Speicherkosten mit sich.
- GPT-OSS:20b erreicht eine Leistung, die vergleichbar mit der von OpenAI’s o3-mini-Modell ist. Es verwendet weniger Schichten, aber breitere Experten pro Schicht und native MXFP4-Quantisierung für effiziente Inferenz auf Verbraucherhardware mit geringeren Speicheranforderungen (~16 GB vs. höher für Qwen3).
- GPT-OSS ist ungefähr 33 % speicher-effizienter und schneller auf bestimmten Hardware-Konfigurationen, insbesondere auf VerbrauchergPUs, aber Qwen3 liefert oft bessere Ausrichtung und Reasoning-Tiefe, insbesondere bei komplexen Anwendungsfallen.
- Qwen3 bietet eine längere erweiterte Kontextlänge (bis zu 262.144 Tokens) im Vergleich zu GPT-OSS mit 128.000 Tokens, was bei Aufgaben mit sehr langer Kontextverarbeitung von Vorteil ist.
Empfehlung zur Verwendung
- Wählen Sie Qwen3:30b-instruct für Anwendungsfälle, die eine überlegene Befehlsfolge, kreative Generierung, mehrsprachige Unterstützung und komplexe Reasoning erfordern.
- Wählen Sie GPT-OSS:20b, wenn Speicher-Effizienz, Inferenzgeschwindigkeit auf Verbraucherhardware und wettbewerbsfähige Baseline-Leistung mit weniger Parametern Priorität hat.
Diese Vergleich unterstreicht Qwen3:30b-instruct als tieferes, fähigeres Modell mit fortgeschrittener Befehlsanpassung, während GPT-OSS:20b eine kompaktere, effizientere Alternative mit wettbewerbsfähiger Leistung auf Standardbenchmarks anbietet.
Benchmarkscores, die Qwen3:30b-instruct und GPT-OSS:20b speziell für Befehlsfolge und Schlüsselleistungsparameter (MMLU, LMEval, HumanEval) vergleichen, sind nicht direkt in den Suchergebnissen verfügbar. Allerdings basierend auf bestehenden veröffentlichten mehrsprachigen und multitask-Benchmark-Berichten:
MMLU (Massive Multitask Language Understanding)
Schwer zu finden, nur:
- Qwen3-Reihe-Modelle, insbesondere in der 30B-Größe und darüber, zeigen starke MMLU-Scores, die typischerweise 89 % übertreffen, was sehr wettbewerbsfähige Kenntnisverarbeitung und Reasoning-Fähigkeiten über 57 verschiedene Bereiche zeigt.
- GPT-OSS:20b leistet sich auch gut auf MMLU-Benchmarks, erzielt aber normalerweise niedrigere Scores als größere Qwen-Modelle aufgrund der geringeren Parameterzahl und der geringeren Fokus auf Befehlsfeinabstimmung.
LMEval (Language Model Evaluation Toolkit)
Nicht viel Details zurzeit:
- Qwen3-Modelle zeigen erhebliche Verbesserungen bei Reasoning- und code-bezogenen Aufgaben innerhalb von LMEval, mit verbesserten Scores in Logik, Mathematik-Reasoning und allgemeinen Fähigkeiten.
- GPT-OSS:20b bietet robuste Baseline-Leistung auf LMEval, verläuft aber allgemein hinter Qwen3:30b-instruct bei fortgeschrittenem Reasoning und Befehlsfolge-Unteraufgaben.
HumanEval (Code Generation Benchmark)
Nicht viel Daten, nur:
- Qwen3:30b-instruct zeigt starke Leistung auf mehrsprachigen Code-Generierungsbenchmarks wie HumanEval-XL, unterstützt über 20 Programmiersprachen und liefert überlegene mehrsprachige Code-Generierungspräzision.
- GPT-OSS:20b, obwohl wettbewerbsfähig, leistet sich etwas niedrigere Scores in HumanEval-Benchmarks als Qwen3:30b-instruct, insbesondere in mehrsprachigen und multi-sprachigen Programmierkontexten aufgrund weniger umfassender mehrsprachiger Schulung.
Zusammenfassungstabelle (approximative Trends aus der Literatur):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Hinweise |
|---|---|---|---|
| MMLU Genauigkeit | ~89-91% | ~80-85% | Qwen3 stärker in breiter Kenntnis und Reasoning |
| LMEval Scores | Hoch, fortgeschrittenes Reasoning & Code | Mittel, Baseline Reasoning | Qwen3 excelt in Mathematik und Logik |
| HumanEval | Hoch mehrsprachige Codegenerierung | Mittel | Qwen3 besser in mehrsprachiger Codegenerierung |
Wenn genaue Benchmark-Zahlen benötigt werden, bieten spezialisierte mehrsprachige großskalige Benchmarks wie P-MMEval und HumanEval-XL, die in aktuellen Forschungsarbeiten erwähnt werden, detaillierte Scores für Modelle wie Qwen3 und vergleichbare GPT-OSS-Varianten, sind aber derzeit nicht öffentlich vereinfacht für direkte Seiten-zu-Seiten-Score-Retrieval.
Geschwindigkeitsvergleich zwischen Qwen3:30b und GPT-OSS:20b
Auf meiner Hardware (16 GB VRAM) erhalte ich Qwen3:30b und GPT-OSS:20b mit einem 4000 Kontextfenster, und sie erzeugen:
- qwen3:30b-a3b => 45,68 Token/s
- gpt-oss:20b => 129,52 Token/s
Und für den Vergleich habe ich auch qwen3:14b und gpt-oss:120b getestet:
- qwen3:14b => 60,12 Token/s
- gpt-oss:120b => 12,87 Token/s
Bei längerem Kontextfenster wird die Geschwindigkeit langsamer sein, bei qwen3:30b-a3b vermutlich viel langsamer. Das ist wiederum auf meinem PC. Technische Details entnommen aus verbose Ausgabe und zugeordnetem Speicher sind unten, Befehle zum Ausprobieren:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps zeigt Speicherallokation auf 4K Kontext
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 Minuten von jetzt an
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 Minuten von jetzt an
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 Minuten von jetzt an
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 Minuten von jetzt an
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 Minuten von jetzt an
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Qwen3:30b-Varianten
Es gibt drei Varianten des Qwen3:30b-Modells: qwen3:30b, qwen3:30b-instruct und qwen3:30b-thinking.
Wichtige Unterschiede & Empfehlungen
- qwen3:30b-instruct ist am besten für Gespräche geeignet, bei denen Benutzeranweisungen, Klarheit und natürliche Dialoge priorisiert werden.
- qwen3:30b ist die allgemeine Grundlage und geeignet, wenn sowohl Befehlsfolge als auch Werkzeugnutzung über verschiedene Aufgaben hinweg wichtig sind.
- qwen3:30b-thinking excelt, wenn tiefes Reasoning, Mathematik und Programmierung im Vordergrund stehen. Es übertrifft die anderen bei Aufgaben, die logische/mathematische Strenge messen, ist aber nicht unbedingt besser für kreatives Schreiben oder lockere Gespräche.
Direkter Benchmark-Vergleich
| Modell | Reasoning (AIME25) | Coding (LiveCodeBench) | Allgemeinwissen (MMLU Redux) | Geschwindigkeit & Kontext | Ideal für folgende Anwendungsfälle |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K Tokens; Schnell | Allgemeine Sprache/Agenten/mehrsprachig |
| qwen3:30b-instruct | N/A (Geplant für 30b) | N/A | ~Gleich wie 30b | 256K Tokens | Befehlsfolge, Ausrichtung |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K Tokens | Mathematik, Code, Reasoning, lange Dokumente |
Für weitere Benchmarks, Hardware-Optionen und Leistungsfeinabstimmung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization Hub.
Nützliche Links
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Installieren und konfigurieren Sie Ollama
- Ollama Cheatsheet – die nützlichsten Befehle
- Strukturieren von LLMs mit strukturiertem Output: Ollama, Qwen3 & Python oder Go
- Integrating Ollama with Python: REST API and Python Client Examples