Wie vergleicht sich Qwen3 30b mit GPT-OSS 20b?

Qwen3 30b bietet in der Regel stärkere Befehlsfolge, Schlussfolgerung und mehrsprachige Leistung. GPT-OSS 20b ist auf Consumer-GPUs (z. B. etwa 33 % geringere VRAM-Nutzung und höhere Token pro Sekunde in vielen Konfigurationen) schneller und speichereffizienter.

Welches Modell ist schneller, Qwen3 30b oder GPT-OSS 20b?

GPT-OSS 20b ist in der Regel schneller. Auf 16 GB VRAM mit einem 4K-Kontext kann GPT-OSS 20b etwa 130 Token pro Sekunde erreichen, während Qwen3 30b a3b etwa 46 Token pro Sekunde erreicht, wobei die genauen Zahlen von der Hardware und der Kontextgröße abhängen.

Wann sollte ich Qwen3 30b gegenüber GPT-OSS 20b wählen?

Wählen Sie Qwen3 30b, wenn Sie bessere Befehlsfolge, kreative oder mehrsprachige Ausgaben, komplexe Schlussfolgerungen oder einen längeren Kontext (z. B. bis zu 262.000 Token) benötigen. Wählen Sie GPT-OSS 20b, wenn Geschwindigkeit und geringerer VRAM-Verbrauch auf Verbraucherhardware wichtiger sind.

Welche VRAM-Mengen benötigen Qwen3 30b und GPT-OSS 20b?

Qwen3 30b a3b kann auf 16 GB VRAM mit CPU-Offload laufen (z. B. Modellgröße ca. 20 GB). GPT-OSS 20b passt sich besser auf eine 16 GB GPU an (z. B. ca. 14 GB zugewiesen) und kann vollständig auf der GPU laufen.

Wo kann ich mehr über die Leistung und Benchmarks von LLMs finden?

Unser LLM-Performance-Hub behandelt Durchsatz versus Latenz, VRAM-Grenzen, parallelle Anfragen und Benchmarks über Laufzeiten und Hardware.

Vergleich: Qwen3:30b vs GPT-OSS:20b

Vergleich der Geschwindigkeit, Parameter und Leistung dieser beiden Modelle

Inhaltsverzeichnis

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b
mit Fokus auf Befehlsfolge und Leistungsparameter, Spezifikationen und Geschwindigkeit.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

7 llamas

Architektur und Parameter

Feature	Qwen3:30b-instruct	GPT-OSS:20b
Gesamte Parameter	30,5 Milliarden	21 Milliarden
Aktivierte Parameter	~3,3 Milliarden	~3,6 Milliarden
Anzahl der Schichten	48	24
MoE-Experten pro Schicht	128 (8 aktiv pro Token)	32 (4 aktiv pro Token)
Aufmerksamkeitsmechanismus	Gruppierte Query-Aufmerksamkeit (32Q /4KV)	Gruppierte Multi-Query-Aufmerksamkeit (64Q /8KV)
Kontextfenster	32.768 nativ; Bis zu 262.144 erweitert	128.000 Tokens
Tokenizer	BPE-basiert, 151.936 Vokabular	GPT-basiert, ≈ 200.000 Vokabular

Befehlsfolge

Qwen3:30b-instruct ist für die Befehlsfolge optimiert mit starker Ausrichtung auf menschliche Präferenzen. Es excelt in kreativem Schreiben, Rollenspielen, mehrschichtigen Dialogen und mehrsprachiger Befehlsfolge. Diese Variante ist speziell feinabgestimmt, um natürlichere, kontrolliertere und ansprechendere Antworten zu liefern, die mit den Benutzeranweisungen übereinstimmen.
GPT-OSS:20b unterstützt die Befehlsfolge, wird aber allgemein etwas hinter Qwen3:30b-instruct in der feineren Befehlsanpassung bewertet. Es bietet vergleichbare Funktionenaufrufe, strukturierte Ausgaben und Reasoning-Modi, könnte aber in der konversationellen Ausrichtung und kreativen Dialogführung zurückbleiben.

Leistung und Effizienz

Qwen3:30b-instruct excelt in mathematischem Reasoning, Programmierung, komplexen logischen Aufgaben und mehrsprachigen Szenarien, die 119 Sprachen und Dialekte abdecken. Sein „Thinking“-Modus ermöglicht erweitertes Reasoning, bringt aber höhere Speicherkosten mit sich.
GPT-OSS:20b erreicht eine Leistung, die vergleichbar mit der von OpenAI’s o3-mini-Modell ist. Es verwendet weniger Schichten, aber breitere Experten pro Schicht und native MXFP4-Quantisierung für effiziente Inferenz auf Verbraucherhardware mit geringeren Speicheranforderungen (~16 GB vs. höher für Qwen3).
GPT-OSS ist ungefähr 33 % speicher-effizienter und schneller auf bestimmten Hardware-Konfigurationen, insbesondere auf VerbrauchergPUs, aber Qwen3 liefert oft bessere Ausrichtung und Reasoning-Tiefe, insbesondere bei komplexen Anwendungsfallen.
Qwen3 bietet eine längere erweiterte Kontextlänge (bis zu 262.144 Tokens) im Vergleich zu GPT-OSS mit 128.000 Tokens, was bei Aufgaben mit sehr langer Kontextverarbeitung von Vorteil ist.

Empfehlung zur Verwendung

Wählen Sie Qwen3:30b-instruct für Anwendungsfälle, die eine überlegene Befehlsfolge, kreative Generierung, mehrsprachige Unterstützung und komplexe Reasoning erfordern.
Wählen Sie GPT-OSS:20b, wenn Speicher-Effizienz, Inferenzgeschwindigkeit auf Verbraucherhardware und wettbewerbsfähige Baseline-Leistung mit weniger Parametern Priorität hat.

Diese Vergleich unterstreicht Qwen3:30b-instruct als tieferes, fähigeres Modell mit fortgeschrittener Befehlsanpassung, während GPT-OSS:20b eine kompaktere, effizientere Alternative mit wettbewerbsfähiger Leistung auf Standardbenchmarks anbietet.

Benchmarkscores, die Qwen3:30b-instruct und GPT-OSS:20b speziell für Befehlsfolge und Schlüsselleistungsparameter (MMLU, LMEval, HumanEval) vergleichen, sind nicht direkt in den Suchergebnissen verfügbar. Allerdings basierend auf bestehenden veröffentlichten mehrsprachigen und multitask-Benchmark-Berichten:

MMLU (Massive Multitask Language Understanding)

Schwer zu finden, nur:

Qwen3-Reihe-Modelle, insbesondere in der 30B-Größe und darüber, zeigen starke MMLU-Scores, die typischerweise 89 % übertreffen, was sehr wettbewerbsfähige Kenntnisverarbeitung und Reasoning-Fähigkeiten über 57 verschiedene Bereiche zeigt.
GPT-OSS:20b leistet sich auch gut auf MMLU-Benchmarks, erzielt aber normalerweise niedrigere Scores als größere Qwen-Modelle aufgrund der geringeren Parameterzahl und der geringeren Fokus auf Befehlsfeinabstimmung.

LMEval (Language Model Evaluation Toolkit)

Nicht viel Details zurzeit:

Qwen3-Modelle zeigen erhebliche Verbesserungen bei Reasoning- und code-bezogenen Aufgaben innerhalb von LMEval, mit verbesserten Scores in Logik, Mathematik-Reasoning und allgemeinen Fähigkeiten.
GPT-OSS:20b bietet robuste Baseline-Leistung auf LMEval, verläuft aber allgemein hinter Qwen3:30b-instruct bei fortgeschrittenem Reasoning und Befehlsfolge-Unteraufgaben.

HumanEval (Code Generation Benchmark)

Nicht viel Daten, nur:

Qwen3:30b-instruct zeigt starke Leistung auf mehrsprachigen Code-Generierungsbenchmarks wie HumanEval-XL, unterstützt über 20 Programmiersprachen und liefert überlegene mehrsprachige Code-Generierungspräzision.
GPT-OSS:20b, obwohl wettbewerbsfähig, leistet sich etwas niedrigere Scores in HumanEval-Benchmarks als Qwen3:30b-instruct, insbesondere in mehrsprachigen und multi-sprachigen Programmierkontexten aufgrund weniger umfassender mehrsprachiger Schulung.

Zusammenfassungstabelle (approximative Trends aus der Literatur):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Hinweise
MMLU Genauigkeit	~89-91%	~80-85%	Qwen3 stärker in breiter Kenntnis und Reasoning
LMEval Scores	Hoch, fortgeschrittenes Reasoning & Code	Mittel, Baseline Reasoning	Qwen3 excelt in Mathematik und Logik
HumanEval	Hoch mehrsprachige Codegenerierung	Mittel	Qwen3 besser in mehrsprachiger Codegenerierung

Wenn genaue Benchmark-Zahlen benötigt werden, bieten spezialisierte mehrsprachige großskalige Benchmarks wie P-MMEval und HumanEval-XL, die in aktuellen Forschungsarbeiten erwähnt werden, detaillierte Scores für Modelle wie Qwen3 und vergleichbare GPT-OSS-Varianten, sind aber derzeit nicht öffentlich vereinfacht für direkte Seiten-zu-Seiten-Score-Retrieval.

Geschwindigkeitsvergleich zwischen Qwen3:30b und GPT-OSS:20b

Auf meiner Hardware (16 GB VRAM) erhalte ich Qwen3:30b und GPT-OSS:20b mit einem 4000 Kontextfenster, und sie erzeugen:

qwen3:30b-a3b => 45,68 Token/s
gpt-oss:20b => 129,52 Token/s

Und für den Vergleich habe ich auch qwen3:14b und gpt-oss:120b getestet:

qwen3:14b => 60,12 Token/s
gpt-oss:120b => 12,87 Token/s

Bei längerem Kontextfenster wird die Geschwindigkeit langsamer sein, bei qwen3:30b-a3b vermutlich viel langsamer. Das ist wiederum auf meinem PC. Technische Details entnommen aus verbose Ausgabe und zugeordnetem Speicher sind unten, Befehle zum Ausprobieren:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps zeigt Speicherallokation auf 4K Kontext

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 Minuten von jetzt an
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 Minuten von jetzt an
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 Minuten von jetzt an
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 Minuten von jetzt an    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 Minuten von jetzt an
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b-Varianten

Es gibt drei Varianten des Qwen3:30b-Modells: qwen3:30b, qwen3:30b-instruct und qwen3:30b-thinking.

Wichtige Unterschiede & Empfehlungen

qwen3:30b-instruct ist am besten für Gespräche geeignet, bei denen Benutzeranweisungen, Klarheit und natürliche Dialoge priorisiert werden.
qwen3:30b ist die allgemeine Grundlage und geeignet, wenn sowohl Befehlsfolge als auch Werkzeugnutzung über verschiedene Aufgaben hinweg wichtig sind.
qwen3:30b-thinking excelt, wenn tiefes Reasoning, Mathematik und Programmierung im Vordergrund stehen. Es übertrifft die anderen bei Aufgaben, die logische/mathematische Strenge messen, ist aber nicht unbedingt besser für kreatives Schreiben oder lockere Gespräche.

Direkter Benchmark-Vergleich

Modell	Reasoning (AIME25)	Coding (LiveCodeBench)	Allgemeinwissen (MMLU Redux)	Geschwindigkeit & Kontext	Ideal für folgende Anwendungsfälle
qwen3:30b	70,9	57,4	89,5	256K Tokens; Schnell	Allgemeine Sprache/Agenten/mehrsprachig
qwen3:30b-instruct	N/A (Geplant für 30b)	N/A	~Gleich wie 30b	256K Tokens	Befehlsfolge, Ausrichtung
qwen3:30b-thinking	85,0	66,0	91,4	256K Tokens	Mathematik, Code, Reasoning, lange Dokumente

Für weitere Benchmarks, Hardware-Optionen und Leistungsfeinabstimmung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization Hub.