Unterstützt GPT-OSS auf Ollama strukturierte Ausgaben?

Stand Ende 2025 unterstützt GPT-OSS auf Ollama die strukturierte Ausgabe nicht zuverlässig. Die Antworten enthalten häufig zusätzlichen Text, unvollständiges JSON oder Harmony-Reasoning-Trace-Daten, die das Schema-Parsing unterbrechen.

Warum erzeugt GPT-OSS mit Ollama kein gültiges JSON?

Lücken bei der Formatierung, das Harmony-Format, das schließenden Argumentationsinhalten hinzufügt, sowie unvollständige Schema-Unterstützung in Ollama und Tools wie LangChain oder vLLM führen zu nicht konformen oder ungerichteten Ausgaben.

Welche Workarounds gibt es für die strukturierte Ausgabe von GPT-OSS auf Ollama?

Sie können den JSON-Schema im Prompt platzieren und manuell parsen, einen Nachbearbeitungsschritt oder ein kleineres Modell verwenden, um die Ausgabe zu normalisieren, oder ein Modell mit besserer Schema-Konformität wie Qwen3 nutzen, bis die Unterstützung sich verbessert.

Welche Ollama-Modelle eignen sich gut für strukturierte Ausgaben?

Modelle wie Qwen3 funktionieren bekanntermaßen gut mit strukturierten Ausgaben und Schema-Einschränkungen auf Ollama. GPT-OSS wird nicht empfohlen, solange die Kompatibilität nicht verbessert ist.

Wo kann ich mehr über die Leistung und Laufzeiten von LLMs erfahren?

Unser LLM-Performance-Hub umfasst Durchsatz, Latenz, VRAM, parallele Anfragen und Benchmarks über Laufzeiten und Hardware.

Ollama GPT-OSS Strukturierte Ausgabeprobleme

Nicht sehr nett.

Inhaltsverzeichnis

Ollama’s GPT-OSS-Modelle haben wiederkehrende Probleme bei der Verarbeitung strukturierter Ausgaben, insbesondere wenn sie mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen verwendet werden.

Viele Nutzer berichten über fehlerhafte Generierung von JSON oder anderen strukturierten Formaten, Halluzinationen von Format-Elementen durch das Modell sowie inkonsistente oder leere Antwortinhalte. Diese Probleme resultieren aus aktuellen Kompatibilitätslücken, Änderungen im Antwortformat (wie Harmony) und unvollständiger Umsetzung von Ausgabeschemas sowohl durch Ollama als auch durch Drittanbieter-APIs. Für einen breiteren Kontext zu Laufzeiten, Durchsatz und Benchmarks siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

llama with the issues

Über GPT-OSS

Dies ist ein neues, sehr interessantes LLM von OpenAI. Schauen Sie sich diese Parameter an:

Modell	gpt-oss-120b	gpt-oss-20b
Schichten	36	24
Gesamte Parameter	117B	21B
Aktive Parameter pro Token	5,1B	3,6B
Gesamte Experten	128	32
Aktive Experten pro Token	4	4
Kontextlänge	128k	128k

Die Release Notes besagen (hier und hier):

Permissive Apache 2.0 Lizenz: Bauen Sie frei ohne Copyleft-Einschränkungen oder Patentrisiken – ideal für Experimente, Anpassungen und kommerzielle Bereitstellung.
Konfigurierbarer Denkmodus: Passen Sie leicht den Denkmodus (niedrig, mittel, hoch) an Ihre spezifischen Anwendungsfälle und Latenzanforderungen an.
Vollständige Kette des Denkprozesses: Erhalten Sie vollständigen Zugang zum Denkprozess des Modells, was das Debuggen erleichtert und das Vertrauen in die Ausgaben erhöht. Es ist nicht für Endbenutzer gedacht.
Feinabstimmbar: Passen Sie die Modelle vollständig an Ihre spezifischen Anwendungsfälle durch Parameter-Feinabstimmung an.
Agente-Fähigkeiten: Nutzen Sie die nativen Fähigkeiten der Modelle für Funktionenaufrufe, Web-Surfen, Python-Code-Ausführung und Strukturierte Ausgaben.
MXFP4-Quantisierung: Die Modelle wurden mit MXFP4-Quantisierung der MoE-Gewichte posttrainiert, wodurch gpt-oss-120b auf einem einzigen 80GB-GPU (wie NVIDIA H100 oder AMD MI300X) und das gpt-oss-20b-Modell innerhalb von 16GB Speicher laufen können. Alle Evaluierungen wurden mit der gleichen MXFP4-Quantisierung durchgeführt.

Was nicht zu lieben ist? Das Verhalten der strukturierten Ausgabe… das ist es. Im Allgemeinen ist diese Problematik sehr enttäuschend, insbesondere da Strukturierte Ausgabe funktioniert so gut mit Ollama und Qwen3.

Häufige Probleme

Modelle wie gpt-oss:20b scheitern häufig bei der Erzeugung strikter JSON- oder schema-konformer Ausgaben, wobei die Antworten oft zusätzliche Kommentare oder unvollständige Objekte enthalten.
Die Integration mit LangChain und OpenAI SDK führt häufig zu Parsing-/Validierungsfehlern aufgrund von nicht-strukturierten Ausgaben, was Pipelines in Produktionsumgebungen unbrauchbar macht.
Das Harmony-Format in gpt-oss führt zu Denkspuren, auch wenn diese nicht angefordert werden, was das Schema-Parsing im Vergleich zu anderen Modellen wie Qwen3 kompliziert.
Mit vllm fehlen oder sind die Mechanismen zur Enkraftsetzung strukturierter Ausgaben entweder nicht vorhanden oder veraltet, wodurch die Ausgabe häufig „ungelenkt“ ist und manuell geparst werden muss.
Es gibt Berichte, dass das Modell die korrekte strukturierte Ausgabe erzeugt, dann aber mit unzusammenhängenden Inhalten fortfährt, was Standardparser bricht.

Umgehungen und Lösungen

Einige Nutzer empfehlen, das JSON-Schema explizit im Prompt anzugeben und die Modellausgaben manuell zu parsen, manchmal mit vor- und nachgestellten Markern.
Ein weiterer Ansatz besteht darin, eine Postverarbeitungsschicht oder ein kleineres LLM zur Neuanordnung der GPT-OSS-Ausgabe in das gewünschte Schema zu verwenden, obwohl dies Ressourcen intensiv nutzt.
Einige Fehlerbehebungen und Pull Requests (PRs) haben die Harmony-Format-Kompatibilität schrittweise verbessert, insbesondere mit neueren Ollama-Release, doch vollständige Übereinstimmung mit früheren Modellen ist noch nicht erreicht.
Bei der Verwendung von vllm können die Patchen bestimmter Funktionen helfen, doch generell wird keine robuste Schema-Enkraftsetzung unterstützt.

Empfehlungen

Vermeiden Sie, sich ausschließlich auf GPT-OSS für strikte strukturierte Ausgaben zu verlassen, bis die vollständige Kompatibilität in Ollama und downstream-Frameworks wiederhergestellt ist.
Wo strukturierte Ausgaben kritisch sind, verwenden Sie zusätzliche Parsing-Methoden oder ein Modell, das besser für die Schema-Kompatibilität bekannt ist.
Verfolgen Sie relevante GitHub-Issues (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) für Fixes und Integration-Updates.

Zusammenfassend haben GPT-OSS mit Ollama derzeit Schwierigkeiten mit strukturierten Ausgaben, größtenteils aufgrund von unvollständiger Format-Enkraftsetzung, Änderungen im Harmony-Format und fehlender Unterstützung über Toolchains. Manuelle Umgehungen können helfen, doch konsistenter Erfolg ist nicht garantiert. Für mehr zu LLM-Laufzeiten, Speicherzuordnung und Leistungsabstimmung siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Ollama GPT-OSS Strukturierte Ausgabeprobleme

Über GPT-OSS

Häufige Probleme

Umgehungen und Lösungen

Empfehlungen

Nützliche Links

Andere Ollama-Artikel