Ollama GPT-OSS Strukturierte Ausgabeprobleme

Nicht sehr nett.

Inhaltsverzeichnis

Ollama’s GPT-OSS-Modelle haben wiederkehrende Probleme bei der Verarbeitung strukturierter Ausgaben, insbesondere wenn sie mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen verwendet werden.

Viele Nutzer berichten über fehlerhafte Generierung von JSON oder anderen strukturierten Formaten, Halluzinationen von Format-Elementen durch das Modell sowie inkonsistente oder leere Antwortinhalte. Diese Probleme resultieren aus aktuellen Kompatibilitätslücken, Änderungen im Antwortformat (wie Harmony) und unvollständiger Umsetzung von Ausgabeschemas sowohl durch Ollama als auch durch Drittanbieter-APIs. Für einen breiteren Kontext zu Laufzeiten, Durchsatz und Benchmarks siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

llama with the issues

Über GPT-OSS

Dies ist ein neues, sehr interessantes LLM von OpenAI. Schauen Sie sich diese Parameter an:

Modell gpt-oss-120b gpt-oss-20b
Schichten 36 24
Gesamte Parameter 117B 21B
Aktive Parameter pro Token 5,1B 3,6B
Gesamte Experten 128 32
Aktive Experten pro Token 4 4
Kontextlänge 128k 128k

Die Release Notes besagen (hier und hier):

  • Permissive Apache 2.0 Lizenz: Bauen Sie frei ohne Copyleft-Einschränkungen oder Patentrisiken – ideal für Experimente, Anpassungen und kommerzielle Bereitstellung.
  • Konfigurierbarer Denkmodus: Passen Sie leicht den Denkmodus (niedrig, mittel, hoch) an Ihre spezifischen Anwendungsfälle und Latenzanforderungen an.
  • Vollständige Kette des Denkprozesses: Erhalten Sie vollständigen Zugang zum Denkprozess des Modells, was das Debuggen erleichtert und das Vertrauen in die Ausgaben erhöht. Es ist nicht für Endbenutzer gedacht.
  • Feinabstimmbar: Passen Sie die Modelle vollständig an Ihre spezifischen Anwendungsfälle durch Parameter-Feinabstimmung an.
  • Agente-Fähigkeiten: Nutzen Sie die nativen Fähigkeiten der Modelle für Funktionenaufrufe, Web-Surfen, Python-Code-Ausführung und Strukturierte Ausgaben.
  • MXFP4-Quantisierung: Die Modelle wurden mit MXFP4-Quantisierung der MoE-Gewichte posttrainiert, wodurch gpt-oss-120b auf einem einzigen 80GB-GPU (wie NVIDIA H100 oder AMD MI300X) und das gpt-oss-20b-Modell innerhalb von 16GB Speicher laufen können. Alle Evaluierungen wurden mit der gleichen MXFP4-Quantisierung durchgeführt.

Was nicht zu lieben ist? Das Verhalten der strukturierten Ausgabe… das ist es. Im Allgemeinen ist diese Problematik sehr enttäuschend, insbesondere da Strukturierte Ausgabe funktioniert so gut mit Ollama und Qwen3.

Häufige Probleme

  • Modelle wie gpt-oss:20b scheitern häufig bei der Erzeugung strikter JSON- oder schema-konformer Ausgaben, wobei die Antworten oft zusätzliche Kommentare oder unvollständige Objekte enthalten.
  • Die Integration mit LangChain und OpenAI SDK führt häufig zu Parsing-/Validierungsfehlern aufgrund von nicht-strukturierten Ausgaben, was Pipelines in Produktionsumgebungen unbrauchbar macht.
  • Das Harmony-Format in gpt-oss führt zu Denkspuren, auch wenn diese nicht angefordert werden, was das Schema-Parsing im Vergleich zu anderen Modellen wie Qwen3 kompliziert.
  • Mit vllm fehlen oder sind die Mechanismen zur Enkraftsetzung strukturierter Ausgaben entweder nicht vorhanden oder veraltet, wodurch die Ausgabe häufig „ungelenkt“ ist und manuell geparst werden muss.
  • Es gibt Berichte, dass das Modell die korrekte strukturierte Ausgabe erzeugt, dann aber mit unzusammenhängenden Inhalten fortfährt, was Standardparser bricht.

Umgehungen und Lösungen

  • Einige Nutzer empfehlen, das JSON-Schema explizit im Prompt anzugeben und die Modellausgaben manuell zu parsen, manchmal mit vor- und nachgestellten Markern.
  • Ein weiterer Ansatz besteht darin, eine Postverarbeitungsschicht oder ein kleineres LLM zur Neuanordnung der GPT-OSS-Ausgabe in das gewünschte Schema zu verwenden, obwohl dies Ressourcen intensiv nutzt.
  • Einige Fehlerbehebungen und Pull Requests (PRs) haben die Harmony-Format-Kompatibilität schrittweise verbessert, insbesondere mit neueren Ollama-Release, doch vollständige Übereinstimmung mit früheren Modellen ist noch nicht erreicht.
  • Bei der Verwendung von vllm können die Patchen bestimmter Funktionen helfen, doch generell wird keine robuste Schema-Enkraftsetzung unterstützt.

Empfehlungen

  • Vermeiden Sie, sich ausschließlich auf GPT-OSS für strikte strukturierte Ausgaben zu verlassen, bis die vollständige Kompatibilität in Ollama und downstream-Frameworks wiederhergestellt ist.
  • Wo strukturierte Ausgaben kritisch sind, verwenden Sie zusätzliche Parsing-Methoden oder ein Modell, das besser für die Schema-Kompatibilität bekannt ist.
  • Verfolgen Sie relevante GitHub-Issues (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) für Fixes und Integration-Updates.

Zusammenfassend haben GPT-OSS mit Ollama derzeit Schwierigkeiten mit strukturierten Ausgaben, größtenteils aufgrund von unvollständiger Format-Enkraftsetzung, Änderungen im Harmony-Format und fehlender Unterstützung über Toolchains. Manuelle Umgehungen können helfen, doch konsistenter Erfolg ist nicht garantiert. Für mehr zu LLM-Laufzeiten, Speicherzuordnung und Leistungsabstimmung siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Andere Ollama-Artikel