Docker Model Runner: Leitfaden zur Konfiguration der Kontextgröße
Konfigurieren Sie Kontextgrößen in Docker Model Runner mit Workarounds
Konfigurieren von Kontextgrößen im Docker Model Runner ist komplexer, als es sein sollte.
Konfigurieren Sie Kontextgrößen in Docker Model Runner mit Workarounds
Konfigurieren von Kontextgrößen im Docker Model Runner ist komplexer, als es sein sollte.
KI-Modell zur Erweiterung von Bildern mit Textanweisungen
Black Forest Labs hat FLUX.1-Kontext-dev veröffentlicht, ein fortschrittliches Bild-zu-Bild-KI-Modell, das bestehende Bilder mithilfe von Textanweisungen erweitert.
Aktivieren Sie die GPU-Beschleunigung für Docker Model Runner mit NVIDIA CUDA-Unterstützung
Docker Model Runner ist Docker’s offizielles Tool zum lokalen Ausführen von KI-Modellen, aber die Aktivierung der NVidia-GPU-Beschleunigung in Docker Model Runner erfordert eine spezifische Konfiguration.
Senken Sie die LLM-Kosten um 80 % mit intelligenter Token-Optimierung
Tokenoptimierung ist die kritische Fähigkeit, die kosteneffiziente LLM-Anwendungen von budgetbelastenden Experimenten unterscheidet.
GPT-OSS 120b Benchmarks auf drei KI-Plattformen
Ich habe einige interessante Leistungsuntersuchungen zu GPT-OSS 120b ausgegraben, das auf Ollama auf drei verschiedenen Plattformen läuft: NVIDIA DGX Spark, Mac Studio und RTX 4080. Das GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass es nicht in die 16 GB VRAM einer RTX 4080 (oder der neueren RTX 5080) passt.
Bauen Sie MCP-Server für KI-Assistenten mit Python-Beispielen
Das Model Context Protocol (MCP) revolutioniert die Art und Weise, wie KI-Assistenten mit externen Datenquellen und Tools interagieren. In diesem Leitfaden erkunden wir, wie man MCP-Server in Python aufbaut, mit Beispielen, die sich auf Websuche und Scraping-Funktionen konzentrieren.
Python zum Konvertieren von HTML in sauberes, LLM-optimiertes Markdown
Konvertierung von HTML zu Markdown ist eine grundlegende Aufgabe in modernen Entwicklungsworkflows, insbesondere bei der Vorbereitung von Webinhalten für Large Language Models (LLMs), Dokumentationssysteme oder statische Site-Generatoren wie Hugo.
Schnelle Referenz für Docker Model Runner-Befehle
Docker Model Runner (DMR) ist die offizielle Lösung von Docker zum lokalen Ausführen von KI-Modellen, eingeführt im April 2025. Dieses Cheatblatt bietet eine schnelle Referenz für alle wesentlichen Befehle, Konfigurationen und Best Practices.
Vergleichen Sie Docker Model Runner und Ollama für lokale LLMs
Lokales Ausführen großer Sprachmodelle (LLMs) ist aufgrund von Datenschutz, Kostenkontrolle und Offline-Fähigkeiten immer beliebter geworden. Die Landschaft veränderte sich im April 2025 erheblich, als Docker Docker Model Runner (DMR) einführte, seine offizielle Lösung für die Bereitstellung von KI-Modellen.
Spezialisierte Chips machen die KI-Inferenz schneller und günstiger
Die Zukunft von AI geht nicht nur um intelligentere Modelle, sondern um intelligentere Siliziumlösungen. Spezialisierte Hardware für LLM-Inferenz treibt eine Revolution ähnlich wie der Wechsel zu ASICs beim Bitcoin-Mining.
Verfügbarkeit, tatsächliche Einzelhandelspreise in sechs Ländern und Vergleich mit dem Mac Studio.
NVIDIA DGX Spark ist real, erhältlich ab dem 15. Oktober 2025 und richtet sich an CUDA-Entwickler, die lokale LLM-Arbeit mit einem integrierten NVIDIA AI-Stack benötigen. US-MSRP 3.999 $; UK/DE/JP Einzelhandel ist aufgrund von Mehrwertsteuer und Vertrieb höher. AUD/KRW öffentliche Preise sind noch nicht weit verbreitet.
Geschwindigkeit, Parameter und Leistung dieser beiden Modelle im Vergleich
Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b mit Fokus auf Befolgung von Anweisungen und Leistungsparametern, Spezifikationen und Geschwindigkeit:
+ Spezifische Beispiele unter Verwendung von Thinking LLMs
In diesem Beitrag werden wir zwei Möglichkeiten erkunden, Ihre Python-Anwendung mit Ollama zu verbinden: 1. Über die HTTP REST API; 2. Über die offizielle Ollama Python-Bibliothek.
Nicht sehr nett.
Ollamas GPT-OSS-Modelle haben wiederkehrende Probleme bei der Handhabung strukturierter Ausgaben, insbesondere bei der Verwendung mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen.
Leicht unterschiedliche APIs erfordern einen speziellen Ansatz.
Hier ist ein Seitenvergleich der Unterstützung für strukturierte Ausgaben (zuverlässige JSON-Rückgabe) bei beliebten LLM-Anbietern, plus minimale Python-Beispiele
Einige Möglichkeiten, um strukturierte Ausgaben von Ollama zu erhalten
Große Sprachmodelle (LLMs) sind leistungsfähig, aber in der Produktion wollen wir selten frei formulierte Absätze. Stattdessen wollen wir vorhersehbare Daten: Attribute, Fakten oder strukturierte Objekte, die Sie in eine Anwendung einspeisen können. Das ist LLM-Strukturierte Ausgabe.