LLM - Page 2 - Rost Glukhov | Persönliche Website und technischer Blog

Modell-Routing: Verwenden Sie nicht ein Modell für alles

Das Ausführen eines Modells mit 70 Milliarden Parametern, um eine 200-Wörter-E-Mail zusammenzufassen, ist verschwenderisch. Das Ausführen eines 3-Milliarden-Parameter-Modells zur Überprüfung von Produktionscode ist fahrlässig. Die meisten Systeme liegen irgendwo dazwischen – und genau hier kommt das Modell-Routing ins Spiel.

Speicher verwandelt Assistenten von reaktiv in persistent, ist aber auch der Ort, an dem viele Systeme stillschweigend veralten. Umfragen argumentieren, dass die Trennung zwischen kurzfristigem und langfristigem Speicher für moderne Agenten-Speicher nicht mehr ausreicht; OpenAI- und LangGraph-SDKs weisen auf einen einfacheren Stack hin – Arbeitsgedächtnis, dauerhafter Zustand und Abruf.

Architektur von KI-Assistenten: LLM, Speicher, Werkzeuge, Routing, Observability

Ein produktionsreifes KI-Assistentensystem ist nicht einfach „ein LLM mit einem Prompt“. Es handelt sich um ein System, das Absichten entgegennimmt, den Zustand verwaltet, entscheidet, wann Daten abgerufen oder Aktionen ausgeführt werden sollen, und genügend Laufzeitdetails bereitstellt, um Fehler zu debuggen.

KI für das Wissensmanagement: Praktische Workflows, die wirklich halten

KI ersetzt nicht das Wissensmanagement; sie verändert dessen Gestalt für Einzelpersonen und Teams gleichermaßen.

OpenClaw vs. Hermes Agent: Sterne, Downloads und Nutzung 2026

Open-Source-KI-Agent-Frameworks erfreuen sich auf GitHub einer explosionsartigen Popularität. Zwei Projekte im Herzen des Ökosystems der selbst gehosteten KI-Systeme — OpenClaw und Hermes Agent — haben sich so stark abgesetzt, dass der Rest des Feldes um einen entfernten dritten Platz kämpft.

Qwen 3.6 27B und 35B MTP gegenüber Standard auf 16-GB-GPU

Ich habe die Leistung von spekulativem Decoding (Multi-Token Prediction, MTP) bei Qwen 3.6 27B und 35B auf einer RTX 4080 mit 16 GB VRAM getestet.

Alle llama.cpp-Router-Modelle entladen, ohne neu zu starten

llama.cpp Router-Modus ist eine der nützlichsten Änderungen an llama-server in den letzten Jahren. Er gibt lokalen LLM-Betreibern endlich etwas, das dem Modellmanagement-Erlebnis ähnelt, das man von Ollama erwartet, während er die rohe Leistung und die niedrige Kontrollstufe beibehält, die llama.cpp überhaupt erst interessant machen.

LLM Wiki – Zusammengefasstes Wissen, das RAG nicht ersetzen kann

Die Prämisse ist einfach: Kompiliertes Wissen ist wiederverwertbarer als abgerufene Fragmente. RAG wurde zur Standardantwort auf eine einfache Frage – wie gewähre ich einem LLM Zugriff auf externes Wissen?

Strukturierte Ausgabevalidierung von LLMs in Python, die standhält

Die meisten Tutorials zu „strukturierten Ausgaben“ von LLMs sind wenig ernst gemeint. Sie lehren Sie, höflich um JSON zu bitten und darauf zu hoffen, dass das Modell sich entsprechend verhält. Das ist keine Validierung. Das ist Optimismus mit geschweiften Klammern.

Referenz zu den agentenbasierten LLM-Inferenzparametern für Qwen und Gemma

Diese Seite dient als praktische Referenz für die Optimierung der agentischen LLM-Inferenz (Temperatur, top_p, top_k, Penalties und deren Interaktion in mehrstufigen und tool-lastigen Workflows).

Hermes Sprachsteuerung von Ihrem Telefon

Sie chatten bereits mit dem Hermes-Agenten auf Ihrem Smartphone über Text. Jetzt möchten Sie direkt mit ihm sprechen und gesprochene Antworten erhalten. Das ist in der Regel der richtige Schritt, insbesondere wenn Sie Hermes bereits als persistenten, selbst gehosteten Assistenten nutzen. Lange Prompts auf einem kleinen Bildschirm einzutippen ist langsam und fehleranfällig.

Kanban in Hermes Agent für selbst gehostete LLM-Workflows

Der Hermes Agent wird mit einem Kanban-Board und dem Hermes Gateway ausgeliefert. Wenn zu viele Aufgaben auf einmal zugewiesen werden, kann dies Ihr selbst gehostetes LLM überlasten.

Hermes Agent Skill Authoring — Struktur und Best Practices für SKILL.md

Hermes Agent behandelt Skills (Fertigkeiten) als die Standardmethode zur Vermittlung wiederholbarer Workflows. Die offizielle Dokumentation beschreibt sie als bedarfsgerechte Wissensdokumente, die mit der offenen agentskills.io-Struktur übereinstimmen. Sie werden durch progressive Offenlegung (Progressive Disclosure) geladen, sodass das Modell zunächst einen kleinen Index sieht und nur dann die vollständigen Anweisungen lädt, wenn eine Aufgabe dies tatsächlich erfordert.

Hermes Agent CLI-Referenz — Befehle, Flags und Schrägstrich-Shortcuts

Der Hermes-Agent von Nous Research ist ein modellagnostischer, toolbasierter Assistent, den Sie lokal oder auf einem VPS ausführen können.

NemoClaw: Praxisratgeber für sichere OpenClaw-Betriebstätigkeiten im Jahr 2026

Die meisten KI-Agent-Stacks behandeln Sicherheit nach wie vor als ein Problem, das erst nach der Demo behoben wird. NemoClaw geht von der entgegengesetzten Annahme aus und macht Isolation, Richtlinien und Routing von Anfang an zur Standardeinstellung.

KI-Systeme-Speicher – Persistente Wissensspeicherung und Agentenspeicher

Dieser Abschnitt sammelt Anleitungen zu persistentem Wissen und Gedächtnis für KI-Systeme — wie Assistenten Fakten, Präferenzen und kondensierten Kontext über Sitzungen hinweg beibehalten, ohne jeden Token in einen einzigen Prompt zu stopfen. Hier bedeutet Gedächtnis die bewusste Speicherung (Nutzerfakten, Zusammenfassungen, durch Plugins gestützte Speicher), nicht GPU-RAM oder Modellgewichte.