Rost Glukhov | Persönliche Website und technischer Blog

Digitale Gärten: Wissen wachsen lassen statt es nur zu veröffentlichen

Das vorherrschende Modell zur Veröffentlichung von Wissen im Internet hat sich seit den frühen 2000er Jahren kaum verändert: Etwas schreiben, polieren, veröffentlichen und dann weiterziehen.

Modell-Routing: Verwenden Sie nicht ein Modell für alles

Das Ausführen eines Modells mit 70 Milliarden Parametern, um eine 200-Wörter-E-Mail zusammenzufassen, ist verschwenderisch. Das Ausführen eines 3-Milliarden-Parameter-Modells zur Überprüfung von Produktionscode ist fahrlässig. Die meisten Systeme liegen irgendwo dazwischen – und genau hier kommt das Modell-Routing ins Spiel.

LLM-Guardrails in der Praxis: Was wirklich funktioniert

LLMs sind unvorhersehbar. Sie halluzinieren, lecken Daten, generieren schädliche Inhalte oder lehnen legitime Anfragen ab. Guardrails (Schutzmechanismen) begrenzen das Modellverhalten, ohne die Fähigkeiten einzuschränken.

Kostenoptimierung für LLM-Systeme: Wo das Geld tatsächlich fließt

Die Kosten für LLMs steigen linear mit der Nutzung. Ein System, das täglich 10.000 Anfragen mit $0,01 pro Anfrage verarbeitet, kostet täglich $100 — also $365 pro Jahr. Im Unternehmensmaßstab belaufen sich die Kosten auf über $10.000.

Design von Multi-Model-Systemen: Wenn ein einzelnes Modell nicht ausreicht

Einzige-Modell-Systeme sind einfach. Multi-Modell-Systeme sind leistungsstark. Die Herausforderung besteht nicht darin, Modelle auszuwählen, sondern die Architektur zu entwerfen, die sie orchestriert.

Speicher verwandelt Assistenten von reaktiv in persistent, ist aber auch der Ort, an dem viele Systeme stillschweigend veralten. Umfragen argumentieren, dass die Trennung zwischen kurzfristigem und langfristigem Speicher für moderne Agenten-Speicher nicht mehr ausreicht; OpenAI- und LangGraph-SDKs weisen auf einen einfacheren Stack hin – Arbeitsgedächtnis, dauerhafter Zustand und Abruf.

Architektur von KI-Assistenten: LLM, Speicher, Werkzeuge, Routing, Observability

Ein produktionsreifes KI-Assistentensystem ist nicht einfach „ein LLM mit einem Prompt“. Es handelt sich um ein System, das Absichten entgegennimmt, den Zustand verwaltet, entscheidet, wann Daten abgerufen oder Aktionen ausgeführt werden sollen, und genügend Laufzeitdetails bereitstellt, um Fehler zu debuggen.

KI für das Wissensmanagement: Praktische Workflows, die wirklich halten

KI ersetzt nicht das Wissensmanagement; sie verändert dessen Gestalt für Einzelpersonen und Teams gleichermaßen.

Zettelkasten für Entwickler: Eine praxisorientierte Methode, die funktioniert

Entwickler leiden normalerweise nicht unter einem Mangel an Informationen. Wir leiden unter zu viel davon.

OpenClaw vs. Hermes Agent: Sterne, Downloads und Nutzung 2026

Open-Source-KI-Agent-Frameworks erfreuen sich auf GitHub einer explosionsartigen Popularität. Zwei Projekte im Herzen des Ökosystems der selbst gehosteten KI-Systeme — OpenClaw und Hermes Agent — haben sich so stark abgesetzt, dass der Rest des Feldes um einen entfernten dritten Platz kämpft.

Qwen 3.6 27B und 35B MTP gegenüber Standard auf 16-GB-GPU

Ich habe die Leistung von spekulativem Decoding (Multi-Token Prediction, MTP) bei Qwen 3.6 27B und 35B auf einer RTX 4080 mit 16 GB VRAM getestet.

Alle llama.cpp-Router-Modelle entladen, ohne neu zu starten

llama.cpp Router-Modus ist eine der nützlichsten Änderungen an llama-server in den letzten Jahren. Er gibt lokalen LLM-Betreibern endlich etwas, das dem Modellmanagement-Erlebnis ähnelt, das man von Ollama erwartet, während er die rohe Leistung und die niedrige Kontrollstufe beibehält, die llama.cpp überhaupt erst interessant machen.

Retrieval vs. Repräsentation in Wissenssystemen

Die meisten modernen Wissenssysteme optimieren die Abrufprozesse (Retrieval), und das ist verständlich. Die Suche ist sichtbar, leicht zu demonstrieren und wirkt fast magisch, wenn sie funktioniert. Frage eingeben, Antwort erhalten.

LLM Wiki – Zusammengefasstes Wissen, das RAG nicht ersetzen kann

Die Prämisse ist einfach: Kompiliertes Wissen ist wiederverwertbarer als abgerufene Fragmente. RAG wurde zur Standardantwort auf eine einfache Frage – wie gewähre ich einem LLM Zugriff auf externes Wissen?

PKM vs. RAG vs. Wiki vs. Memory-Systeme klar erklärt

PKM, RAG, Wikis, KI-Speichersysteme und nun auch praktische, KI-gestützte Workflows werden oft so diskutiert, als lösten sie dasselbe Problem. Tun sie nicht. Sie alle befassen sich mit Wissen, arbeiten aber auf unterschiedlichen Ebenen:

Second Brain erklärt – für Ingenieure und Wissensarbeiter

Informationsüberflutung hat weniger mit der schieren Menge zu tun als vielmehr mit ungelösten Eingaben. Moderne Wissensarbeit hinterlässt eine Spur aus Tabs, Chat-Verläufen, Dokumenten, Hervorhebungen, Code-Fragmenten, Transkripten, Screenshots und halbfertigen Notizen.

Abonnieren