AI - Rost Glukhov | Persönliche Website und technischer Blog

Hermes-Agent-Speichersystem: Wie persistentes KI-Speichern tatsächlich funktioniert

Sie kennen das Prinzip. Sie öffnen einen Chat mit einem KI-Agenten, erklären Ihr Projekt, teilen Ihre Präferenzen, lassen etwas erledigen und schließen den Tab. Kommen Sie die folgende Woche zurück, ist es so, als würden Sie mit einem Fremden sprechen – der gesamte Kontext ist verloren, jede Präferenz vergessen, das Projekt muss von Grund auf neu erklärt werden.

OpenClaw: Aufstieg und Fall — Zeitlinie und die wahren Ursachen des Zusammenbruchs

OpenClaw war kein Produkt, das gescheitert ist. Es ist seinem Treibstoff verlustig gegangen.

Llama-Server-Router-Modus – Dynamischer Modellwechsel ohne Neustart

Seit langem hatte llama.cpp eine eklatante Einschränkung:
Man konnte nur ein Modell pro Prozess bereitstellen, und ein Wechsel erforderte einen Neustart.

Claude Skills und SKILL.md für Entwickler: VS Code, JetBrains, Cursor

Die meisten Teams missbrauchen Claude Skills auf eine von zwei Arten. Sie verwandeln entweder SKILL.md in eine Ablage für alles Mögliche oder sie scheitern nie, sich von riesigen kopierten Prompts zu verabschieden.

Hermes KI-Assistent: Fähigkeiten für echte Produktionsumgebungen

Der Hermes KI-Assistent, offiziell dokumentiert als Hermes Agent, positioniert sich nicht als einfacher Chat-Wrapper.

OpenClaw Skills-Ökosystem und praktische Produktionsauswahl

OpenClaw verfügt über zwei Erweiterungsstorys, die leicht miteinander verwechselt werden.

Plugins erweitern die Laufzeit. Skills erweitern das Verhalten des Agenten.

OpenClaw-Plugins – Ökosystem-Leitfaden und praktische Empfehlungen

Dieser Artikel handelt von OpenClaw-Plugins — nativen Gateway-Paketen, die Kanäle, Modellanbieter, Tools, Sprachfunktionen, Speicher, Medien, Websuche und andere Laufzeitschnittstellen hinzufügen.

OpenClaw-Produktionskonfigurationen mit Plugins und Skills

OpenClaw wirkt in Demos einfach. In der Produktion wird es zu einem System.

Claude, OpenClaw und das Ende der Flat-Rate-Preise für Agenten

Die ruhige Lücke, die eine Welle an Experimenten mit Agenten antrieb, ist nun geschlossen.

Vane (Perplexica 2.0) Schnellstart mit Ollama und llama.cpp

Vane ist einer der pragmatischeren Einträge im Bereich „KI-Suche mit Quellenangaben": eine selbst gehostete Antwortmaschine, die live abrufbare Websuche mit lokalen oder Cloud-LLMs kombiniert, während der gesamte Stack unter Ihrer Kontrolle bleibt.

Installation und Konfiguration von Claude Code für Ollama und llama.cpp, Preise

Claude Code ist nicht einfach nur Autovervollständigung mit besserem Marketing. Es ist ein agentenbasiertes Coding-Tool: Es liest Ihre Codebasis, editiert Dateien, führt Befehle aus und integriert sich in Ihre Entwicklungstools.

Hermes AI-Assistent – Installation, Einrichtung, Workflow und Fehlerbehebung

Hermes Agent ist ein selbst gehosteter, modellagnostischer KI-Assistent, der auf einem lokalen Rechner oder einem kostengünstigen VPS läuft, über Terminal- und Messaging-Schnittstellen arbeitet und sich im Laufe der Zeit verbessert, indem er wiederholte Aufgaben in wiederverwendbare Fähigkeiten umwandelt.

TGI – Text Generation Inference – Installation, Konfiguration, Fehlerbehebung

Text Generation Inference (TGI) hat eine sehr spezifische Energie. Es ist nicht das neueste Kind auf der Inferenz-Straße, aber es ist dasjenige, das bereits gelernt hat, wie Produktion funktioniert –

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für den Selbst-Hosting-Einsatz aus.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming

Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.