DevOps

KI-Assistenten-Architektur: LLM, Speicher, Werkzeuge, Routing, Observability

Ein AI-Assistent für den produktiven Einsatz ist nicht einfach „ein LLM mit einem Prompt“. Er ist ein System, das Absichten akzeptiert, Zustand verwaltet, entscheidet, wann abgerufen oder gehandelt werden soll, und genügend Runtime-Details offenlegt, um Fehler zu analysieren.

Alle llama.cpp-Router-Modelle entladen, ohne neu zu starten

llama.cpp Router-Modus ist eine der nützlichsten Änderungen an llama-server in den letzten Jahren. Er gibt lokalen LLM-Betreibern endlich etwas, das dem Modellmanagement-Erlebnis ähnelt, das man von Ollama erwartet, während er die rohe Leistung und die niedrige Kontrollstufe beibehält, die llama.cpp überhaupt erst interessant machen.

Kanban in Hermes Agent für selbst gehostete LLM-Workflows

Der Hermes Agent wird mit einem Kanban-Board und dem Hermes Gateway ausgeliefert. Wenn zu viele Aufgaben auf einmal zugewiesen werden, kann dies Ihr selbst gehostetes LLM überlasten.

Llama-Server Router-Modus – Dynamisches Modellwechseln ohne Neustart

Lange Zeit hatte llama.cpp eine offensichtliche Einschränkung: Man konnte nur ein Modell pro Prozess bereitstellen, und ein Wechsel bedeutete einen Neustart.

OpenClaw-Plugins – Ökosystem-Leitfaden und praktische Empfehlungen

Dieser Artikel handelt von OpenClaw-Plugins — nativen Gateway-Paketen, die Kanäle, Modellanbieter, Tools, Sprachfunktionen, Speicher, Medien, Websuche und andere Laufzeitschnittstellen hinzufügen.

Hermes AI-Assistent – Installation, Einrichtung, Workflow und Fehlerbehebung

Hermes Agent ist ein selbst gehosteter, modellunabhängiger KI-Assistent, der auf einem lokalen Computer oder einem kostengünstigen VPS läuft, über Terminal- und Messaging-Schnittstellen arbeitet und sich durch die Umwandlung wiederkehrender Aufgaben in wiederverwendbare Fähigkeiten im Laufe der Zeit verbessert.

Remote-Zugriff auf Ollama über Tailscale oder WireGuard, ohne öffentliche Ports

Ollama ist am glücklichsten, wenn es wie ein lokaler Daemon behandelt wird: Die CLI und Ihre Apps kommunizieren mit einer Loopback-HTTP-API, und der Rest des Netzwerks erfährt nie von ihrer Existenz.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming

Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.

Apache Flink auf K8s und Kafka: PyFlink, Go, Betrieb und verwaltetes Preismodell

Apache Flink ist ein Framework für zustandsbehaftete Berechnungen über unendliche und endliche Datenströme.

Neo4j-Grafendatenbank für GraphRAG, Installation, Cypher, Vektoren, Operations

Neo4j ist das Mittel der Wahl, wenn die Beziehungen die eigentlichen Daten sind. Wenn Ihr Domänenmodell wie eine Whiteboard-Zeichnung mit Kreisen und Pfeilen aussieht, ist die Zwangsumsetzung in Tabellen schmerzhaft.

IndexNow erklärt – Suchmaschinen bei Veröffentlichung benachrichtigen

Statische Websites und Blogs ändern sich beim Deploy. Suchmaschinen, die IndexNow unterstützen, können über diese Änderungen informiert werden, ohne auf das nächste blinde Crawling warten zu müssen.

SGLang-Schnellstart: LLMs installieren, konfigurieren und über die OpenAI-API bereitstellen

SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.

Apache Kafka Schnellstart – Installation von Kafka 4.2 mit CLI und lokalen Beispielen

Apache Kafka 4.2.0 ist die aktuell unterstützte Release-Linie und stellt die beste Basis für einen modernen Quickstart dar, da Kafka 4.x standardmäßig vollständig ohne ZooKeeper auskommt und auf KRaft aufbaut.

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

Entwicklertools: Der umfassende Leitfaden für moderne Entwicklungs-Workflows

Die Softwareentwicklung umfasst Git für die Versionskontrolle, Docker für die Containerisierung, Bash für die Automatisierung, PostgreSQL für Datenbanken und VS Code als Editor – sowie unzählige andere Tools, die Ihre Produktivität entweder fördern oder behindern können. Diese Seite fasst die essentiellen Cheat-Sheets, Workflows und Vergleiche zusammen, die Sie benötigen, um effizient über den gesamten Entwicklungsstack hinweg zu arbeiten.