RAG - Rost Glukhov | Persönliche Website und technischer Blog

PARA-Methode für Ingenieurinnen und Ingenieure: Wissen nach Aktionen organisieren

Die Organisation von Notizen nach Themen klingt logisch, bis man Notizen zu PostgreSQL in fünf verschiedenen Ordnern hat und diejenige, die für das aktuelle Problem relevant ist, nicht findet.

Speicher verwandelt Assistenten von reaktiv in persistent, ist aber auch der Ort, an dem viele Systeme stillschweigend veralten. Umfragen argumentieren, dass die Trennung zwischen kurzfristigem und langfristigem Speicher für moderne Agenten-Speicher nicht mehr ausreicht; OpenAI- und LangGraph-SDKs weisen auf einen einfacheren Stack hin – Arbeitsgedächtnis, dauerhafter Zustand und Abruf.

Architektur von KI-Assistenten: LLM, Speicher, Werkzeuge, Routing, Observability

Ein produktionsreifes KI-Assistentensystem ist nicht einfach „ein LLM mit einem Prompt“. Es handelt sich um ein System, das Absichten entgegennimmt, den Zustand verwaltet, entscheidet, wann Daten abgerufen oder Aktionen ausgeführt werden sollen, und genügend Laufzeitdetails bereitstellt, um Fehler zu debuggen.

KI für das Wissensmanagement: Praktische Workflows, die wirklich halten

KI ersetzt nicht das Wissensmanagement; sie verändert dessen Gestalt für Einzelpersonen und Teams gleichermaßen.

Retrieval vs. Repräsentation in Wissenssystemen

Die meisten modernen Wissenssysteme optimieren die Abrufprozesse (Retrieval), und das ist verständlich. Die Suche ist sichtbar, leicht zu demonstrieren und wirkt fast magisch, wenn sie funktioniert. Frage eingeben, Antwort erhalten.

LLM Wiki – Zusammengefasstes Wissen, das RAG nicht ersetzen kann

Die Prämisse ist einfach: Kompiliertes Wissen ist wiederverwertbarer als abgerufene Fragmente. RAG wurde zur Standardantwort auf eine einfache Frage – wie gewähre ich einem LLM Zugriff auf externes Wissen?

PKM vs. RAG vs. Wiki vs. Memory-Systeme klar erklärt

PKM, RAG, Wikis, KI-Speichersysteme und nun auch praktische, KI-gestützte Workflows werden oft so diskutiert, als lösten sie dasselbe Problem. Tun sie nicht. Sie alle befassen sich mit Wissen, arbeiten aber auf unterschiedlichen Ebenen:

Second Brain erklärt – für Ingenieure und Wissensarbeiter

Informationsüberflutung hat weniger mit der schieren Menge zu tun als vielmehr mit ungelösten Eingaben. Moderne Wissensarbeit hinterlässt eine Spur aus Tabs, Chat-Verläufen, Dokumenten, Hervorhebungen, Code-Fragmenten, Transkripten, Screenshots und halbfertigen Notizen.

Strukturierte Ausgabevalidierung von LLMs in Python, die standhält

Die meisten Tutorials zu „strukturierten Ausgaben“ von LLMs sind wenig ernst gemeint. Sie lehren Sie, höflich um JSON zu bitten und darauf zu hoffen, dass das Modell sich entsprechend verhält. Das ist keine Validierung. Das ist Optimismus mit geschweiften Klammern.

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).

Neo4j-Grafendatenbank für GraphRAG, Installation, Cypher, Vektoren, Operations

Neo4j ist das Mittel der Wahl, wenn die Beziehungen die eigentlichen Daten sind. Wenn Ihr Domänenmodell wie eine Whiteboard-Zeichnung mit Kreisen und Pfeilen aussieht, ist die Zwangsumsetzung in Tabellen schmerzhaft.

KI-Systeme: Selbst gehostete Assistenten, RAG und lokale Infrastruktur

Die meisten lokalen KI-Setups beginnen mit einem Modell und einer Laufzeitumgebung.

OpenClaw Quickstart: Installation mit Docker (Ollama GPU oder Claude + CPU)

OpenClaw ist ein selbst gehosteter KI-Assistent, der mit lokalen LLM-Runtimes wie Ollama oder mit cloudbasierten Modellen wie Claude Sonnet ausgeführt werden kann.

OpenClaw: Untersuchung eines selbst gehosteten KI-Assistenten als reales System

Die meisten lokalen KI-Setups beginnen auf die gleiche Weise: ein Modell, eine Laufzeitumgebung und eine Chat-Schnittstelle.

Chunking-Strategien im RAG-Vergleich: Alternativen, Kompromisse und Beispiele

Chunking ist der wichtigste unterschätzte Hyperparameter in Retrieval ‑ Augmented Generation (RAG): Er bestimmt still und leise, was Ihr LLM “sieht”, wie teuer die Verarbeitung wird, und wie viel vom LLM-Kontextfenster pro Antwort verbraucht wird.

Tutorial zur Retrieval-Augmented Generation (RAG): Architektur, Implementierung und Leitfaden für den Produktiveinsatz

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.