LLM - Rost Glukhov | Persönliche Website und technischer Blog

Specs, Tests und Code in der KI-Entwicklung synchron halten

KI-Coding-Agenten liefern Features schnell, aber Spezifikationen, Tests und Code veralten stillschweigend und gehen auseinander. Dieser Leitfaden behandelt ein Nachverfolgungsmodell (Traceability), die Zuordnung von Spezifikation zu Test und von Spezifikation zu Code sowie die CI-Prüfungen, die Abweichungen vor einem Merge erkennen.

Wartung der LLM-Wiki: Drift, Widersprüche und Überprüfung

Ein LLM-Wiki scheitert, wenn alte Fakten plausibel bleiben, Widersprüche geglättet werden und generierte Zusammenfassungen von ihren Quellen abweichen.

GPUs für KI im Jahr 2026: NVIDIA, AMD und Intel im Vergleich

Die Landschaft der KI-Hardware hat sich 2026 erheblich verändert. NVIDIA, AMD und Intel konkurrieren alle um Entwickler, die GPUs benötigen, die in der Lage sind, lokale Large Language Models (LLMs) und KI-Inferenz-Arbeitslasten auszuführen.

Sicherheit von A2A- und MCP-Agenten: Identität, Delegation und Audit-Trails

Prompt-Injection erhält den größten Teil der Aufmerksamkeit im Bereich der Sicherheit von LLM-Systemen, und das zu Recht, aber sie ist nicht das einzige Problem, sobald Agenten beginnen, Tools aufzurufen und Arbeit an andere Agenten zu delegieren.

Die meisten AI-Agent-Demos verhalten sich immer noch wie Chat-Vervollständigungen mit zusätzlichen Schritten: Sie senden einen Prompt, warten einige Sekunden und erhalten die Antwort in einer einzigen Reaktion.

Spekulative Dekodierung: 20–50 % schnellere LLM-Inferenz

Ein 70B-Modell erzeugt pro Vorwärtsdurchlauf (Forward Pass) genau ein Token, und bei jedem Durchlauf werden Gewichte aus dem VRAM nachgeladen, die Aufmerksamkeit (Attention) über den Kontext berechnet und der Speicher synchronisiert. Zwischen den Tokens ist die GPU untätig, während sie auf die Auflösung sequentieller Abhängigkeiten wartet.

Was ist Spec-Driven Development? Die Spec als Single Source of Truth

Spec-getriebene Entwicklung ist eine dieser Ideen, nach der Softwareentwickler zuvor gegriffen und die sie dann wieder fallen ließen, als der Aufwand nicht mehr lohnend war.

Spec-getriebene Entwicklung vs. Vibe Coding: Wasserfall?

Spec-getriebene Entwicklung (Spec-Driven Development, SDD) trat 2026 als die ernsthafte Antwort der Entwickler auf die Abweichung beim Vibe Coding auf.

Das Google A2A-Protokoll 2026: Adoption, Hype und Realität

Googles Agent2Agent-Protokoll, meist als A2A abgekürzt, hatte ein seltsames erstes Jahr.

Polling-Agenten in KI-Assistenten: 11 Implementierungsmuster

Polling-Agenten gehören zu den wenig glamourösen Aspekten der Architektur von KI-Assistenten, sind jedoch gleichzeitig eine der nützlichsten Komponenten.

A2A vs. MCP: Benötigen KI-Agenten wirklich beide Protokolle?

Die Architektur von KI-Agenten beginnt sich in zwei Schichten aufzuteilen.

Was ist das A2A-Protokoll? Agent Cards und Tasks erklärt

Das A2A-Protokoll (Agent2Agent Protocol) ist ein offener Standard für die Kommunikation zwischen unabhängigen KI-Agenten-Systemen.

LLM-Architektur: Systemdesign für KI in der Produktion

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

Design von Multi-Model-Systemen: Wenn ein einzelnes Modell nicht ausreicht

Einzige-Modell-Systeme sind einfach. Multi-Modell-Systeme sind leistungsstark. Die Herausforderung besteht nicht darin, Modelle auszuwählen, sondern die Architektur zu entwerfen, die sie orchestriert.

Kostenoptimierung für LLM-Systeme: Wo das Geld tatsächlich fließt

Die Kosten für LLMs steigen linear mit der Nutzung. Ein System, das täglich 10.000 Anfragen mit $0,01 pro Anfrage verarbeitet, kostet täglich $100 — also $365 pro Jahr. Im Unternehmensmaßstab belaufen sich die Kosten auf über $10.000.

LLM-Guardrails in der Praxis: Was wirklich funktioniert

LLMs sind unvorhersehbar. Sie halluzinieren, lecken Daten, generieren schädliche Inhalte oder lehnen legitime Anfragen ab. Guardrails (Schutzmechanismen) begrenzen das Modellverhalten, ohne die Fähigkeiten einzuschränken.