LLM - Page 5 - Rost Glukhov | Persönliche Website und technischer Blog

Überwachung der LLM-Inferenz im Produktivumfeld (2026): Prometheus und Grafana für vLLM, TGI und llama.cpp

LLM-Inferenz sieht aus wie „nur eine weitere API" – bis die Latenzspitzen auftreten, Warteschlangen sich stauen und Ihre GPUs eine Speichernutzung von 95 % haben, ohne dass eine offensichtliche Erklärung dafür vorhanden ist.

OpenClaw Quickstart: Installation mit Docker (Ollama GPU oder Claude + CPU)

OpenClaw ist ein selbst gehosteter KI-Assistent, der mit lokalen LLM-Runtimes wie Ollama oder mit cloudbasierten Modellen wie Claude Sonnet ausgeführt werden kann.

OpenClaw: Untersuchung eines selbst gehosteten KI-Assistenten als reales System

Die meisten lokalen KI-Setups beginnen auf die gleiche Weise: ein Modell, eine Laufzeitumgebung und eine Chat-Schnittstelle.

Workflow-Anwendungen mit Temporal in Go implementieren: Eine vollständige Anleitung

Temporal ist ein Open-Source-Workflow-Engine für den Enterprise-Einsatz, die es Entwicklern ermöglicht, langlebige, skalierbare und fehlerresistente Workflow-Anwendungen mit bekannten Programmiersprachen wie Go zu entwickeln.

Observability für LLM-Systeme: Metriken, Traces, Logs und Testing in der Produktion

LLM-Systeme versagen auf Arten, die herkömmliches API-Monitoring nicht aufdecken kann – Warteschlangen füllen sich stillschweigend, der GPU-Speicher sättigt lange bevor die CPU ausgelastet wirkt, und die Latenz steigt im Batching-Layer an, nicht im Anwendungslayer.

Observability in der Produktion: Leitfaden für Monitoring, Metriken, Prometheus und Grafana (2026)

Beobachtbarkeit ist das Fundament zuverlässiger Produktionsumgebungen.

Ohne Metriken, Dashboards und Alarmierung treiben Kubernetes-Cluster unbeobachtet umher, KI-Workloads fallen still aus und Latenzverschlechterungen werden übersehen, bis Benutzer sich beschweren.

Tutorial zur Retrieval-Augmented Generation (RAG): Architektur, Implementierung und Leitfaden für den Produktiveinsatz

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

LLM-Hosting 2026: Lokale, selbst gehostete und Cloud-Infrastrukturen im Vergleich

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

LLM-Leistung im Jahr 2026: Benchmarks, Engpässe und Optimierung

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Selbstgehostete LLMs und AI-Souveränität

Das Selbst-Hosting von LLMs hält Daten, Modelle und Inferenzen unter Ihrer Kontrolle – ein praktischer Weg zur AI Sovereignty für Teams, Unternehmen und Nationen.

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

Das lokale Ausführen großer Sprachmodelle bietet Datenschutz, Offline-Funktionalität und null API-Kosten. Dieser Benchmark zeigt genau auf, was man von 14 beliebten LLMs auf Ollama mit einer RTX 4080 erwarten kann.

Top 17 trendige Python-Projekte auf GitHub

Das Python-Ökosystem wird diesen Monat von Claude Skills und KI-Agenten-Tools dominiert. Diese Übersicht analysiert die Top-Trend-Repositorien von Python auf GitHub.

Das Rust-Ökosystem erlebt einen Boom mit innovativen Projekten, insbesondere bei KI-Programmierwerkzeugen und Terminalanwendungen. Diese Übersicht analysiert die Top-Trending-Rust-Repositories auf GitHub dieses Monats.

Top 19 Trendige Go-Projekte auf GitHub - Januar 2026

Das Go-Ökosystem floriert weiterhin mit innovativen Projekten, die sich auf KI-Tools, selbstgehostete Anwendungen und Entwicklerinfrastruktur erstrecken. Diese Übersicht analysiert die Top-Trending-Go-Repositories auf GitHub diesen Monat.

Open WebUI: Selbstgehostete LLM-Schnittstelle

Open WebUI ist eine leistungsstarke, erweiterbare und umfangreiche selbstgehostete Web-Schnittstelle zur Interaktion mit großen Sprachmodellen.

vLLM ist ein leistungsstarkes, speichereffizientes Inferenz- und Serving-Engine für Large Language Models (LLMs), entwickelt vom Sky Computing Lab der UC Berkeley.