AI - Page 2 - Rost Glukhov | Persönliche Website und technischer Blog

SGLang-Schnellstart: LLMs installieren, konfigurieren und über die OpenAI-API bereitstellen

SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

KI-Systeme: Selbst gehostete Assistenten, RAG und lokale Infrastruktur

Die meisten lokalen KI-Setups beginnen mit einem Modell und einer Laufzeitumgebung.

Oh My Opencode-Review: Ehrliche Ergebnisse, Abrechnungsrisiken und wann es sich lohnt.

Oh My Opencode verspricht ein „virtuelles KI-Entwicklerteam" — Sisyphus dirigiert Spezialisten, Aufgaben werden parallel ausgeführt und das magische Schlüsselwort ultrawork aktiviert alles.

Specialisierte Agents von Oh My Opencode: Tiefenanalyse und Modellübersicht

Der größte Sprung in den Fähigkeiten von OpenCode stammt von spezialisierten Agenten: einer bewussten Trennung von Orchestrierung, Planung, Ausführung und Recherche.

Oh My Opencode QuickStart für OpenCode: Installieren, konfigurieren, ausführen

Oh My Opencode verwandelt OpenCode in einen Multi-Agent-Coding-Rahmen: Ein Orchestrator delegiert Aufgaben an spezialisierte Agenten, die parallel arbeiten.

Die besten LLMs für OpenCode – Von Gemma 4 bis Qwen 3.6, lokal getestet

Ich habe getestet, wie sich OpenCode mit mehreren lokal auf Ollama und llama.cpp gehosteten LLMs verhält, und habe zum Vergleich einige kostenlose Modelle von OpenCode Zen hinzugefügt.

OpenHands Coding Assistant – Schnellstart: Installation, CLI-Parameter, Beispiele

OpenHands ist eine Open-Source-Plattform, die modellagnostisch für KI-gesteuerte Softwareentwicklungs-Agenten ist. Sie ermöglicht es einem Agenten, sich mehr wie ein Coding-Partner als wie ein einfaches Autovervollständigungstool zu verhalten.

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.

Schnellstart mit llama.cpp: CLI und Server

Ich komme immer wieder zu llama.cpp für die lokale Inferenz zurück – es gibt Ihnen Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Das interaktive Ausführen von GGUF-Modellen mit llama-cli oder das Bereitstellen einer OpenAI-kompatiblen HTTP-API mit llama-server ist einfach.

KI-Entwickler-Tools: Der umfassende Leitfaden für KI-gestützte Entwicklung

Künstliche Intelligenz verändert die Art und Weise, wie Software geschrieben, überprüft, bereitgestellt und gewartet wird. Von KI-Coding-Assistenten bis hin zu GitOps-Automatisierung und DevOps-Workflows setzen Entwickler heute KI-gestützte Tools über den gesamten Software-Lebenszyklus hinweg ein.

Airtable für Entwickler und DevOps – Pläne, API, Webhooks und Go/Python-Beispiele

Airtable ist am besten als eine Low-Code-Plattform für Anwendungen zu verstehen, die um eine kooperative „datenbankähnliche“ Tabellenansicht herum gebaut ist – ideal für die schnelle Erstellung von operativen Tools (interne Tracker, leichte CRM-Systeme, Inhaltspipelines, AI-Bewertungsqueues), bei denen Nicht-Entwickler eine freundliche Oberfläche benötigen, aber Entwickler auch eine API-Oberfläche für Automatisierung und Integration benötigen.

OpenCode Quickstart: Installieren, Konfigurieren und Nutzen des Terminal-basierten AI-Coding-Agenten

OpenCode ist ein Open-Source-AI-Coding-Agent, den Sie im Terminal (TUI + CLI) mit optionalen Desktop- und IDE-Oberflächen ausführen können. Dies ist der OpenCode Quickstart: Installation, Verifikation, Verbindung eines Modells/Anbieters und Ausführung realer Workflows (CLI + API).

Überwachung der LLM-Inferenz im Produktivumfeld (2026): Prometheus und Grafana für vLLM, TGI und llama.cpp

LLM-Inferenz sieht aus wie „nur eine weitere API" – bis die Latenzspitzen auftreten, Warteschlangen sich stauen und Ihre GPUs eine Speichernutzung von 95 % haben, ohne dass eine offensichtliche Erklärung dafür vorhanden ist.

OpenClaw Schnellstart: Installation mit Docker (Ollama GPU oder Claude + CPU)

OpenClaw ist ein selbst gehosteter KI-Assistent, der mit lokalen LLM-Runtimes wie Ollama oder mit cloud-basierten Modellen wie Claude Sonnet ausgeführt werden kann.

OpenClaw: Ein selbstgehosteter KI-Assistent als reales System

Die meisten lokalen KI-Setups beginnen auf die gleiche Weise: ein Modell, eine Laufzeitumgebung und eine Chat-Schnittstelle.