Design modernes Alerting-Systeme für Observability-Teams
Alerting ist ein Reaktionssystem, kein Lärmsystem.
Alerting wird viel zu oft als Monitoring-Funktion beschrieben. Diese Einordnung ist zwar bequem, verdeckt aber das eigentliche Problem.
Alerting ist ein Reaktionssystem, kein Lärmsystem.
Alerting wird viel zu oft als Monitoring-Funktion beschrieben. Diese Einordnung ist zwar bequem, verdeckt aber das eigentliche Problem.
Slack ist eine Workflow-Oberfläche und eine Schicht für die Alert-Lieferung.
Slack-Integrationen täuschen oft durch ihre Einfachheit, da Sie eine Nachricht mit einer einzigen HTTP-Anfrage senden können. Der interessante Teil beginnt, wenn Sie Slack interaktiv und zuverlässig machen möchten.
Verwandeln Sie Discord in einen sicheren, interaktiven Alert-Bus.
Discord wird zu einer ernsthaften Integrationsfläche, wenn man es so behandelt: ein Ort, an dem Systeme Ereignisse veröffentlichen, Menschen Entscheidungen treffen und die Automatisierung den Workflow fortsetzt.
Chat-Plattformen als Control Planes für Systeme
Chat-Plattformen haben sich weit über reine Messaging-Tools hinaus entwickelt. In modernen Systemen fungieren sie als Schnittstellen zwischen automatisierten Prozessen und menschlichen Entscheidungsfindungen.
Muster für Integrationen, Code-Struktur und Datenzugriff.
Die meisten Ratschläge zur App-Architektur sind entweder zu abstrakt, um anwendbar zu sein, oder zu eng, um skalierbar zu sein. Hier sind praktische Zielkonflikte für Produktionssysteme in den Bereichen Integration, Code-Struktur und Datenzugriff.
Claude-Abos versorgen Agenten nicht länger
Die ruhige Lücke, die eine Welle an Experimenten mit Agenten antrieb, ist nun geschlossen.
Selbst gehostete KI-Suche mit lokalen LLMs
Vane ist einer der pragmatischeren Einträge im Bereich „KI-Suche mit Quellenangaben": eine selbst gehostete Antwortmaschine, die live abrufbare Websuche mit lokalen oder Cloud-LLMs kombiniert, während der gesamte Stack unter Ihrer Kontrolle bleibt.
Agentic Coding, jetzt mit lokalen Modell-Backends.
Claude Code ist nicht einfach nur Autovervollständigung mit besserem Marketing. Es ist ein agentenbasiertes Coding-Tool: Es liest Ihre Codebasis, editiert Dateien, führt Befehle aus und integriert sich in Ihre Entwicklungstools.
Installation und Schnellstart des Hermes-Agenten für Entwickler
Hermes Agent ist ein selbst gehosteter, modellunabhängiger KI-Assistent, der auf einem lokalen Computer oder einem kostengünstigen VPS läuft, über Terminal- und Messaging-Schnittstellen arbeitet und sich durch die Umwandlung wiederkehrender Aufgaben in wiederverwendbare Fähigkeiten im Laufe der Zeit verbessert.
Installiere TGI, schieß schnell ab, debugge noch schneller.
Text Generation Inference (TGI) hat eine sehr spezifische Energie. Es ist nicht das neueste Kind auf der Inferenz-Straße, aber es ist dasjenige, das bereits gelernt hat, wie Produktion funktioniert –
Token-Geschwindigkeit von llama.cpp mit 16 GB VRAM (Tabellen).
Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für die Selbsthosting-Nutzung aus.
Die RTX 5090 ist in Australien knapp und überhöht im Preis.
Australien verfügt über RTX 5090-Lagerbestände. Kaum. Und wenn Sie eine finden, zahlen Sie einen Aufpreis, der sich von der Realität zu lösen scheint.
Remote-Zugriff auf Ollama ohne öffentliche Ports
Ollama ist am glücklichsten, wenn es wie ein lokaler Daemon behandelt wird: Die CLI und Ihre Apps kommunizieren mit einer Loopback-HTTP-API, und der Rest des Netzwerks erfährt nie von ihrer Existenz.
Abfragbare JSON-Logs, die mit Spuren verknüpft sind.
Logs sind eine Debug-Schnittstelle, die Sie noch nutzen können, wenn das System brennt. Das Problem ist, dass reine Text-Logs schlecht altern: Sobald Sie Filterung, Aggregation und Alarme benötigen, beginnen Sie, Sätze zu parsen.
Compose-first Ollama-Server mit GPU und Persistenz.
Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.
HTTPS mit Ollama, ohne die Streaming-Antworten zu beeinträchtigen.
Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.
Neue Beiträge zu Systemen, Infrastruktur und KI-Engineering.