Prometheus

Schnellstart mit llama.cpp über CLI und Server

Schnellstart mit llama.cpp über CLI und Server

So installieren, konfigurieren und nutzen Sie OpenCode

Ich komme immer wieder auf llama.cpp für die lokale Inferenz zurück – es bietet Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Es ist einfach, GGUF-Modelle interaktiv mit llama-cli auszuführen oder eine OpenAI-kompatible HTTP-API mit llama-server bereitzustellen.

Observabilität für LLM-Systeme: Metriken, Spuren, Logs und Testing in der Produktion

Observabilität für LLM-Systeme: Metriken, Spuren, Logs und Testing in der Produktion

End-to-end-Beobachtungsstrategie für LLM-Inferece und LLM-Anwendungen

LLM-Systeme scheitern auf Weisen, die herkömmliche API-Überwachung nicht aufdecken kann – Warteschlangen füllen sich schweigend, die GPU-Speicherbelegung erreicht den Sättigungspunkt lange bevor der CPU beschäftigt aussieht und Latenz explodiert in der Batch-Schicht anstatt in der Anwendungsschicht. Dieser Leitfaden behandelt eine End-to-End- Überwachungsstrategie für LLM-Abduktion und LLM-Anwendungen: Was gemessen werden sollte, wie man es mit Prometheus, OpenTelemetry und Grafana instrumentiert und wie man die Telemetrie-Pipeline im großen Maßstab bereitstellt.