Prometheus

Snabbstart för llama.cpp med CLI och server

Snabbstart för llama.cpp med CLI och server

Hur man installerar, konfigurerar och använder OpenCode

Jag återkommer gång på gång till llama.cpp för lokal inferens – det ger dig kontroll som Ollama och andra abstraherar bort, och det fungerar bara enkelt. Det är lätt att köra GGUF-modeller interaktivt med llama-cli eller exponera ett OpenAI-kompatibelt HTTP-API med llama-server.

Observabilitet för LLM-system: Mått, spår, loggar och testning i produktion

Observabilitet för LLM-system: Mått, spår, loggar och testning i produktion

Slutpunkt-till-slutpunkt-övervakningsstrategi för LLM-inferens och LLM-program

LLM-system kan misslyckas på sätt som traditionell API-övervakning inte kan upptäcka – köer fylls tyst, GPU-minne fylls långt innan CPU verkar sysselsatt, och latens exploderar i batchningslageret snarare än i applikationslageret. Den här guiden täcker en fullständig övervakningsstrategi för LLM-inferens och LLM-applikationer: vad du bör mäta, hur du instrumenterar det med Prometheus, OpenTelemetry och Grafana, och hur du distribuerar telemetri-pipelinen i stora skala.