Monitorización de inferencia de LLM en producción (2026): Prometheus y Grafana para vLLM, TGI y llama.cpp
Monitoreo de LLM con Prometheus y Grafana
La inferencia de LLM parece ser “solo otra API” hasta que se producen picos de latencia, las colas se saturan y tus GPUs se mantienen al 95% de uso de memoria sin una explicación obvia.