Surveillance de l'inférence des LLM en production (2026) : Prometheus & Grafana pour vLLM, TGI et llama.cpp
Surveiller les LLM avec Prometheus et Grafana
L’inférence LLM ressemble à « une API comme les autres » — jusqu’à ce que les pics de latence apparaissent, les files d’attente s’allongent et que vos GPU atteignent 95 % de mémoire sans explication évidente.