Observability

Мониторинг инференса LLM в продакшене (2026): Prometheus и Grafana для vLLM, TGI, llama.cpp

Learn how to monitor LLM inference servers (vLLM, Hugging Face TGI, llama.cpp) using Prometheus and Grafana. This article covers what to measure, how to expose and scrape /metrics, example PromQL queries for p95 latency and tokens/sec, ready-to-use Docker Compose and Kubernetes manifests, Grafana dashboard provisioning, alerting, and real-world troubleshooting.

Быстрый старт с объектным хранилищем Garage - совместимым с S3

Гараж — это открытое, саморазмещаемое, совместимое с S3 объектное хранилище, предназначенное для небольших и средних развертываний с акцентом на устойчивость и геораспределение.

Наблюдаемость в производстве: руководство по мониторингу, метрикам, Prometheus и Grafana (2026)

Наблюдаемость — это основа надежных производственных систем.

Без метрик, дашбордов и оповещений кластеры Kubernetes дрейфуют, рабочие нагрузки ИИ и LLM молча отказывают, а регрессии задержек остаются незамеченными до тех пор, пока пользователи не пожаловаться.