Vllm - Рост Глухов | Персональный сайт и технический блог

Мониторинг инференса LLM в продакшене (2026): Prometheus и Grafana для vLLM, TGI, llama.cpp

Learn how to monitor LLM inference servers (vLLM, Hugging Face TGI, llama.cpp) using Prometheus and Grafana. This article covers what to measure, how to expose and scrape /metrics, example PromQL queries for p95 latency and tokens/sec, ready-to-use Docker Compose and Kubernetes manifests, Grafana dashboard provisioning, alerting, and real-world troubleshooting.

Размещение LLM в 2026 году: сравнение локальных, саморазмещаемых и облачных инфраструктур

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Ollama против vLLM против LM Studio: Лучший способ запускать LLMs локально в 2026 году?

Запуск локальных языковых моделей (LLM) теперь практичен для разработчиков, стартапов и даже корпоративных команд. Но выбор правильного инструмента — Ollama, vLLM, LM Studio, LocalAI или других — зависит от ваших целей: