vLLM Quickstart: Hoogpresterende LLM-berekening - in 2026
Snel LLM-inferentie met de OpenAI API
vLLM is een inference- en serving-engine met hoge doorvoer en geheugenefficiëntie voor Large Language Models (LLM’s), ontwikkeld door het Sky Computing Lab van UC Berkeley.