Режим маршрутизации Llama-Server — динамическое переключение моделей без перезапуска
Запуск и замена моделей LLM без перезагрузки.
Долгое время у llama.cpp была явная ограничение:
можно было обслуживать только одну модель на процесс, и для переключения требовался перезапуск.