Режим маршрутизации Llama-Server: динамическое переключение моделей без перезапуска
Запуск и замена LLM без перезагрузки
Долгое время у llama.cpp была очевидная limitation:
вы могли обслуживать только одну модель в процессе, а переключение требовало перезапуска.