Mode routeur Llama-Server : basculement dynamique des modèles sans redémarrage
Servez et échangez des LLM sans redémarrage.
Pendant longtemps, llama.cpp avait une limitation flagrante :
vous ne pouviez servir qu’un seul modèle par processus, et changer de modèle nécessitait un redémarrage.