Modalità Router di Llama-Server - Commutazione Dinamica dei Modelli senza Riavvii
Servire e sostituire LLM senza riavvii.
Per molto tempo, llama.cpp presentava una limitazione evidente:
era possibile servire un solo modello per processo e il passaggio da uno all’altro richiedeva un riavvio.