Modalità Router di Llama-Server: commutazione dinamica del modello senza riavvii
Servire e scambiare LLM senza riavvii.
Per molto tempo, llama.cpp ha avuto una limitazione evidente:
potevi servire un solo modello per processo e il cambio richiedeva un riavvio.