Llama-Server-routermodus: dynamisch wisselen van modellen zonder herstart
LLM's serveren en wisselen zonder herstart.
Lang had llama.cpp een opvallende beperking:
je kon slechts één model per proces bedienen, en om te wisselen moest je herstarten.