Openai

Modalità Router di Llama-Server - Commutazione Dinamica dei Modelli senza Riavvii

Per molto tempo, llama.cpp presentava una limitazione evidente:
era possibile servire un solo modello per processo e il passaggio da uno all’altro richiedeva un riavvio.

Guida rapida a SGLang: installazione, configurazione e distribuzione di LLM tramite l'API OpenAI

SGLang è un framework di serving ad alte prestazioni per grandi modelli linguistici e modelli multimodali, progettato per fornire inferenza a bassa latenza e alto throughput in tutto, da una singola GPU a cluster distribuiti.

Guida introduttiva al Model Switcher di llama.swap per LLM locali compatibili con OpenAI

Presto ti troverai a gestire vLLM, llama.cpp e altro ancora, con ogni stack sul proprio porto. Tutto il downstream desidera comunque un URL base /v1; altrimenti continuerai a spostare porti, profili e script ad hoc. llama-swap è il proxy /v1 che precede questi stack.

Introduzione a llama.cpp con CLI e Server

Torno sempre su llama.cpp per l’inferenza locale: ti offre un controllo che Ollama e altri astraggono, e semplicemente funziona. È facile eseguire modelli GGUF in modo interattivo con llama-cli o esporre un’API HTTP compatibile con OpenAI con llama-server.