GGUF - Rost Glukhov | Sito personale e blog tecnico

Quickstart di llama.cpp con CLI e Server

Torno sempre a llama.cpp per l’inferenza locale — ti dà il controllo che Ollama e altri astraggono, e funziona semplicemente. È facile eseguire interattivamente i modelli GGUF con llama-cli o esporre un’API HTTP OpenAI-compatibile con llama-server.