Introduction à llama.cpp avec CLI et Serveur
Comment installer, configurer et utiliser OpenCode
Je reviens sans cesse à llama.cpp pour l’inférence locale : il vous offre un contrôle que Ollama et d’autres solutions abstraissent, et il fonctionne simplement. Il est facile d’exécuter des modèles GGUF de manière interactive avec llama-cli ou d’exposer une API HTTP compatible OpenAI avec llama-server.