Быстрый старт с llama.cpp: командная строка и сервер
Как установить, настроить и использовать OpenCode
Я продолжаю возвращаться к llama.cpp для локального инференса — он предоставляет контроль, который Ollama и другие решения абстрагируют, и просто работает. Легко запускать модели GGUF интерактивно с помощью llama-cli или экспонировать HTTP API, совместимое с OpenAI, с помощью llama-server.