Установка и настройка Claude Code для Ollama, llama.cpp, ценообразование

Агентное программирование теперь с локальными бэкендами моделей.

Содержимое страницы

Claude Code — это не автодополнение с лучшим маркетингом. Это агентский инструмент для разработки: он анализирует ваш код, редактирует файлы, выполняет команды и интегрируется с инструментами разработки.

Это различие важно, потому что единица работы перестает быть «строкой кода» и становится «задачей с конечным состоянием».

Anthropic четко определяет это различие: автодополнение кода предлагает следующую строку по мере ввода, тогда как Claude Code работает на уровне проекта, планирует изменения в нескольких файлах, выполняет правки, запускает тесты и итеративно исправляет ошибки. На практике это делает его ближе к младшему разработчику с доступом к терминалу, который быстро выполняет рутину, но все еще нуждается в проверке.

Это напряжение между скоростью и надзором составляет значительную часть того, что люди называют «vibe coding» (кодинг по настроению). Статья Что такое Vibe Coding? разбирает этот термин, его происхождение и то, как выглядят эффективность и риски на практике.

laptop-homeresver-claude-code-coffee-books

Есть одна деталь, которую легко пропустить при беглом чтении документации: Терминал CLI (и интерфейс VS Code) можно настроить на использование сторонних провайдеров. Именно здесь в игру вступают Ollama и llama.cpp.

Как только Claude Code указывают на локальный HTTP-эндпоинт, вопросы времени выполнения, оборудования и хостинга остаются за пределами клиента; это сравнение хостинга LLM в 2026 году сводит воедино Ollama, специализированные стеки инференса и облачные опции.

Чтобы увидеть, как Claude Code вписывается в другие рабочие процессы разработки с ИИ и доставки, это руководство по инструментам ИИ для разработчиков объединяет ассистенты в стиле Copilot, автоматизацию и паттерны редакторов в одном месте.

Для обзорного анализа ассистентов по коду в той же категории, Сравнение ИИ-ассистентов для написания кода проходит через Cursor, Copilot, Cline и остальные инструменты на более высоком уровне, чем это руководство по установке.

Установка и быстрый старт Claude Code

Варианты установки и их последствия

Существует несколько путей установки, и они не равны:

Нативные скрипты установки — это вариант «всегда актуально», так как они обновляются автоматически.
Homebrew и WinGet — это вариант «контролируемых изменений», так как обновление выполняется явно.

Команды установки (официальный быстрый старт):

# macOS, Linux, WSL
curl -fsSL https://claude.ai/install.sh | bash

# Windows PowerShell
irm https://claude.ai/install.ps1 | iex

:: Windows CMD
curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

Затем запустите интерактивную сессию изнутри папки проекта:

cd /path/to/your/project
claude

Вход и типы учетных записей

Для работы в режиме первого лица Claude Code необходима учетная запись. Процесс быстрого старта поддерживает вход через подписку на Claude (Pro, Max, Team, Enterprise), учетную запись Console (кредиты API) или поддерживаемых облачных провайдеров. Полезное техническое примечание: при первом входе в Console создается рабочая область «Claude Code» для централизованного отслеживания затрат.

Конфигурация Claude Code: settings.json и переменные окружения

Если Claude Code кажется волшебным, когда работает, то он может казаться «загадочным», когда нет. Решение заключается в понимании его слоев конфигурации и нескольких переменных окружения, которые действительно важны.

Файлы настроек и приоритеты

Настройки Claude Code иерархичны и включают три файла для разработчиков:

Пользовательская область, применяется везде: ~/.claude/settings.json
Область проекта, общая для репозитория: .claude/settings.json
Локальная область, переопределения для конкретной машины: .claude/settings.local.json (исключен из git)

Приоритет (от высшего к низшему): управляемая политика, флаги CLI, локальные настройки, настройки проекта, пользовательские настройки. Этот порядок объясняет несколько моментов «почему моя конфигурация игнорируется».

Вы можете управлять настройками интерактивно с помощью команды /config, которая открывает интерфейс настроек внутри REPL.

Переменные окружения, управляющие маршрутизацией провайдера

Поведение Claude Code можно управлять переменными окружения во время выполнения. Два странности поведения стоит рассматривать как ограничения дизайна:

Если установлена переменная ANTHROPIC_API_KEY, Claude Code будет использовать этот ключ вместо подписки на Claude, даже если вы вошли в систему. В режиме печати (-p) ключ всегда используется, если он присутствует.
Если ANTHROPIC_BASE_URL указывает на хост, не являющийся провайдером первого лица (прокси, шлюз или локальный сервер), некоторые функции намеренно настроены консервативно. Например, поиск инструментов MCP отключен по умолчанию, если вы явно не включите его.

Для конкретных границ подписки, которые сейчас применяются в стеках сторонних агентов, это обновление политики Claude для рабочих процессов OpenClaw объясняет, почему требуется использование API.

Минимальный паттерн «использовать шлюз» выглядит так:

export ANTHROPIC_BASE_URL=https://your-gateway.example
export ANTHROPIC_API_KEY=sk-your-key

Примечание по шлюзам: Claude Code ожидает определенные форматы API. Для формата Anthropic Messages шлюз должен предоставлять /v1/messages и /v1/messages/count_tokens и должен передавать заголовки anthropic-beta и anthropic-version. Если шлюз отклоняет эти заголовки, есть специальная настройка для удаления экспериментальных бета-функций.

Выбор модели в Claude Code, если вы не используете Anthropic напрямую

В Claude Code есть концепция псевдонимов (opus, sonnet, haiku), а также поддержка привязки конкретных идентификаторов моделей. Также существует белый список, который может ограничивать выбор моделей в селекторе, даже при маршрутизации через сторонних провайдеров.

Прагматичный паттерн — установить начальную модель и ограничить селектор, а затем привязать то, что «по умолчанию» resolves, через переменные окружения:

{
  "model": "claude-sonnet-4-5",
  "availableModels": ["claude-sonnet-4-5", "haiku"],
  "env": {
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-sonnet-4-5"
  }
}

Запуск самодостаточных LLM через Ollama

Ollama в настоящее время является самым простым способом заставить Claude Code работать с моделями, отличными от Anthropic, поскольку он предоставляет API, совместимый с Anthropic, для общения с Claude Code.

Быстрая настройка с помощью ollama launch

Если у вас установлен и запущен Ollama, быстрый путь:

ollama launch claude

Или укажите модель при запуске:

ollama launch claude --model glm-4.7-flash

Ручная настройка с явными переменными окружения

Документация по интеграции Ollama описывает простую ручную настройку, где Claude Code общается с Ollama через API-эндпоинт, совместимый с Anthropic:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

claude --model qwen3.5

Этот паттерн является догматичным, но полезным: он рассматривает «маршрутизацию провайдера» как вопрос окружения, а не как что-то, что вы кликаете в GUI.

Проверка реальности окна контекста

Агентская разработка требует много контекста. Ollama прямо указывает на это: Claude Code требует большого окна контекста и рекомендует не менее 64k токенов. Если ваша локальная модель ограничена 8k или 16k, Claude Code все еще будет работать, но обещание «работы на уровне проекта» станет хрупким.

Для практического поведения локальных моделей в похожей настройке терминального агента (Ollama и llama.cpp, задачи по кодированию и честные заметки о сбоях), Лучшие LLM для OpenCode - протестировано локально является полезной перепроверкой при выборе тегов GGUF или Ollama для Claude Code.

Запуск самодостаточных LLM через llama.cpp

llama.cpp привлекателен по противоположной причине: он не пытается стать платформой. Это быстрый, легкий сервер, который может предоставлять как маршруты, совместимые с OpenAI, так и маршрут, совместимый с API Anthropic Messages.

Для путей установки, поведения llama-cli и llama-server за пределами приведенных ниже фрагментов, Быстрый старт llama.cpp с CLI и сервером является справочником от начала до конца.

Что запускать на стороне сервера

HTTP-сервер llama.cpp (llama-server) поддерживает API Anthropic-compatible Messages по адресу POST /v1/messages, со стримингом через SSE. Он также предлагает count_tokens по адресу /v1/messages/count_tokens.

Две детали важны для Claude Code:

Сервер явно не заявляет о полной совместимости со спецификацией API Anthropic, но утверждает, что он работает достаточно хорошо для многих приложений.
Использование инструментов требует запуска llama-server с флагом –jinja. Если вы пропустите это, Claude Code будет вести себя так, будто он вдруг забыл, как быть агентом.

Минимальный локальный запуск выглядит так:

# Скомпилируйте или скачайте llama-server, затем запустите с моделью GGUF
./llama-server -m /models/your-model.gguf --jinja --host 127.0.0.1 --port 8080

Если вы хотите жесткую границу аутентификации, llama-server можно настроить с API-ключом:

./llama-server -m /models/your-model.gguf --jinja --api-key my-local-key --host 127.0.0.1 --port 8080

Направьте Claude Code на llama-server

При работающем сервере сторона Claude Code — это в основном переопределение базового URL:

export ANTHROPIC_BASE_URL=http://127.0.0.1:8080
export ANTHROPIC_API_KEY=my-local-key   # только если вы включили --api-key на llama-server

claude --model your-model-alias

Если вы не установите API-ключ или токен аутентификации, Claude Code может попытаться вернуться к входной подписке, что является источником многих жалоб «почему он открывает браузер».

Проверки здоровья и первичная диагностика сбоев

llama-server предоставляет простой эндпоинт здоровья, который возвращает «загрузка модели», пока модель не готова, и «ok», когда она готова к использованию. Когда Claude Code кажется зависшим при первом запросе, проверка /health — это быстрый способ различить «ошибку конфигурации клиента» от «сервер все еще загружается».

Ценообразование и модель затрат

Ценообразование Claude Code меньше связано с «покупкой CLI» и больше с «какой биллинг поддерживает токены».

Планы подписки включают Claude Code

Anthropic включает Claude Code в платные уровни подписки Claude. По состоянию на апрель 2026 года опубликованные цены:

Pro за $17 в месяц с годовой скидкой ($200 оплачивается вперед), или $20 при ежемесячной оплате, и это включает Claude Code.
Планы Max начинаются от $100 в месяц.
Командные планы тарифицируются за место, со стандартным местом за $20 за место в месяц при годовой оплате ($25 ежемесячно) и премиум-местом за $100 за место в месяц при годовой оплате ($125 ежемесячно).

Ценообразование за токены API

Если вы используете Claude Code через биллинг API, расходы следуют ставкам за токены. Anthropic публикует ценообразование за миллион токенов (MTok) для таких моделей, как:

Haiku 4.5 за $1/MTok ввода и $5/MTok вывода.
Sonnet 4.5 за $3/MTok ввода и $15/MTok вывода.
Opus 4.5 за $5/MTok ввода и $25/MTok вывода.

Контроль затрат в CLI

Режим печати (-p) поддерживает прямые бюджетные лимиты, такие как –max-budget-usd, что удобно, когда вы пишите скрипты задач и хотите предсказуемые расходы.

Внутри интерактивных сессий /cost показывает статистику использования токенов.

Локальные бэкенды меняют счет, но не физику

Маршрутизация Claude Code на Ollama или llama.cpp может убрать биллинг за токены API, но не делает работу бесплатной. Вы заменяете облачные затраты на локальные вычисления, память и «кто-то отвечает за доступность». Для некоторых команд этот компромисс и является всей сутью.

Типичный рабочий процесс: от плана до PR

Моя предвзятость заключается в том, что Claude Code наиболее силен, когда вы относитесь к нему как к движку рабочего процесса, а не как к чат-боту. Инструменты намекают на это.

Начните с модели разрешений, а не с промпта

Claude Code по дизайну защищен разрешениями. Документация описывает многоуровневую модель: разрешены операции только для чтения, такие как чтение файлов и grep, тогда как команды bash и изменения файлов требуют одобрения.

Режимы разрешений существуют для управления трением. В CLI вы можете переключать режимы с помощью Shift+Tab (по умолчанию -> acceptEdits -> plan). Режим Plan читает и предлагает изменения, но не редактирует. Режим acceptEdits позволяет Claude Code создавать и редактировать файлы в вашей рабочей директории без запросов, но все же запрашивает команды с побочными эффектами вне его безопасного списка.

Auto mode — это более новая опция, которая сокращает запросы, делегируя одобрения классификатору, позиционируясь как более безопасный средний путь между постоянными запросами и полным отключением запросов. Он требует минимальной версии Claude Code и определенных требований к плану и модели.

Используйте встроенные команды, чтобы держать сессии честными

Несколько команд превращают Claude Code из «ассистента» в «инструмент»:

/init генерирует проект-гид CLAUDE.md, что является легким способом подкормить согласованный контекст. Для многоразовых сценариев и повторяемых рабочих процессов, которые находятся выше CLAUDE.md, Навыки Claude для разработчиков охватывает макет SKILL.md, совместимость с IDE, настройку триггеров и тестирование.
/diff дает интерактивный обзор изменений, включая диффы по ходам.
/rewind позволяет откатить разговор и/или код к предыдущей точке, используя контрольные точки.
/debug включает отладочное логирование во время сессии.
/doctor диагностирует и проверяет вашу установку и настройки.

Это не уловки; это защитные перила, на которые вы опираетесь, когда агент редактирует больше, чем вы ожидали.

Когда переходить к неинтерактивному режиму

Для одноразовых задач (объяснить, суммировать, создать план патча) режим печати является хорошим выбором:

claude -p "Summarise the repository architecture and list the riskiest modules"

Он завершается после ответа, что хорошо работает в скриптах и CI.

Контрольный список устранения неполадок

Большинство проблем с Claude Code — это проблемы конфигурации в замаскированном виде. Вот контрольный список, который сопоставляет распространенные симптомы с лежащими в их основе механизмами.

Claude Code постоянно просит войти в систему при использовании локального сервера

Это обычно означает, что Claude Code все еще пытается использовать аутентификацию подписки первого лица. Убедитесь, что вы установили явный режим аутентификации для прокси:

Установите ANTHROPIC_API_KEY для шлюзов, ожидающих X-Api-Key.
Или установите ANTHROPIC_AUTH_TOKEN для шлюзов, использующих Authorization Bearer.

Помните, что ANTHROPIC_API_KEY переопределяет использование подписки, даже если вы вошли в систему, и в интерактивном режиме вам может потребоваться одобрить это переопределение один раз.

Шлюз выдает ошибку на заголовках anthropic-beta

Некоторые шлюзы отклоняют неизвестные заголовки или бета-поля. Для этого режима сбоя предназначена переменная окружения:

export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1

Документация LLM-шлюза также отмечает, что вам может потребоваться это при использовании формата Anthropic Messages с Bedrock или Vertex.

Вызов инструментов не работает на llama.cpp

Дважды проверьте флаги сервера. llama-server документировано, что использование инструментов требует флага –jinja. Без него сервер может отвечать, но цикл агента деградирует.

Запросы разрешений прерывают каждую команду

Это может быть нормально в зависимости от режима и правил разрешений. Варианты включают:

Временное переключение на acceptEdits (редактирование файлов проходит быстрее).
Написание явных правил разрешения для известных безопасных команд bash в settings.json.
Использование /sandbox для изоляции инструмента bash, сокращая запросы.
Оценка режима auto, если ваш план и версия поддерживают его, как золотую середину.

Что-то кажется неправильным, и вам нужна наблюдаемость

Используйте встроенные средства:

/doctor для валидации установки и настроек.
/debug для начала захвата логов с этого момента.
Если вы в режиме печати, рассмотрите жесткий максимальный бюджет и максимальное количество ходов, чтобы ограничить эксперименты.