Шпаргалка по CLI Ollama: команды ls, serve, run, ps и другие (обновление 2026 года)

Обновлённый список команд Ollama — ls, ps, run, serve и др.

Содержимое страницы

Этот шпаргалка по CLI Ollama фокусируется на командах, которые вы используете каждый день (ollama ls, ollama serve, ollama run, ollama ps, управление моделями и типичные рабочие процессы), с примерами, которые можно скопировать и вставить.

Он также включает краткий раздел «параметры производительности», чтобы помочь вам изучить (а затем углубиться) в OLLAMA_NUM_PARALLEL и связанные настройки.

ollama cheatsheet

Эта шпаргалка по Ollama сосредоточена на командах CLI, управлении моделями и кастомизации, но здесь также есть несколько вызовов curl.

Чтобы получить полную картину того, где Ollama находится среди локальных, self-hosted и облачных решений — включая vLLM, Docker Model Runner, LocalAI и облачных провайдеров — см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Если вы сравниваете различные решения для локального размещения LLM, ознакомьтесь с нашей подробной сравнительной таблицей Ollama, vLLM, LocalAI, Jan, LM Studio и других. Для тех, кто ищет альтернативы интерфейсу командной строки, Docker Model Runner предлагает другой подход к развертыванию LLM.

Установка Ollama (скачивание и установка через CLI)

  • Вариант 1: Скачивание с сайта
    • Зайдите на ollama.com и скачайте установщик для вашей операционной системы (Mac, Linux или Windows).
  • Вариант 2: Установка через командную строку
    • Для пользователей Mac и Linux используйте команду:
curl -fsSL https://ollama.com/install.sh | sh
  • Следуйте инструкциям на экране и введите пароль при запросе.

Системные требования Ollama (ОЗУ, хранилище, процессор)

Для серьезных AI-нагрузок вы можете захотеть сравнить варианты оборудования. Мы протестировали производительность NVIDIA DGX Spark против Mac Studio и RTX-4080 с Ollama, и если вы планируете инвестировать в высокопроизводительное оборудование, наш анализ цен и возможностей DGX Spark предоставляет подробный анализ затрат.

Основные команды CLI Ollama

Команда Описание
ollama serve Запускает сервер Ollama (порт по умолчанию 11434).
ollama run <model> Запускает указанную модель в интерактивном REPL.
ollama pull <model> Скачивает указанную модель на вашу систему.
ollama push <model> Загружает модель в реестр Ollama.
ollama list Список всех скачанных моделей. То же самое, что ollama ls.
ollama ps Показывает текущие запущенные (загруженные) модели.
ollama stop <model> Останавливает (разгружает) запущенную модель.
ollama rm <model> Удаляет модель из вашей системы.
ollama cp <source> <dest> Копирует модель под новым именем локально.
ollama show <model> Отображает детали о модели (архитектура, параметры, шаблон и т.д.).
ollama create <model> Создает новую модель из файла Modelfile.
ollama launch [integration] Запуск AI-ассистентов для кодинга без настройки (Claude Code, Codex, Droid, OpenCode).
ollama signin Аутентификация в реестре Ollama (включает приватные модели и облачные модели).
ollama signout Выход из реестра Ollama.
ollama help Предоставляет справку по любой команде.

Якорные ссылки: Команда Ollama serve · Команда Ollama launch · Команда Ollama run · Флаги команды Ollama run · Команда Ollama ps · Команда Ollama show · Вход в систему Ollama signin · Основы CLI Ollama · Параметры производительности (OLLAMA_NUM_PARALLEL) · Глубокий анализ параллельных запросов

CLI Ollama (что это такое)

CLI Ollama — это интерфейс командной строки для управления моделями и их запуска/сервирования локально. Большинство рабочих процессов сводятся к следующему:

  • Запустить сервер: ollama serve
  • Запустить модель: ollama run <model>
  • Посмотреть, что загружено/работает: ollama ps
  • Управление моделями: ollama pull, ollama list, ollama rm

Управление моделями Ollama: команды pull и list

Список моделей:

ollama list

то же самое, что:

ollama ls

Эта команда перечисляет все модели, которые были скачаны на вашу систему, вместе с их размером на вашем жестком диске/SSD, например:

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 недели назад     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 недели назад     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 недели назад     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 недели назад     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 недели назад     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 недель назад     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 недель назад     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 недель назад     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 недель назад  

Скачивание модели: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Эта команда скачивает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на вашу систему. Файлы моделей могут быть довольно большими, поэтому следите за местом, занимаемым моделями на жестком диске или SSD. Вы даже можете захотеть переместить все модели Ollama из домашнего каталога на другой, более крупный и лучший диск

Загрузка модели: ollama push

ollama push my-custom-model

Загружает локальную модель в реестр Ollama, чтобы другие могли её скачать. Сначала нужно войти в систему (ollama signin), и имя модели должно быть префиксировано вашим пользовательским именем Ollama, например myuser/my-model. Используйте --insecure, если вы загружаете в приватный реестр через HTTP:

ollama push myuser/my-model --insecure

Копирование модели: ollama cp

ollama cp llama3.2 my-llama3-variant

Создает локальную копию модели под новым именем без повторного скачивания. Это удобно перед редактированием Modelfile — сначала скопируйте, затем кастомизируйте копию и оставьте оригинал нетронутым:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Команда Ollama show

ollama show выводит информацию о скачанной модели.

ollama show qwen3:14b

По умолчанию она выводит карточку модели (архитектура, длина контекста, длина эмбеддинга, квантование и т.д.). Есть три полезных флага:

Флаг Что показывает
--modelfile Полный файл Modelfile, использованный для создания модели (строки FROM, SYSTEM, TEMPLATE, PARAMETER)
--parameters Только блок параметров (например, num_ctx, temperature, токены stop)
--verbose Расширенные метаданные, включая формы тензоров и количество слоев
# Увидеть точно, с каким системным промптом и шаблоном была создана модель
ollama show deepseek-r1:8b --modelfile

# Проверить размер контекстного окна и другие параметры инференса
ollama show qwen3:14b --parameters

# Полные детали на уровне тензоров (полезно при отладке квантования)
ollama show llama3.2 --verbose

Вывод --modelfile особенно полезен перед кастомизацией модели: вы можете скопировать базовый Modelfile и редактировать его оттуда, вместо того чтобы писать с нуля.

Команда Ollama serve

ollama serve запускает локальный сервер Ollama (порт HTTP по умолчанию 11434).

ollama serve

Команда “ollama serve” (пример, дружественный для systemd):

# установите переменные окружения, затем запустите сервер
# сделайте ollama доступным по IP-адресу хоста
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Команда Ollama run

Запуск модели:

ollama run gpt-oss:20b

Эта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия. Хотите понять, как Ollama управляет несколькими одновременными запросами? Узнайте больше о том, как Ollama обрабатывает параллельные запросы в нашем подробном анализе.

ollama run запускает модель в интерактивной сессии, поэтому в случае с gpt-oss:120b вы увидите что-то вроде:

$ ollama run gpt-oss:120b
>>> Отправьте сообщение (/? для справки)

Вы можете вводить свои вопросы или команды, и модель ответит.

>>> кто ты?
Thinking...
Пользователь спрашивает "кто ты?" Простой вопрос. Следует ответить как ChatGPT, языковая модель ИИ, обученная OpenAI, 
и т.д. Предоставить краткое введение. Вероятно, спросить, нужна ли помощь.
...done thinking.

Я ChatGPT, языковая модель ИИ, созданная OpenAI. Я обучена на широком спектре текстов, поэтому могу помочь 
отвечать на вопросы, генерировать идеи, объяснять концепции, писать черновики, решать проблемы и многое другое. Считайте 
меня универсальным виртуальным помощником — здесь, чтобы предоставлять информацию, поддержку и общение, когда вам это нужно. 
Чем я могу помочь вам сегодня?

>>> Отправьте сообщение (/? для справки)

Чтобы выйти из интерактивной сессии ollama, нажмите Ctrl+D или введите /bye, результат будет тем же:

>>> /bye
$ 

Примеры команды Ollama run

Чтобы запустить модель и задать один вопрос в неинтерактивном режиме:

printf "Дайте мне 10 однострочных команд bash для анализа логов.\n" | ollama run llama3.2

Если вы хотите увидеть подробный verbose-ответ LLM в сессии ollama — запустите модель с параметром --verbose или -v:

$ ollama run gpt-oss:20b --verbose
>>> кто ты?
Thinking...
Нам нужно ответить на простой вопрос: "кто ты?" Пользователь спрашивает "кто ты?" Мы можем ответить, что 
мы ChatGPT, большая языковая модель, обученная OpenAI. Мы также можем упомянуть возможности. Пользователь, вероятно, ожидает 
краткого введения. Мы сделаем это дружелюбно.
...done thinking.

Я ChatGPT, большая языковая модель, созданная OpenAI. Я здесь, чтобы помочь отвечать на вопросы, предлагать объяснения, 
генерировать идеи и общаться по широкому кругу тем — от науки и истории до креативного письма 
и бытовых советов. Просто скажите, о чем вы хотите поговорить!

общая длительность:       1.118585707s
длительность загрузки:        106.690543ms
счётчик оценки промптов:    71 токен(ов)
длительность оценки промптов: 30.507392ms
скорость оценки промптов:     2327.30 токенов/с
счётчик оценки:           132 токен(ов)
длительность оценки:        945.801569ms
скорость оценки:            139.56 токенов/с
>>> /bye
$ 

Да, это так, 139 токенов в секунду. Модель gpt-oss:20b работает очень быстро. Если у вас, как и у меня, есть GPU с 16 ГБ видеопамяти — посмотрите детали сравнения скорости LLM в Лучшие LLM для Ollama на GPU с 16 ГБ VRAM.

Совет: Если вы хотите, чтобы модель была доступна через HTTP для нескольких приложений, запустите сервер с помощью ollama serve и используйте API-клиент вместо долгих интерактивных сессий.

Флаги команды Ollama run (полная справка)

Флаг Описание
--verbose / -v Вывод статистики времени (токенов/сек, время загрузки и т.д.) после каждого ответа
-p, --parameters Передача параметров модели в строке без Modelfile (см. ниже)
--format string Принудительный формат вывода, например json
--nowordwrap Отключить автоматичесую переноску слов — полезно при передаче вывода в скрипты
--insecure Разрешить подключение к реестру через HTTP (для приватных/self-hosted реестров)

Переопределение параметров модели без Modelfile (-p / –parameters)

Флаг -p позволяет изменять параметры инференса во время выполнения без создания Modelfile. Вы можете использовать несколько флагов -p:

# Увеличить размер контекстного окна и снизить температуру
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Выполнить задачу по кодингу с детерминированным выводом
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Общие параметры, которые можно установить таким образом:

Параметр Эффект
num_ctx Размер контекстного окна в токенах (по умолчанию зависит от модели, часто 2048–4096)
temperature Случайность: 0 = детерминированно, 1 = творчески
top_p Порог ядерной выборки
top_k Ограничивает словарь топ-K токенами
num_predict Максимальное количество токенов для генерации (-1 = без ограничений)
repeat_penalty Штраф за повторение токенов

Многострочный ввод в REPL

Оставьте текст в тройных кавычках ("""), чтобы ввести многострочный промпт без преждевременной отправки:

>>> """Суммируйте это в одном предложении:
... Быстрая коричневая лиса прыгает через ленивую собаку.
... Это произошло во вторник.
... """

Мультимодальные модели (изображения)

Для моделей со способностью видеть изображения (например, gemma3, llava), передайте путь к изображению прямо в промпте:

ollama run gemma3 "Что на этом изображении? /home/user/screenshot.png"

Генерация эмбеддингов через CLI

Модели эмбеддингов выводят JSON-массив вместо текста. Передайте текст напрямую для быстрых одноразовых эмбеддингов:

echo "Привет, мир" | ollama run nomic-embed-text

Для продакшн-нагрузок по эмбеддингам используйте REST-эндпоинт /api/embeddings или Python-клиент.

Принудительный вывод JSON (–format)

ollama run llama3.2 --format json "Перечислите 5 столиц в формате JSON"

Модель получает инструкцию вернуть валидный JSON. Полезно при передаче вывода в jq или скрипт, ожидающий структурированные данные.

Команда Ollama stop

Эта команда останавливает указанную запущенную модель.

ollama stop llama3.1:8b-instruct-q8_0

Ollama автоматически разгружает модели автоматически через некоторое время. Вы можете указать это время, по умолчанию 4 минуты. Если вы не хотите ждать оставшееся время, вы можете использовать эту команду ollama stop. Вы также можете выгнать модель из VRAM, вызвав эндпоинт API /generate с параметром keep_alive=0, см. ниже описание и пример.

Команда Ollama ps

ollama ps показывает текущие запущенные модели и сессии (полезно для отладки «почему моя VRAM полна?»).

ollama ps

Пример вывода ollama ps ниже:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       через 4 минуты

Вы видите здесь на моем ПК, что gpt-oss:20b отлично вписывается в 16 ГБ VRAM моего GPU и занимает только 14 ГБ.

Если я выполню ollama run gpt-oss:120b и затем вызову ollama ps, результат будет не таким радостным: 78% слоев находятся на CPU, и это только при контекстном окне 4096 токенов. Это будет еще больше, если мне нужно увеличить контекст.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       через 4 минуты

Команда Ollama launch (интеграции с AI для кодинга)

ollama launch — это команда, введенная в Ollama v0.15 (январь 2026), которая дает вам настройку без конфигурации и в одну строку для популярных AI-ассистентов для кодинга, работающих с вашим локальным сервером Ollama.

Зачем использовать ollama launch?

До ollama launch, настройка агента для кодинга, такого как Claude Code или Codex, для локального бэкенда Ollama означала ручную установку переменных окружения, указание инструмента на правильный API-эндпоинт и выбор совместимой модели. ollama launch делает все это за вас интерактивно.

Если вы уже запускаете Ollama локально и хотите агентского ассистента для кодинга без оплаты API-вызовов или отправки кода в облако, ollama launch — это самый быстрый путь.

Поддерживаемые интеграции

Интеграция Что это
claude Claude Code от Anthropic — агентский ассистент для кодинга
codex Код-ассистент Codex от OpenAI
droid AI-агент для кодинга от Factory
opencode Открытый ассистент для кодинга

Базовое использование

# Интерактивный выборщик — выберите интеграцию из меню
ollama launch

# Запустить конкретную интеграцию напрямую
ollama launch claude

# Запустить с конкретной моделью
ollama launch claude --model qwen3-coder

# Конфигурировать интеграцию без запуска (полезно для проверки настроек)
ollama launch droid --config

Рекомендуемые модели

Агентам для кодинга нужно большое контекстное окно для хранения контекста целых файлов и истории многоходовых разговоров. Ollama рекомендует модели с контекстом минимум 64 000 токенов:

Модель Примечания
qwen3-coder Сильная производительность в кодинге, большой контекст, работает локально
glm-4.7-flash Быстрый локальный вариант
devstral:24b Модель Mistral, ориентированная на кодинг

Если ваш GPU не может вместить модель, Ollama также предлагает облачные варианты (например, qwen3-coder:480b-cloud), которые интегрируются так же, но направляют инференс в облачный уровень Ollama — требуется ollama signin.

Пример: запуск Claude Code локально с Ollama

# 1. Убедитесь, что модель доступна
ollama pull qwen3-coder

# 2. Запустите Claude Code против неё
ollama launch claude --model qwen3-coder

Ollama устанавливает необходимые переменные окружения и запускает Claude Code, указывая на http://localhost:11434 автоматически. Затем вы можете использовать Claude Code точно так же, как обычно — единственная разница в том, что инференс происходит на вашем собственном оборудовании.

Параметры производительности (OLLAMA_NUM_PARALLEL)

Если вы видите очередь или таймауты при нагрузке, первый параметр, который нужно изучить, — OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = сколько запросов Ollama выполняет параллельно.
  • Более высокое значение может увеличить пропускную способность, но может увеличить давление на VRAM и пики задержки.

Быстрый пример:

OLLAMA_NUM_PARALLEL=2 ollama serve

Для полного объяснения (включая стратегии настройки и режимы отказа), см.:

Освобождение модели Ollama из VRAM (keep_alive)

Когда модель загружается в VRAM (память GPU), она остается там даже после того, как вы закончили с ней работать. Чтобы явно освободить модель из VRAM и высвободить память GPU, вы можете отправить запрос в API Ollama с keep_alive: 0.

  • Освободить модель из VRAM с помощью curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Замените MODELNAME на ваше фактическое имя модели, например:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Освободить модель из VRAM с помощью Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Это особенно полезно, когда:

  • Вам нужно освободить память GPU для других приложений
  • Вы запускаете несколько моделей и хотите управлять использованием VRAM
  • Вы закончили использовать большую модель и хотите немедленно освободить ресурсы

Примечание: Параметр keep_alive контролирует, как долго (в секундах) модель остается загруженной в памяти после последнего запроса. Установка его в 0 немедленно разгружает модель из VRAM.

Если вы предпочитаете полностью избежать абстракционного слоя Ollama и хотите прямой контроль над тем, какая GGUF-модель резидентна в любой момент, режим роутера llama-server охватывает нативный подход llama.cpp к динамическому переключению моделей.

Кастомизация моделей Ollama (системный промпт, Modelfile)

  • Установка системного промпта: Внутри REPL Ollama вы можете установить системный промпт для кастомизации поведения модели:

    >>> /set system Для всех вопросов отвечай на простом английском языке, избегая технического жаргона насколько это возможно
    >>> /save ipe
    >>> /bye
    

    Затем запустите кастомизированную модель:

    ollama run ipe
    

    Это устанавливает системный промпт и сохраняет модель для будущего использования.

  • Создание кастомного файла модели: Создайте текстовый файл (например, custom_model.txt) со следующей структурой:

    FROM llama3.1
    SYSTEM [Ваши кастомные инструкции здесь]
    

    Затем выполните:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Это создает кастомизированную модель на основе инструкций в файле.

Вход и выход из системы Ollama (аутентификация реестра)

ollama signin
ollama signout

ollama signin аутентифицирует вашу локальную установку Ollama в реестре Ollama на ollama.com. После входа клиент хранит учётные данные локально и автоматически использует их для последующих команд.

Что разблокирует signin:

  • Скачивание и загрузка приватных моделей из вашего аккаунта или организации.
  • Использование облачных моделей (например, qwen3-coder:480b-cloud), которые слишком велики для локального запуска.
  • Публикация моделей в реестр с помощью ollama push.

Альтернатива: аутентификация через API-ключ

Если вы запускаете Ollama в CI-конвейере или на безголовом сервере, где интерактивный ollama signin непрактичен, создайте API-ключ в настройках вашего аккаунта Ollama и экспортируйте его как переменную окружения:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

Переменная OLLAMA_API_KEY автоматически подхватывается каждой командой Ollama и API-запросом — нет необходимости выполнять ollama signin на каждой машине.

Использование команды Ollama run с файлами (суммирование, перенаправление)

  • Суммирование текста из файла:

    ollama run llama3.2 "Суммируйте содержимое этого файла в 50 словах." < input.txt
    

    Эта команда суммирует содержимое input.txt, используя указанную модель.

  • Запись ответов модели в файл:

    ollama run llama3.2 "Расскажи мне о возобновляемой энергии." > output.txt
    

    Эта команда сохраняет ответ модели в output.txt.

Сценарии использования CLI Ollama (генерация текста, анализ)

  • Генерация текста:

    • Суммирование большого текстового файла:
      ollama run llama3.2 "Суммируйте следующий текст:" < long-document.txt
      
    • Генерация контента:
      ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt
      
    • Ответы на конкретные вопросы:
      ollama run llama3.2 "Каковы последние тренды в ИИ, и как они повлияют на здравоохранение?"
      
  • Обработка и анализ данных:

    • Классификация текста на позитивный, негативный или нейтральный сентимент:
      ollama run llama3.2 "Проанализируйте сентимент этого отзыва клиента: 'Продукт фантастический, но доставка была медленной.'"
      
    • Категоризация текста в предопределенные категории: Используйте аналогичные команды для классификации или категоризации текста на основе предопределенных критериев.

Использование Ollama с Python (клиент и API)

  • Установка библиотеки Python Ollama:
    pip install ollama
    
  • Генерация текста с помощью Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='что такое кубит?')
    print(response['response'])
    
    Этот фрагмент кода генерирует текст, используя указанную модель и промпт.

Для продвинутой интеграции с Python, изучите использование API веб-поиска Ollama в Python, который охватывает возможности веб-поиска, вызов инструментов и интеграцию с серверами MCP. Если вы строите приложения с ИИ, наше сравнение AI-ассистентов для кодинга поможет вам выбрать правильные инструменты для разработки.

Ищете веб-интерфейс? Open WebUI предоставляет self-hosted интерфейс с возможностями RAG и поддержкой нескольких пользователей. Для высокопроизводительных продакшн-развертываний рассмотрите vLLM как альтернативу. Чтобы сравнить Ollama с другими локальными и облачными вариантами инфраструктуры LLM, см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Полезные ссылки

Конфигурация и управление

Альтернативы и сравнения

Производительность и оборудование

Интеграция и разработка

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.