Шпаргалка по CLI Ollama: ls, serve, run, ps + команды (обновление 2026)

Обновленный список команд Ollama - ls, ps, run, serve и т.д.

Содержимое страницы

Этот Ollama CLI cheatsheet фокусируется на командах, которые вы используете каждый день (ollama ls, ollama serve, ollama run, ollama ps, управление моделями и общие рабочие процессы), с примерами, которые можно скопировать/вставить.

Он также включает короткий раздел «настройки производительности», чтобы помочь вам открыть для себя (а затем углубиться) OLLAMA_NUM_PARALLEL и связанные настройки.

ollama cheatsheet

Этот Ollama cheatsheet фокусируется на CLI-командах, управлении моделями и настройке, Но здесь также есть несколько curl вызовов.

Для полного понимания того, где Ollama находится среди локальных, самоуправляемых и облачных опций — включая vLLM, Docker Model Runner, LocalAI и облачные провайдеры — см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Если вы сравниваете различные локальные решения для хостинга LLM, ознакомьтесь с нашим подробным сравнением Ollama, vLLM, LocalAI, Jan, LM Studio и других. Для тех, кто ищет альтернативы командным интерфейсам, Docker Model Runner предлагает другой подход к развертыванию LLM.

Установка Ollama (загрузка и установка через CLI)

  • Вариант 1: Загрузка с сайта
    • Посетите ollama.com и загрузите установщик для вашей операционной системы (Mac, Linux или Windows).
  • Вариант 2: Установка через командную строку
    • Для пользователей Mac и Linux используйте команду:
curl -fsSL https://ollama.com/install.sh | sh
  • Следуйте инструкциям на экране и введите пароль, если потребуется.

Системные требования Ollama (ОЗУ, хранилище, ЦП)

Для серьезных AI нагрузок вы можете захотеть сравнить варианты оборудования. Мы протестировали NVIDIA DGX Spark vs Mac Studio vs RTX-4080 производительность с Ollama, и если вы рассматриваете возможность инвестирования в высокопроизводительное оборудование, наше сравнение цен и возможностей DGX Spark предоставляет подробный анализ затрат.

Основные команды Ollama CLI

Команда Описание
ollama serve Запускает сервер Ollama (порт по умолчанию 11434).
ollama run <model> Запускает указанную модель в интерактивном REPL.
ollama pull <model> Загружает указанную модель на вашу систему.
ollama push <model> Загружает модель в реестр Ollama.
ollama list Показывает все загруженные модели. То же самое, что и ollama ls.
ollama ps Показывает текущие запущенные (загруженные) модели.
ollama stop <model> Останавливает (разгружает) запущенную модель.
ollama rm <model> Удаляет модель с вашей системы.
ollama cp <source> <dest> Копирует модель под новым именем локально.
ollama show <model> Показывает детали о модели (архитектура, параметры, шаблон и т.д.).
ollama create <model> Создает новую модель из Modelfile.
ollama launch [integration] Запуск AI кодинг ассистентов без конфигурации (Claude Code, Codex, Droid, OpenCode).
ollama signin Аутентификация с реестром Ollama (включает приватные модели и облачные модели).
ollama signout Выход из реестра Ollama.
ollama help Предоставляет справку о любой команде.

Ссылки для быстрого перехода: Команда Ollama serve · Команда Ollama launch · Команда Ollama run · Флаги Ollama run · Команда Ollama ps · Команда Ollama show · Ollama signin · Основы CLI Ollama · Настройки производительности (OLLAMA_NUM_PARALLEL) · Подробное исследование параллельных запросов

Ollama CLI (что это такое)

Ollama CLI — это командный интерфейс для управления моделями и их запуска/обслуживания локально. Большинство рабочих процессов сводятся к:

  • Запуск сервера: ollama serve
  • Запуск модели: ollama run <model>
  • Просмотр загруженных/запущенных моделей: ollama ps
  • Управление моделями: ollama pull, ollama list, ollama rm

Управление моделями Ollama: команды pull и list моделей

Список моделей:

ollama list

то же самое, что:

ollama ls

Эта команда показывает все модели, которые были загружены на вашу систему, с их размерами на вашем жестком диске/SSD, например

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago

Загрузка модели: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Эта команда загружает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на вашу систему. Файлы моделей могут быть довольно большими, поэтому следите за пространством, используемым моделями на жестком диске или SSD. Вы даже можете захотеть переместить все модели Ollama из вашей домашней директории на другой, более большой и лучший диск

Загрузка модели: ollama push

ollama push my-custom-model

Загружает локальную модель в реестр Ollama, чтобы другие могли ее загрузить. Сначала нужно войти в систему (ollama signin) и имя модели должно начинаться с вашего имени пользователя Ollama, например, myuser/my-model. Используйте --insecure, если вы загружаете в приватный реестр через HTTP:

ollama push myuser/my-model --insecure

Копирование модели: ollama cp

ollama cp llama3.2 my-llama3-variant

Создает локальную копию модели под новым именем без повторной загрузки. Это удобно перед редактированием Modelfile — сначала скопируйте, затем настройте копию и оставьте оригинал нетронутым:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Команда Ollama show

Команда ollama show выводит информацию о загруженной модели.

ollama show qwen3:14b

По умолчанию она выводит карточку модели (архитектура, длина контекста, длина вложений, квантование и т.д.). Есть три полезных флага:

Флаг Что он показывает
--modelfile Полный Modelfile, использованный для создания модели (строки FROM, SYSTEM, TEMPLATE, PARAMETER)
--parameters Только блок параметров (например, num_ctx, temperature, токены stop)
--verbose Расширенные метаданные, включая формы тензоров и количество слоев
# Посмотреть точное содержимое системного запроса и шаблона, с которым была создана модель
ollama show deepseek-r1:8b --modelfile

# Проверить размер окна контекста и другие параметры инференса
ollama show qwen3:14b --parameters

# Полная детализация на уровне тензоров (полезно при отладке квантования)
ollama show llama3.2 --verbose

Вывод --modelfile особенно полезен перед настройкой модели: вы можете скопировать базовый Modelfile и редактировать его, а не писать с нуля.

Команда Ollama serve

Команда ollama serve запускает локальный сервер Ollama (порт HTTP по умолчанию 11434).

ollama serve

Пример команды “ollama serve” (для systemd):

# Установить переменные окружения, затем запустить сервер
# сделать ollama доступным на IP-адресе хоста
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Команда Ollama run

Запуск модели:

ollama run gpt-oss:20b

Эта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия. Хотите понять, как Ollama обрабатывает несколько одновременных запросов? Узнайте больше о том, как Ollama обрабатывает параллельные запросы в нашем подробном анализе.

Команда ollama run запускает модель в интерактивной сессии, поэтому в случае gpt-oss:120b вы увидите что-то вроде

$ ollama run gpt-oss:120b
>>> Отправьте сообщение (/? для помощи)

Вы можете вводить свои вопросы или команды, и модель ответит.

>>> Кто ты?
Размышление...
Пользователь спрашивает "Кто ты?" Простой вопрос. Следует ответить как ChatGPT, языковая модель ИИ, обученная OpenAI и т.д. Предоставить краткое введение. Вероятно, спросить, нужна ли помощь.
...завершено размышление.

Я — ChatGPT, языковая модель ИИ, созданная OpenAI. Я обучен на широком диапазоне текстов, поэтому могу помочь отвечать на вопросы, генерировать идеи, объяснять концепции, писать тексты, устранять неполадки и многое другое. Думайте обо мне как о универсальном виртуальном ассистенте — я здесь, чтобы предоставлять информацию, поддержку и общение, когда это вам нужно. Чем могу помочь сегодня?

>>> Отправьте сообщение (/? для помощи)

Чтобы выйти из интерактивной сессии ollama, нажмите Ctrl+D, или можно ввести /bye, получится то же самое:

>>> /bye
$

Примеры команды Ollama run

Чтобы запустить модель и задать один вопрос в неинтерактивном режиме:

printf "Дайте мне 10 однострочников на bash для анализа логов.\n" | ollama run llama3.2

Если вы хотите увидеть подробный развернутый ответ LLM в сессии ollama — запустите модель с параметром --verbose или -v:

$ ollama run gpt-oss:20b --verbose
>>> Кто ты?
Размышление...
Нам нужно ответить на простой вопрос: "Кто ты?" Пользователь спрашивает "Кто ты?" Мы можем ответить, что мы ChatGPT, большая языковая модель, обученная OpenAI. Мы можем также упомянуть возможности. Пользователь, вероятно, ожидает краткого представления. Мы будем дружелюбны.
...завершено размышление.

Я — ChatGPT, большая языковая модель, созданная OpenAI. Я здесь, чтобы помочь отвечать на вопросы, предлагать объяснения, генерировать идеи и обсуждать широкий спектр тем — от науки и истории до творческого письма и повседневных советов. Просто дайте знать, о чем вы хотите поговорить!

общая продолжительность:       1.118585707s
время загрузки:        106.690543ms
количество токенов оценки запроса:    71 токен(ов)
время оценки запроса: 30.507392ms
скорость оценки запроса:     2327.30 токенов/с
количество токенов оценки:           132 токен(ов)
время оценки:        945.801569ms
скорость оценки:            139.56 токенов/с
>>> /bye
$

Да, это действительно 139 токенов в секунду. Модель gpt-oss:20b очень быстрая. Если у вас, как и у меня, есть GPU с 16ГБ видеопамяти — посмотрите детали сравнения скорости ЛЛМ в Лучшие ЛЛМ для Ollama на GPU с 16ГБ видеопамяти.

Совет: Если вы хотите, чтобы модель была доступна через HTTP для нескольких приложений, запустите сервер с ollama serve и используйте API-клиент вместо длинных интерактивных сессий.

Флаги команды Ollama run (полный справочник)

Флаг Описание
--verbose / -v Выводит статистику времени (токены/с, время загрузки и т.д.) после каждого ответа
-p, --parameters Передача параметров модели встроенно без Modelfile (см. ниже)
--format string Принудительное использование определенного формата вывода, например, json
--nowordwrap Отключение автоматического переноса слов — полезно при передаче вывода в скрипты
--insecure Разрешить подключение к реестру через HTTP (для частных/самостоятельно развернутых реестров)

Переопределение параметров модели без Modelfile (-p / –parameters)

Флаг -p позволяет изменять параметры инференса во время выполнения без создания Modelfile. Вы можете комбинировать несколько флагов -p:

# Увеличить окно контекста и уменьшить температуру
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Запуск задачи программирования с детерминированным выводом
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Общие параметры, которые можно установить таким образом:

Параметр Эффект
num_ctx Размер окна контекста в токенах (по умолчанию зависит от модели, часто 2048–4096)
temperature Случайность: 0 = детерминированный, 1 = креативный
top_p Пороговое значение ядерного выборки
top_k Ограничивает словарь до топ-K токенов
num_predict Максимальное количество токенов для генерации (-1 = неограниченно)
repeat_penalty Штраф за повторяющиеся токены

Многострочный ввод в REPL

Оберните текст в тройные кавычки (""") для ввода многострочного запроса без преждевременной отправки:

>>> """Суммируйте это в одном предложении:
... Быстрая коричневая лиса прыгает через ленивую собаку.
... Это произошло во вторник.
... """

Мультимодальные модели (изображения)

Для моделей с поддержкой зрения (например, gemma3, llava) передавайте путь к изображению непосредственно в запросе:

ollama run gemma3 "Что на этом изображении? /home/user/screenshot.png"

Генерация вложений через CLI

Модели вложений выводят JSON-массив вместо текста. Передавайте текст непосредственно для быстрого однократного получения вложений:

echo "Hello world" | ollama run nomic-embed-text

Для производственных задач по вложениям используйте REST-конец /api/embeddings или Python-клиент вместо этого.

Принудительный вывод JSON (–format)

ollama run llama3.2 --format json "Список 5 столиц в формате JSON"

Модель инструктируется возвращать корректный JSON. Полезно при передаче вывода в jq или скрипт, ожидающий структурированных данных.

Команда Ollama stop

Эта команда останавливает указанную работающую модель.

ollama stop llama3.1:8b-instruct-q8_0

Ollama автоматически выгружает модели автоматически через некоторое время. Вы можете указать это время, по умолчанию это 4 минуты. Если вы не хотите ждать оставшееся время, возможно, вам стоит использовать команду ollama stop. Вы также можете выгрузить модель из видеопамяти, вызвав конец /generate API с параметром keep_alive=0, см. ниже для описания и примера.

Команда Ollama ps

Команда ollama ps показывает текущие работающие модели и сессии (полезно для отладки “почему моя видеопамять заполнена?”).

ollama ps

Пример вывода ollama ps приведен ниже:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 минуты от сейчас

Здесь на моем ПК модель gpt-oss:20b отлично помещается в 16ГБ видеопамяти моего GPU и занимает только 14ГБ.

Если я выполню ollama run gpt-oss:120b, а затем вызову ollama ps, результат будет не таким радужным: 78% слоев находятся на CPU, и это только с окном контекста 4096 токенов. Это будет больше, если мне нужно увеличить контекст.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 минуты от сейчас

Команда запуска Ollama (интеграции с AI для кодинга)

ollama launch — это команда, представленная в Ollama v0.15 (январь 2026), которая обеспечивает настройку популярных AI-ассистентов для кодинга с нулевой конфигурацией и одной строкой для работы с вашим локальным сервером Ollama.

Почему использовать ollama launch?

До появления ollama launch подключение кодингового агента, такого как Claude Code или Codex, к локальному бэкенду Ollama требовало ручной настройки переменных окружения, указания правильного API-эндпоинта и выбора совместимой модели. ollama launch выполняет все это за вас интерактивно.

Если вы уже используете Ollama локально и хотите агентного кодингового ассистента без оплаты API-запросов и отправки кода в облако, ollama launch — самый быстрый способ это сделать.

Поддерживаемые интеграции

Интеграция Что это
claude Кодинговый ассистент Claude от Anthropic
codex Кодинговый ассистент Codex CLI от OpenAI
droid AI-кодинговый агент Factory
opencode Открытый кодинговый ассистент

Базовое использование

# Интерактивный выбор — выберите интеграцию из меню
ollama launch

# Запуск конкретной интеграции напрямую
ollama launch claude

# Запуск с конкретной моделью
ollama launch claude --model qwen3-coder

# Настройка интеграции без её запуска (полезно для проверки настроек)
ollama launch droid --config

Рекомендуемые модели

Кодинговым агентам требуется длинное окно контекста для хранения контекста всего файла и истории многоходового диалога. Ollama рекомендует модели с не менее 64 000 токенов контекста:

Модель Примечания
qwen3-coder Хорошая производительность кодинга, длинный контекст, работает локально
glm-4.7-flash Быстрый локальный вариант
devstral:24b Модель Mistral, ориентированная на кодинг

Если ваша видеокарта не может вместить модель, Ollama также предлагает облачные варианты (например, qwen3-coder:480b-cloud), которые интегрируются так же, но перенаправляют инференс на облачный уровень Ollama — требуется ollama signin.

Пример: запуск Claude Code локально с Ollama

# 1. Убедитесь, что модель доступна
ollama pull qwen3-coder

# 2. Запустите Claude Code с этой моделью
ollama launch claude --model qwen3-coder

Ollama устанавливает необходимые переменные окружения и запускает Claude Code, указывая на http://localhost:11434 автоматически. Вы можете использовать Claude Code так же, как обычно — единственное отличие в том, что инференс происходит на вашем оборудовании.

Настройки производительности (OLLAMA_NUM_PARALLEL)

Если вы замечаете очередь или таймауты при высокой нагрузке, первым параметром для изучения является OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = количество запросов, которые Ollama выполняет параллельно.
  • Более высокое значение может увеличить пропускную способность, но может повысить давление на VRAM и вызвать скачки задержки.

Быстрый пример:

OLLAMA_NUM_PARALLEL=2 ollama serve

Для полного объяснения (включая стратегии настройки и сценарии сбоев), см.:

Освобождение модели Ollama из VRAM (keep_alive)

Когда модель загружается в VRAM (память GPU), она остается там даже после завершения её использования. Чтобы явно освободить модель из VRAM и освободить память GPU, вы можете отправить запрос в API Ollama с keep_alive: 0.

  • Освобождение модели из VRAM с помощью curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Замените MODELNAME на фактическое имя модели, например:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Освобождение модели из VRAM с помощью Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Это особенно полезно, когда:

  • Вам нужно освободить память GPU для других приложений
  • Вы запускаете несколько моделей и хотите управлять использованием VRAM
  • Вы закончили использовать большую модель и хотите немедленно освободить ресурсы

Примечание: Параметр keep_alive управляет временем (в секундах), в течение которого модель остается загруженной в памяти после последнего запроса. Установка его в 0 немедленно выгружает модель из VRAM.

Настройка моделей Ollama (системный промт, Modelfile)

  • Установка системного промта: В REPL Ollama вы можете установить системный промт для настройки поведения модели:

    >>> /set system Для всех вопросов отвечайте простым английским языком, избегая технических терминов по возможности
    >>> /save ipe
    >>> /bye
    

    Затем запустите настроенную модель:

    ollama run ipe
    

    Это устанавливает системный промт и сохраняет модель для будущего использования.

  • Создание пользовательского файла модели: Создайте текстовый файл (например, custom_model.txt) со следующей структурой:

    FROM llama3.1
    SYSTEM [Ваши пользовательские инструкции здесь]
    

    Затем выполните:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Это создает настроенную модель на основе инструкций в файле.

Вход и выход из системы Ollama (аутентификация реестра)

ollama signin
ollama signout

ollama signin аутентифицирует вашу локальную установку Ollama с реестром Ollama на ollama.com. После входа клиент сохраняет учетные данные локально и автоматически использует их для последующих команд.

Что открывает вход:

  • Загрузка и отправка приватных моделей из вашего аккаунта или организации.
  • Использование облачных моделей (например, qwen3-coder:480b-cloud), которые слишком велики для локального запуска.
  • Публикация моделей в реестре с помощью ollama push.

Альтернатива: аутентификация через API-ключ

Если вы запускаете Ollama в CI-конвейере или на сервере без интерфейса, где интерактивный ollama signin неудобен, создайте API-ключ в настройках вашего аккаунта Ollama и установите его как переменную окружения:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

Переменная OLLAMA_API_KEY автоматически подхватывается каждой командой и API-запросом Ollama — нет необходимости выполнять ollama signin на каждом устройстве.

Использование команды ollama run с файлами (суммирование, перенаправление)

  • Суммирование текста из файла:

    ollama run llama3.2 "Суммируйте содержимое этого файла в 50 слов." < input.txt
    

    Эта команда суммирует содержимое input.txt с использованием указанной модели.

  • Логирование ответов модели в файл:

    ollama run llama3.2 "Расскажите мне о возобновляемой энергии." > output.txt
    

    Эта команда сохраняет ответ модели в output.txt.

Использование Ollama CLI (генерация текста, анализ)

  • Генерация текста:

    • Суммирование большого текстового файла:
      ollama run llama3.2 "Суммируйте следующий текст:" < long-document.txt
      
    • Генерация контента:
      ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt
      
    • Ответы на конкретные вопросы:
      ollama run llama3.2 "Какие последние тенденции в ИИ и как они повлияют на здравоохранение?"
      
  • Обработка и анализ данных:

    • Классификация текста по положительному, отрицательному или нейтральному тону:
      ollama run llama3.2 "Проанализируйте тон этого отзыва клиента: 'Продукт отличный, но доставка была медленной.'"
      
    • Категоризация текста по заранее определенным категориям: Используйте аналогичные команды для классификации или категоризации текста на основе заранее определенных критериев.

Использование Ollama с Python (клиент и API)

  • Установка библиотеки Ollama для Python:
    pip install ollama
    
  • Генерация текста с помощью Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='что такое кубит?')
    print(response['response'])
    
    Этот фрагмент кода генерирует текст с использованием указанной модели и промта.

Для продвинутой интеграции с Python см. использование Web Search API Ollama в Python, который охватывает возможности поиска в интернете, вызов инструментов и интеграцию с серверами MCP. Если вы разрабатываете приложения с ИИ, наше сравнение AI Coding Assistants может помочь вам выбрать подходящие инструменты для разработки.

Ищете веб-интерфейс? Open WebUI предоставляет самонастраиваемый интерфейс с возможностями RAG и поддержкой нескольких пользователей. Для высокопроизводительных производственных развертываний рассмотрите vLLM как альтернативу. Чтобы сравнить Ollama с другими вариантами хостинга локальных и облачных LLM-инфраструктур, см. Хостинг LLM: локальные, самонастраиваемые и облачные инфраструктуры сравнены.

Полезные ссылки

Настройка и управление

Альтернативы и сравнения

Производительность и оборудование

Интеграция и разработка