Шпаргалка по CLI Ollama: ls, serve, run, ps + команды (обновление 2026)
Обновленный список команд Ollama - ls, ps, run, serve и т.д.
Этот Ollama CLI cheatsheet фокусируется на командах, которые вы используете каждый день (ollama ls, ollama serve, ollama run, ollama ps, управление моделями и общие рабочие процессы), с примерами, которые можно скопировать/вставить.
Он также включает короткий раздел «настройки производительности», чтобы помочь вам открыть для себя (а затем углубиться) OLLAMA_NUM_PARALLEL и связанные настройки.

Этот Ollama cheatsheet фокусируется на CLI-командах, управлении моделями и настройке, Но здесь также есть несколько curl вызовов.
Для полного понимания того, где Ollama находится среди локальных, самоуправляемых и облачных опций — включая vLLM, Docker Model Runner, LocalAI и облачные провайдеры — см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Если вы сравниваете различные локальные решения для хостинга LLM, ознакомьтесь с нашим подробным сравнением Ollama, vLLM, LocalAI, Jan, LM Studio и других. Для тех, кто ищет альтернативы командным интерфейсам, Docker Model Runner предлагает другой подход к развертыванию LLM.
Установка Ollama (загрузка и установка через CLI)
- Вариант 1: Загрузка с сайта
- Посетите ollama.com и загрузите установщик для вашей операционной системы (Mac, Linux или Windows).
- Вариант 2: Установка через командную строку
- Для пользователей Mac и Linux используйте команду:
curl -fsSL https://ollama.com/install.sh | sh
- Следуйте инструкциям на экране и введите пароль, если потребуется.
Системные требования Ollama (ОЗУ, хранилище, ЦП)
- Операционная система: Mac, Linux или Windows
- Память (ОЗУ): 8ГБ минимум, рекомендуется 16ГБ или больше
- Хранилище: Не менее ~10ГБ свободного места (файлы моделей могут быть очень большими, см. здесь больше Перемещение моделей Ollama на другой диск )
- Процессор: Относительно современный ЦП (последние 5 лет). Если вас интересует, как Ollama использует различные архитектуры ЦП, см. наш анализ как Ollama использует производительность и эффективные ядра Intel CPU.
Для серьезных AI нагрузок вы можете захотеть сравнить варианты оборудования. Мы протестировали NVIDIA DGX Spark vs Mac Studio vs RTX-4080 производительность с Ollama, и если вы рассматриваете возможность инвестирования в высокопроизводительное оборудование, наше сравнение цен и возможностей DGX Spark предоставляет подробный анализ затрат.
Основные команды Ollama CLI
| Команда | Описание |
|---|---|
ollama serve |
Запускает сервер Ollama (порт по умолчанию 11434). |
ollama run <model> |
Запускает указанную модель в интерактивном REPL. |
ollama pull <model> |
Загружает указанную модель на вашу систему. |
ollama push <model> |
Загружает модель в реестр Ollama. |
ollama list |
Показывает все загруженные модели. То же самое, что и ollama ls. |
ollama ps |
Показывает текущие запущенные (загруженные) модели. |
ollama stop <model> |
Останавливает (разгружает) запущенную модель. |
ollama rm <model> |
Удаляет модель с вашей системы. |
ollama cp <source> <dest> |
Копирует модель под новым именем локально. |
ollama show <model> |
Показывает детали о модели (архитектура, параметры, шаблон и т.д.). |
ollama create <model> |
Создает новую модель из Modelfile. |
ollama launch [integration] |
Запуск AI кодинг ассистентов без конфигурации (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Аутентификация с реестром Ollama (включает приватные модели и облачные модели). |
ollama signout |
Выход из реестра Ollama. |
ollama help |
Предоставляет справку о любой команде. |
Ссылки для быстрого перехода: Команда Ollama serve · Команда Ollama launch · Команда Ollama run · Флаги Ollama run · Команда Ollama ps · Команда Ollama show · Ollama signin · Основы CLI Ollama · Настройки производительности (OLLAMA_NUM_PARALLEL) · Подробное исследование параллельных запросов
Ollama CLI (что это такое)
Ollama CLI — это командный интерфейс для управления моделями и их запуска/обслуживания локально. Большинство рабочих процессов сводятся к:
- Запуск сервера:
ollama serve - Запуск модели:
ollama run <model> - Просмотр загруженных/запущенных моделей:
ollama ps - Управление моделями:
ollama pull,ollama list,ollama rm
Управление моделями Ollama: команды pull и list моделей
Список моделей:
ollama list
то же самое, что:
ollama ls
Эта команда показывает все модели, которые были загружены на вашу систему, с их размерами на вашем жестком диске/SSD, например
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
Загрузка модели: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Эта команда загружает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на вашу систему. Файлы моделей могут быть довольно большими, поэтому следите за пространством, используемым моделями на жестком диске или SSD. Вы даже можете захотеть переместить все модели Ollama из вашей домашней директории на другой, более большой и лучший диск
Загрузка модели: ollama push
ollama push my-custom-model
Загружает локальную модель в реестр Ollama, чтобы другие могли ее загрузить.
Сначала нужно войти в систему (ollama signin) и имя модели должно начинаться с вашего имени пользователя Ollama, например, myuser/my-model.
Используйте --insecure, если вы загружаете в приватный реестр через HTTP:
ollama push myuser/my-model --insecure
Копирование модели: ollama cp
ollama cp llama3.2 my-llama3-variant
Создает локальную копию модели под новым именем без повторной загрузки. Это удобно перед редактированием Modelfile — сначала скопируйте, затем настройте копию и оставьте оригинал нетронутым:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Команда Ollama show
Команда ollama show выводит информацию о загруженной модели.
ollama show qwen3:14b
По умолчанию она выводит карточку модели (архитектура, длина контекста, длина вложений, квантование и т.д.). Есть три полезных флага:
| Флаг | Что он показывает |
|---|---|
--modelfile |
Полный Modelfile, использованный для создания модели (строки FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Только блок параметров (например, num_ctx, temperature, токены stop) |
--verbose |
Расширенные метаданные, включая формы тензоров и количество слоев |
# Посмотреть точное содержимое системного запроса и шаблона, с которым была создана модель
ollama show deepseek-r1:8b --modelfile
# Проверить размер окна контекста и другие параметры инференса
ollama show qwen3:14b --parameters
# Полная детализация на уровне тензоров (полезно при отладке квантования)
ollama show llama3.2 --verbose
Вывод --modelfile особенно полезен перед настройкой модели: вы можете скопировать базовый Modelfile и редактировать его, а не писать с нуля.
Команда Ollama serve
Команда ollama serve запускает локальный сервер Ollama (порт HTTP по умолчанию 11434).
ollama serve
Пример команды “ollama serve” (для systemd):
# Установить переменные окружения, затем запустить сервер
# сделать ollama доступным на IP-адресе хоста
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Команда Ollama run
Запуск модели:
ollama run gpt-oss:20b
Эта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия. Хотите понять, как Ollama обрабатывает несколько одновременных запросов? Узнайте больше о том, как Ollama обрабатывает параллельные запросы в нашем подробном анализе.
Команда ollama run запускает модель в интерактивной сессии,
поэтому в случае gpt-oss:120b вы увидите что-то вроде
$ ollama run gpt-oss:120b
>>> Отправьте сообщение (/? для помощи)
Вы можете вводить свои вопросы или команды, и модель ответит.
>>> Кто ты?
Размышление...
Пользователь спрашивает "Кто ты?" Простой вопрос. Следует ответить как ChatGPT, языковая модель ИИ, обученная OpenAI и т.д. Предоставить краткое введение. Вероятно, спросить, нужна ли помощь.
...завершено размышление.
Я — ChatGPT, языковая модель ИИ, созданная OpenAI. Я обучен на широком диапазоне текстов, поэтому могу помочь отвечать на вопросы, генерировать идеи, объяснять концепции, писать тексты, устранять неполадки и многое другое. Думайте обо мне как о универсальном виртуальном ассистенте — я здесь, чтобы предоставлять информацию, поддержку и общение, когда это вам нужно. Чем могу помочь сегодня?
>>> Отправьте сообщение (/? для помощи)
Чтобы выйти из интерактивной сессии ollama, нажмите Ctrl+D, или можно ввести /bye, получится то же самое:
>>> /bye
$
Примеры команды Ollama run
Чтобы запустить модель и задать один вопрос в неинтерактивном режиме:
printf "Дайте мне 10 однострочников на bash для анализа логов.\n" | ollama run llama3.2
Если вы хотите увидеть подробный развернутый ответ LLM в сессии ollama — запустите модель с параметром --verbose или -v:
$ ollama run gpt-oss:20b --verbose
>>> Кто ты?
Размышление...
Нам нужно ответить на простой вопрос: "Кто ты?" Пользователь спрашивает "Кто ты?" Мы можем ответить, что мы ChatGPT, большая языковая модель, обученная OpenAI. Мы можем также упомянуть возможности. Пользователь, вероятно, ожидает краткого представления. Мы будем дружелюбны.
...завершено размышление.
Я — ChatGPT, большая языковая модель, созданная OpenAI. Я здесь, чтобы помочь отвечать на вопросы, предлагать объяснения, генерировать идеи и обсуждать широкий спектр тем — от науки и истории до творческого письма и повседневных советов. Просто дайте знать, о чем вы хотите поговорить!
общая продолжительность: 1.118585707s
время загрузки: 106.690543ms
количество токенов оценки запроса: 71 токен(ов)
время оценки запроса: 30.507392ms
скорость оценки запроса: 2327.30 токенов/с
количество токенов оценки: 132 токен(ов)
время оценки: 945.801569ms
скорость оценки: 139.56 токенов/с
>>> /bye
$
Да, это действительно 139 токенов в секунду. Модель gpt-oss:20b очень быстрая. Если у вас, как и у меня, есть GPU с 16ГБ видеопамяти — посмотрите детали сравнения скорости ЛЛМ в Лучшие ЛЛМ для Ollama на GPU с 16ГБ видеопамяти.
Совет: Если вы хотите, чтобы модель была доступна через HTTP для нескольких приложений, запустите сервер с ollama serve и используйте API-клиент вместо длинных интерактивных сессий.
Флаги команды Ollama run (полный справочник)
| Флаг | Описание |
|---|---|
--verbose / -v |
Выводит статистику времени (токены/с, время загрузки и т.д.) после каждого ответа |
-p, --parameters |
Передача параметров модели встроенно без Modelfile (см. ниже) |
--format string |
Принудительное использование определенного формата вывода, например, json |
--nowordwrap |
Отключение автоматического переноса слов — полезно при передаче вывода в скрипты |
--insecure |
Разрешить подключение к реестру через HTTP (для частных/самостоятельно развернутых реестров) |
Переопределение параметров модели без Modelfile (-p / –parameters)
Флаг -p позволяет изменять параметры инференса во время выполнения без создания Modelfile.
Вы можете комбинировать несколько флагов -p:
# Увеличить окно контекста и уменьшить температуру
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Запуск задачи программирования с детерминированным выводом
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Общие параметры, которые можно установить таким образом:
| Параметр | Эффект |
|---|---|
num_ctx |
Размер окна контекста в токенах (по умолчанию зависит от модели, часто 2048–4096) |
temperature |
Случайность: 0 = детерминированный, 1 = креативный |
top_p |
Пороговое значение ядерного выборки |
top_k |
Ограничивает словарь до топ-K токенов |
num_predict |
Максимальное количество токенов для генерации (-1 = неограниченно) |
repeat_penalty |
Штраф за повторяющиеся токены |
Многострочный ввод в REPL
Оберните текст в тройные кавычки (""") для ввода многострочного запроса без преждевременной отправки:
>>> """Суммируйте это в одном предложении:
... Быстрая коричневая лиса прыгает через ленивую собаку.
... Это произошло во вторник.
... """
Мультимодальные модели (изображения)
Для моделей с поддержкой зрения (например, gemma3, llava) передавайте путь к изображению непосредственно в запросе:
ollama run gemma3 "Что на этом изображении? /home/user/screenshot.png"
Генерация вложений через CLI
Модели вложений выводят JSON-массив вместо текста. Передавайте текст непосредственно для быстрого однократного получения вложений:
echo "Hello world" | ollama run nomic-embed-text
Для производственных задач по вложениям используйте REST-конец /api/embeddings или Python-клиент вместо этого.
Принудительный вывод JSON (–format)
ollama run llama3.2 --format json "Список 5 столиц в формате JSON"
Модель инструктируется возвращать корректный JSON. Полезно при передаче вывода в jq или скрипт, ожидающий структурированных данных.
Команда Ollama stop
Эта команда останавливает указанную работающую модель.
ollama stop llama3.1:8b-instruct-q8_0
Ollama автоматически выгружает модели автоматически через некоторое время.
Вы можете указать это время, по умолчанию это 4 минуты.
Если вы не хотите ждать оставшееся время, возможно, вам стоит использовать команду ollama stop.
Вы также можете выгрузить модель из видеопамяти, вызвав конец /generate API с параметром keep_alive=0, см. ниже для описания и примера.
Команда Ollama ps
Команда ollama ps показывает текущие работающие модели и сессии (полезно для отладки “почему моя видеопамять заполнена?”).
ollama ps
Пример вывода ollama ps приведен ниже:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 минуты от сейчас
Здесь на моем ПК модель gpt-oss:20b отлично помещается в 16ГБ видеопамяти моего GPU и занимает только 14ГБ.
Если я выполню ollama run gpt-oss:120b, а затем вызову ollama ps, результат будет не таким радужным:
78% слоев находятся на CPU, и это только с окном контекста 4096 токенов. Это будет больше, если мне нужно увеличить контекст.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 минуты от сейчас
Команда запуска Ollama (интеграции с AI для кодинга)
ollama launch — это команда, представленная в Ollama v0.15 (январь 2026), которая обеспечивает настройку популярных AI-ассистентов для кодинга с нулевой конфигурацией и одной строкой для работы с вашим локальным сервером Ollama.
Почему использовать ollama launch?
До появления ollama launch подключение кодингового агента, такого как Claude Code или Codex, к локальному бэкенду Ollama требовало ручной настройки переменных окружения, указания правильного API-эндпоинта и выбора совместимой модели. ollama launch выполняет все это за вас интерактивно.
Если вы уже используете Ollama локально и хотите агентного кодингового ассистента без оплаты API-запросов и отправки кода в облако, ollama launch — самый быстрый способ это сделать.
Поддерживаемые интеграции
| Интеграция | Что это |
|---|---|
claude |
Кодинговый ассистент Claude от Anthropic |
codex |
Кодинговый ассистент Codex CLI от OpenAI |
droid |
AI-кодинговый агент Factory |
opencode |
Открытый кодинговый ассистент |
Базовое использование
# Интерактивный выбор — выберите интеграцию из меню
ollama launch
# Запуск конкретной интеграции напрямую
ollama launch claude
# Запуск с конкретной моделью
ollama launch claude --model qwen3-coder
# Настройка интеграции без её запуска (полезно для проверки настроек)
ollama launch droid --config
Рекомендуемые модели
Кодинговым агентам требуется длинное окно контекста для хранения контекста всего файла и истории многоходового диалога. Ollama рекомендует модели с не менее 64 000 токенов контекста:
| Модель | Примечания |
|---|---|
qwen3-coder |
Хорошая производительность кодинга, длинный контекст, работает локально |
glm-4.7-flash |
Быстрый локальный вариант |
devstral:24b |
Модель Mistral, ориентированная на кодинг |
Если ваша видеокарта не может вместить модель, Ollama также предлагает облачные варианты (например, qwen3-coder:480b-cloud), которые интегрируются так же, но перенаправляют инференс на облачный уровень Ollama — требуется ollama signin.
Пример: запуск Claude Code локально с Ollama
# 1. Убедитесь, что модель доступна
ollama pull qwen3-coder
# 2. Запустите Claude Code с этой моделью
ollama launch claude --model qwen3-coder
Ollama устанавливает необходимые переменные окружения и запускает Claude Code, указывая на http://localhost:11434 автоматически. Вы можете использовать Claude Code так же, как обычно — единственное отличие в том, что инференс происходит на вашем оборудовании.
Настройки производительности (OLLAMA_NUM_PARALLEL)
Если вы замечаете очередь или таймауты при высокой нагрузке, первым параметром для изучения является OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= количество запросов, которые Ollama выполняет параллельно.- Более высокое значение может увеличить пропускную способность, но может повысить давление на VRAM и вызвать скачки задержки.
Быстрый пример:
OLLAMA_NUM_PARALLEL=2 ollama serve
Для полного объяснения (включая стратегии настройки и сценарии сбоев), см.:
Освобождение модели Ollama из VRAM (keep_alive)
Когда модель загружается в VRAM (память GPU), она остается там даже после завершения её использования. Чтобы явно освободить модель из VRAM и освободить память GPU, вы можете отправить запрос в API Ollama с keep_alive: 0.
- Освобождение модели из VRAM с помощью curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Замените MODELNAME на фактическое имя модели, например:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Освобождение модели из VRAM с помощью Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Это особенно полезно, когда:
- Вам нужно освободить память GPU для других приложений
- Вы запускаете несколько моделей и хотите управлять использованием VRAM
- Вы закончили использовать большую модель и хотите немедленно освободить ресурсы
Примечание: Параметр keep_alive управляет временем (в секундах), в течение которого модель остается загруженной в памяти после последнего запроса. Установка его в 0 немедленно выгружает модель из VRAM.
Настройка моделей Ollama (системный промт, Modelfile)
-
Установка системного промта: В REPL Ollama вы можете установить системный промт для настройки поведения модели:
>>> /set system Для всех вопросов отвечайте простым английским языком, избегая технических терминов по возможности >>> /save ipe >>> /byeЗатем запустите настроенную модель:
ollama run ipeЭто устанавливает системный промт и сохраняет модель для будущего использования.
-
Создание пользовательского файла модели: Создайте текстовый файл (например,
custom_model.txt) со следующей структурой:FROM llama3.1 SYSTEM [Ваши пользовательские инструкции здесь]Затем выполните:
ollama create mymodel -f custom_model.txt ollama run mymodelЭто создает настроенную модель на основе инструкций в файле.
Вход и выход из системы Ollama (аутентификация реестра)
ollama signin
ollama signout
ollama signin аутентифицирует вашу локальную установку Ollama с реестром Ollama на ollama.com. После входа клиент сохраняет учетные данные локально и автоматически использует их для последующих команд.
Что открывает вход:
- Загрузка и отправка приватных моделей из вашего аккаунта или организации.
- Использование облачных моделей (например,
qwen3-coder:480b-cloud), которые слишком велики для локального запуска. - Публикация моделей в реестре с помощью
ollama push.
Альтернатива: аутентификация через API-ключ
Если вы запускаете Ollama в CI-конвейере или на сервере без интерфейса, где интерактивный ollama signin неудобен, создайте API-ключ в настройках вашего аккаунта Ollama и установите его как переменную окружения:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
Переменная OLLAMA_API_KEY автоматически подхватывается каждой командой и API-запросом Ollama — нет необходимости выполнять ollama signin на каждом устройстве.
Использование команды ollama run с файлами (суммирование, перенаправление)
-
Суммирование текста из файла:
ollama run llama3.2 "Суммируйте содержимое этого файла в 50 слов." < input.txtЭта команда суммирует содержимое
input.txtс использованием указанной модели. -
Логирование ответов модели в файл:
ollama run llama3.2 "Расскажите мне о возобновляемой энергии." > output.txtЭта команда сохраняет ответ модели в
output.txt.
Использование Ollama CLI (генерация текста, анализ)
-
Генерация текста:
- Суммирование большого текстового файла:
ollama run llama3.2 "Суммируйте следующий текст:" < long-document.txt - Генерация контента:
ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt - Ответы на конкретные вопросы:
ollama run llama3.2 "Какие последние тенденции в ИИ и как они повлияют на здравоохранение?"
- Суммирование большого текстового файла:
-
Обработка и анализ данных:
- Классификация текста по положительному, отрицательному или нейтральному тону:
ollama run llama3.2 "Проанализируйте тон этого отзыва клиента: 'Продукт отличный, но доставка была медленной.'" - Категоризация текста по заранее определенным категориям: Используйте аналогичные команды для классификации или категоризации текста на основе заранее определенных критериев.
- Классификация текста по положительному, отрицательному или нейтральному тону:
Использование Ollama с Python (клиент и API)
- Установка библиотеки Ollama для Python:
pip install ollama - Генерация текста с помощью Python:
Этот фрагмент кода генерирует текст с использованием указанной модели и промта.
import ollama response = ollama.generate(model='gemma:2b', prompt='что такое кубит?') print(response['response'])
Для продвинутой интеграции с Python см. использование Web Search API Ollama в Python, который охватывает возможности поиска в интернете, вызов инструментов и интеграцию с серверами MCP. Если вы разрабатываете приложения с ИИ, наше сравнение AI Coding Assistants может помочь вам выбрать подходящие инструменты для разработки.
Ищете веб-интерфейс? Open WebUI предоставляет самонастраиваемый интерфейс с возможностями RAG и поддержкой нескольких пользователей. Для высокопроизводительных производственных развертываний рассмотрите vLLM как альтернативу. Чтобы сравнить Ollama с другими вариантами хостинга локальных и облачных LLM-инфраструктур, см. Хостинг LLM: локальные, самонастраиваемые и облачные инфраструктуры сравнены.
Полезные ссылки
Настройка и управление
Альтернативы и сравнения
- Хостинг локальных LLM: полное руководство 2026 года - Ollama, vLLM, LocalAI, Jan, LM Studio и другие
- Быстрый старт с vLLM: высокопроизводительное обслуживание LLM
- Docker Model Runner vs Ollama: что выбрать?
- Первые признаки деградации Ollama
Производительность и оборудование
- Как Ollama обрабатывает параллельные запросы
- Как Ollama использует производительность и эффективные ядра Intel CPU
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: сравнение производительности Ollama
- DGX Spark vs. Mac Studio: практический взгляд на персональный AI-суперкомпьютер NVIDIA с проверкой цен
Интеграция и разработка
- Использование Web Search API Ollama в Python
- Сравнение AI-кодинговых ассистентов
- Open WebUI: самопроизвольный интерфейс LLM
- Открытые чат-интерфейсы для LLM на локальных инстансах Ollama
- Ограничение LLM с помощью структурированного вывода: Ollama, Qwen3 & Python или Go
- Интеграция Ollama с Python: примеры REST API и Python клиента
- SDK для Ollama на Go - сравнение с примерами