Шпаргалка по CLI Ollama: команды ls, serve, run, ps и другие (обновление 2026 года)
Обновлённый список команд Ollama — ls, ps, run, serve и др.
Этот шпаргалка по CLI Ollama фокусируется на командах, которые вы используете каждый день (ollama ls, ollama serve, ollama run, ollama ps, управление моделями и типичные рабочие процессы), с примерами, которые можно скопировать и вставить.
Он также включает краткий раздел «параметры производительности», чтобы помочь вам изучить (а затем углубиться) в OLLAMA_NUM_PARALLEL и связанные настройки.

Эта шпаргалка по Ollama сосредоточена на командах CLI, управлении моделями и кастомизации, но здесь также есть несколько вызовов curl.
Чтобы получить полную картину того, где Ollama находится среди локальных, self-hosted и облачных решений — включая vLLM, Docker Model Runner, LocalAI и облачных провайдеров — см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Если вы сравниваете различные решения для локального размещения LLM, ознакомьтесь с нашей подробной сравнительной таблицей Ollama, vLLM, LocalAI, Jan, LM Studio и других. Для тех, кто ищет альтернативы интерфейсу командной строки, Docker Model Runner предлагает другой подход к развертыванию LLM.
Установка Ollama (скачивание и установка через CLI)
- Вариант 1: Скачивание с сайта
- Зайдите на ollama.com и скачайте установщик для вашей операционной системы (Mac, Linux или Windows).
- Вариант 2: Установка через командную строку
- Для пользователей Mac и Linux используйте команду:
curl -fsSL https://ollama.com/install.sh | sh
- Следуйте инструкциям на экране и введите пароль при запросе.
Системные требования Ollama (ОЗУ, хранилище, процессор)
- Операционная система: Mac, Linux или Windows
- Память (ОЗУ): минимум 8 ГБ, рекомендуется 16 ГБ и более
- Хранилище: минимум ~10 ГБ свободного места (файлы моделей могут быть очень большими, см. здесь подробнее Перемещение моделей Ollama на другой диск )
- Процессор: относительно современный процессор (за последние 5 лет). Если вас интересует, как Ollama использует различные архитектуры CPU, см. наш анализ того, как Ollama использует производительные и эффективные ядра Intel CPU.
Для серьезных AI-нагрузок вы можете захотеть сравнить варианты оборудования. Мы протестировали производительность NVIDIA DGX Spark против Mac Studio и RTX-4080 с Ollama, и если вы планируете инвестировать в высокопроизводительное оборудование, наш анализ цен и возможностей DGX Spark предоставляет подробный анализ затрат.
Основные команды CLI Ollama
| Команда | Описание |
|---|---|
ollama serve |
Запускает сервер Ollama (порт по умолчанию 11434). |
ollama run <model> |
Запускает указанную модель в интерактивном REPL. |
ollama pull <model> |
Скачивает указанную модель на вашу систему. |
ollama push <model> |
Загружает модель в реестр Ollama. |
ollama list |
Список всех скачанных моделей. То же самое, что ollama ls. |
ollama ps |
Показывает текущие запущенные (загруженные) модели. |
ollama stop <model> |
Останавливает (разгружает) запущенную модель. |
ollama rm <model> |
Удаляет модель из вашей системы. |
ollama cp <source> <dest> |
Копирует модель под новым именем локально. |
ollama show <model> |
Отображает детали о модели (архитектура, параметры, шаблон и т.д.). |
ollama create <model> |
Создает новую модель из файла Modelfile. |
ollama launch [integration] |
Запуск AI-ассистентов для кодинга без настройки (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Аутентификация в реестре Ollama (включает приватные модели и облачные модели). |
ollama signout |
Выход из реестра Ollama. |
ollama help |
Предоставляет справку по любой команде. |
Якорные ссылки: Команда Ollama serve · Команда Ollama launch · Команда Ollama run · Флаги команды Ollama run · Команда Ollama ps · Команда Ollama show · Вход в систему Ollama signin · Основы CLI Ollama · Параметры производительности (OLLAMA_NUM_PARALLEL) · Глубокий анализ параллельных запросов
CLI Ollama (что это такое)
CLI Ollama — это интерфейс командной строки для управления моделями и их запуска/сервирования локально. Большинство рабочих процессов сводятся к следующему:
- Запустить сервер:
ollama serve - Запустить модель:
ollama run <model> - Посмотреть, что загружено/работает:
ollama ps - Управление моделями:
ollama pull,ollama list,ollama rm
Управление моделями Ollama: команды pull и list
Список моделей:
ollama list
то же самое, что:
ollama ls
Эта команда перечисляет все модели, которые были скачаны на вашу систему, вместе с их размером на вашем жестком диске/SSD, например:
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 недели назад
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 недели назад
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 недели назад
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 недели назад
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 недели назад
qwen3:8b 500a1f067a9f 5.2 GB 5 недель назад
qwen3:14b bdbd181c33f2 9.3 GB 5 недель назад
qwen3:30b-a3b 0b28110b7a33 18 GB 5 недель назад
devstral:24b c4b2fa0c33d7 14 GB 5 недель назад
Скачивание модели: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Эта команда скачивает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на вашу систему. Файлы моделей могут быть довольно большими, поэтому следите за местом, занимаемым моделями на жестком диске или SSD. Вы даже можете захотеть переместить все модели Ollama из домашнего каталога на другой, более крупный и лучший диск
Загрузка модели: ollama push
ollama push my-custom-model
Загружает локальную модель в реестр Ollama, чтобы другие могли её скачать.
Сначала нужно войти в систему (ollama signin), и имя модели должно быть префиксировано вашим пользовательским именем Ollama, например myuser/my-model.
Используйте --insecure, если вы загружаете в приватный реестр через HTTP:
ollama push myuser/my-model --insecure
Копирование модели: ollama cp
ollama cp llama3.2 my-llama3-variant
Создает локальную копию модели под новым именем без повторного скачивания. Это удобно перед редактированием Modelfile — сначала скопируйте, затем кастомизируйте копию и оставьте оригинал нетронутым:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Команда Ollama show
ollama show выводит информацию о скачанной модели.
ollama show qwen3:14b
По умолчанию она выводит карточку модели (архитектура, длина контекста, длина эмбеддинга, квантование и т.д.). Есть три полезных флага:
| Флаг | Что показывает |
|---|---|
--modelfile |
Полный файл Modelfile, использованный для создания модели (строки FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Только блок параметров (например, num_ctx, temperature, токены stop) |
--verbose |
Расширенные метаданные, включая формы тензоров и количество слоев |
# Увидеть точно, с каким системным промптом и шаблоном была создана модель
ollama show deepseek-r1:8b --modelfile
# Проверить размер контекстного окна и другие параметры инференса
ollama show qwen3:14b --parameters
# Полные детали на уровне тензоров (полезно при отладке квантования)
ollama show llama3.2 --verbose
Вывод --modelfile особенно полезен перед кастомизацией модели: вы можете скопировать базовый Modelfile и редактировать его оттуда, вместо того чтобы писать с нуля.
Команда Ollama serve
ollama serve запускает локальный сервер Ollama (порт HTTP по умолчанию 11434).
ollama serve
Команда “ollama serve” (пример, дружественный для systemd):
# установите переменные окружения, затем запустите сервер
# сделайте ollama доступным по IP-адресу хоста
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Команда Ollama run
Запуск модели:
ollama run gpt-oss:20b
Эта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия. Хотите понять, как Ollama управляет несколькими одновременными запросами? Узнайте больше о том, как Ollama обрабатывает параллельные запросы в нашем подробном анализе.
ollama run запускает модель в интерактивной сессии,
поэтому в случае с gpt-oss:120b вы увидите что-то вроде:
$ ollama run gpt-oss:120b
>>> Отправьте сообщение (/? для справки)
Вы можете вводить свои вопросы или команды, и модель ответит.
>>> кто ты?
Thinking...
Пользователь спрашивает "кто ты?" Простой вопрос. Следует ответить как ChatGPT, языковая модель ИИ, обученная OpenAI,
и т.д. Предоставить краткое введение. Вероятно, спросить, нужна ли помощь.
...done thinking.
Я ChatGPT, языковая модель ИИ, созданная OpenAI. Я обучена на широком спектре текстов, поэтому могу помочь
отвечать на вопросы, генерировать идеи, объяснять концепции, писать черновики, решать проблемы и многое другое. Считайте
меня универсальным виртуальным помощником — здесь, чтобы предоставлять информацию, поддержку и общение, когда вам это нужно.
Чем я могу помочь вам сегодня?
>>> Отправьте сообщение (/? для справки)
Чтобы выйти из интерактивной сессии ollama, нажмите Ctrl+D или введите /bye, результат будет тем же:
>>> /bye
$
Примеры команды Ollama run
Чтобы запустить модель и задать один вопрос в неинтерактивном режиме:
printf "Дайте мне 10 однострочных команд bash для анализа логов.\n" | ollama run llama3.2
Если вы хотите увидеть подробный verbose-ответ LLM в сессии ollama — запустите модель с параметром --verbose или -v:
$ ollama run gpt-oss:20b --verbose
>>> кто ты?
Thinking...
Нам нужно ответить на простой вопрос: "кто ты?" Пользователь спрашивает "кто ты?" Мы можем ответить, что
мы ChatGPT, большая языковая модель, обученная OpenAI. Мы также можем упомянуть возможности. Пользователь, вероятно, ожидает
краткого введения. Мы сделаем это дружелюбно.
...done thinking.
Я ChatGPT, большая языковая модель, созданная OpenAI. Я здесь, чтобы помочь отвечать на вопросы, предлагать объяснения,
генерировать идеи и общаться по широкому кругу тем — от науки и истории до креативного письма
и бытовых советов. Просто скажите, о чем вы хотите поговорить!
общая длительность: 1.118585707s
длительность загрузки: 106.690543ms
счётчик оценки промптов: 71 токен(ов)
длительность оценки промптов: 30.507392ms
скорость оценки промптов: 2327.30 токенов/с
счётчик оценки: 132 токен(ов)
длительность оценки: 945.801569ms
скорость оценки: 139.56 токенов/с
>>> /bye
$
Да, это так, 139 токенов в секунду. Модель gpt-oss:20b работает очень быстро. Если у вас, как и у меня, есть GPU с 16 ГБ видеопамяти — посмотрите детали сравнения скорости LLM в Лучшие LLM для Ollama на GPU с 16 ГБ VRAM.
Совет: Если вы хотите, чтобы модель была доступна через HTTP для нескольких приложений, запустите сервер с помощью ollama serve и используйте API-клиент вместо долгих интерактивных сессий.
Флаги команды Ollama run (полная справка)
| Флаг | Описание |
|---|---|
--verbose / -v |
Вывод статистики времени (токенов/сек, время загрузки и т.д.) после каждого ответа |
-p, --parameters |
Передача параметров модели в строке без Modelfile (см. ниже) |
--format string |
Принудительный формат вывода, например json |
--nowordwrap |
Отключить автоматичесую переноску слов — полезно при передаче вывода в скрипты |
--insecure |
Разрешить подключение к реестру через HTTP (для приватных/self-hosted реестров) |
Переопределение параметров модели без Modelfile (-p / –parameters)
Флаг -p позволяет изменять параметры инференса во время выполнения без создания Modelfile.
Вы можете использовать несколько флагов -p:
# Увеличить размер контекстного окна и снизить температуру
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Выполнить задачу по кодингу с детерминированным выводом
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Общие параметры, которые можно установить таким образом:
| Параметр | Эффект |
|---|---|
num_ctx |
Размер контекстного окна в токенах (по умолчанию зависит от модели, часто 2048–4096) |
temperature |
Случайность: 0 = детерминированно, 1 = творчески |
top_p |
Порог ядерной выборки |
top_k |
Ограничивает словарь топ-K токенами |
num_predict |
Максимальное количество токенов для генерации (-1 = без ограничений) |
repeat_penalty |
Штраф за повторение токенов |
Многострочный ввод в REPL
Оставьте текст в тройных кавычках ("""), чтобы ввести многострочный промпт без преждевременной отправки:
>>> """Суммируйте это в одном предложении:
... Быстрая коричневая лиса прыгает через ленивую собаку.
... Это произошло во вторник.
... """
Мультимодальные модели (изображения)
Для моделей со способностью видеть изображения (например, gemma3, llava), передайте путь к изображению прямо в промпте:
ollama run gemma3 "Что на этом изображении? /home/user/screenshot.png"
Генерация эмбеддингов через CLI
Модели эмбеддингов выводят JSON-массив вместо текста. Передайте текст напрямую для быстрых одноразовых эмбеддингов:
echo "Привет, мир" | ollama run nomic-embed-text
Для продакшн-нагрузок по эмбеддингам используйте REST-эндпоинт /api/embeddings или Python-клиент.
Принудительный вывод JSON (–format)
ollama run llama3.2 --format json "Перечислите 5 столиц в формате JSON"
Модель получает инструкцию вернуть валидный JSON. Полезно при передаче вывода в jq или скрипт, ожидающий структурированные данные.
Команда Ollama stop
Эта команда останавливает указанную запущенную модель.
ollama stop llama3.1:8b-instruct-q8_0
Ollama автоматически разгружает модели автоматически через некоторое время.
Вы можете указать это время, по умолчанию 4 минуты.
Если вы не хотите ждать оставшееся время, вы можете использовать эту команду ollama stop.
Вы также можете выгнать модель из VRAM, вызвав эндпоинт API /generate с параметром keep_alive=0, см. ниже описание и пример.
Команда Ollama ps
ollama ps показывает текущие запущенные модели и сессии (полезно для отладки «почему моя VRAM полна?»).
ollama ps
Пример вывода ollama ps ниже:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 через 4 минуты
Вы видите здесь на моем ПК, что gpt-oss:20b отлично вписывается в 16 ГБ VRAM моего GPU и занимает только 14 ГБ.
Если я выполню ollama run gpt-oss:120b и затем вызову ollama ps, результат будет не таким радостным:
78% слоев находятся на CPU, и это только при контекстном окне 4096 токенов. Это будет еще больше, если мне нужно увеличить контекст.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 через 4 минуты
Команда Ollama launch (интеграции с AI для кодинга)
ollama launch — это команда, введенная в Ollama v0.15 (январь 2026), которая дает вам настройку без конфигурации и в одну строку для популярных AI-ассистентов для кодинга, работающих с вашим локальным сервером Ollama.
Зачем использовать ollama launch?
До ollama launch, настройка агента для кодинга, такого как Claude Code или Codex, для локального бэкенда Ollama означала ручную установку переменных окружения, указание инструмента на правильный API-эндпоинт и выбор совместимой модели. ollama launch делает все это за вас интерактивно.
Если вы уже запускаете Ollama локально и хотите агентского ассистента для кодинга без оплаты API-вызовов или отправки кода в облако, ollama launch — это самый быстрый путь.
Поддерживаемые интеграции
| Интеграция | Что это |
|---|---|
claude |
Claude Code от Anthropic — агентский ассистент для кодинга |
codex |
Код-ассистент Codex от OpenAI |
droid |
AI-агент для кодинга от Factory |
opencode |
Открытый ассистент для кодинга |
Базовое использование
# Интерактивный выборщик — выберите интеграцию из меню
ollama launch
# Запустить конкретную интеграцию напрямую
ollama launch claude
# Запустить с конкретной моделью
ollama launch claude --model qwen3-coder
# Конфигурировать интеграцию без запуска (полезно для проверки настроек)
ollama launch droid --config
Рекомендуемые модели
Агентам для кодинга нужно большое контекстное окно для хранения контекста целых файлов и истории многоходовых разговоров. Ollama рекомендует модели с контекстом минимум 64 000 токенов:
| Модель | Примечания |
|---|---|
qwen3-coder |
Сильная производительность в кодинге, большой контекст, работает локально |
glm-4.7-flash |
Быстрый локальный вариант |
devstral:24b |
Модель Mistral, ориентированная на кодинг |
Если ваш GPU не может вместить модель, Ollama также предлагает облачные варианты (например, qwen3-coder:480b-cloud), которые интегрируются так же, но направляют инференс в облачный уровень Ollama — требуется ollama signin.
Пример: запуск Claude Code локально с Ollama
# 1. Убедитесь, что модель доступна
ollama pull qwen3-coder
# 2. Запустите Claude Code против неё
ollama launch claude --model qwen3-coder
Ollama устанавливает необходимые переменные окружения и запускает Claude Code, указывая на http://localhost:11434 автоматически.
Затем вы можете использовать Claude Code точно так же, как обычно — единственная разница в том, что инференс происходит на вашем собственном оборудовании.
Параметры производительности (OLLAMA_NUM_PARALLEL)
Если вы видите очередь или таймауты при нагрузке, первый параметр, который нужно изучить, — OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= сколько запросов Ollama выполняет параллельно.- Более высокое значение может увеличить пропускную способность, но может увеличить давление на VRAM и пики задержки.
Быстрый пример:
OLLAMA_NUM_PARALLEL=2 ollama serve
Для полного объяснения (включая стратегии настройки и режимы отказа), см.:
Освобождение модели Ollama из VRAM (keep_alive)
Когда модель загружается в VRAM (память GPU), она остается там даже после того, как вы закончили с ней работать. Чтобы явно освободить модель из VRAM и высвободить память GPU, вы можете отправить запрос в API Ollama с keep_alive: 0.
- Освободить модель из VRAM с помощью curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Замените MODELNAME на ваше фактическое имя модели, например:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Освободить модель из VRAM с помощью Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Это особенно полезно, когда:
- Вам нужно освободить память GPU для других приложений
- Вы запускаете несколько моделей и хотите управлять использованием VRAM
- Вы закончили использовать большую модель и хотите немедленно освободить ресурсы
Примечание: Параметр keep_alive контролирует, как долго (в секундах) модель остается загруженной в памяти после последнего запроса. Установка его в 0 немедленно разгружает модель из VRAM.
Если вы предпочитаете полностью избежать абстракционного слоя Ollama и хотите прямой контроль над тем, какая GGUF-модель резидентна в любой момент, режим роутера llama-server охватывает нативный подход llama.cpp к динамическому переключению моделей.
Кастомизация моделей Ollama (системный промпт, Modelfile)
-
Установка системного промпта: Внутри REPL Ollama вы можете установить системный промпт для кастомизации поведения модели:
>>> /set system Для всех вопросов отвечай на простом английском языке, избегая технического жаргона насколько это возможно >>> /save ipe >>> /byeЗатем запустите кастомизированную модель:
ollama run ipeЭто устанавливает системный промпт и сохраняет модель для будущего использования.
-
Создание кастомного файла модели: Создайте текстовый файл (например,
custom_model.txt) со следующей структурой:FROM llama3.1 SYSTEM [Ваши кастомные инструкции здесь]Затем выполните:
ollama create mymodel -f custom_model.txt ollama run mymodelЭто создает кастомизированную модель на основе инструкций в файле.
Вход и выход из системы Ollama (аутентификация реестра)
ollama signin
ollama signout
ollama signin аутентифицирует вашу локальную установку Ollama в реестре Ollama на ollama.com. После входа клиент хранит учётные данные локально и автоматически использует их для последующих команд.
Что разблокирует signin:
- Скачивание и загрузка приватных моделей из вашего аккаунта или организации.
- Использование облачных моделей (например,
qwen3-coder:480b-cloud), которые слишком велики для локального запуска. - Публикация моделей в реестр с помощью
ollama push.
Альтернатива: аутентификация через API-ключ
Если вы запускаете Ollama в CI-конвейере или на безголовом сервере, где интерактивный ollama signin непрактичен, создайте API-ключ в настройках вашего аккаунта Ollama и экспортируйте его как переменную окружения:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
Переменная OLLAMA_API_KEY автоматически подхватывается каждой командой Ollama и API-запросом — нет необходимости выполнять ollama signin на каждой машине.
Использование команды Ollama run с файлами (суммирование, перенаправление)
-
Суммирование текста из файла:
ollama run llama3.2 "Суммируйте содержимое этого файла в 50 словах." < input.txtЭта команда суммирует содержимое
input.txt, используя указанную модель. -
Запись ответов модели в файл:
ollama run llama3.2 "Расскажи мне о возобновляемой энергии." > output.txtЭта команда сохраняет ответ модели в
output.txt.
Сценарии использования CLI Ollama (генерация текста, анализ)
-
Генерация текста:
- Суммирование большого текстового файла:
ollama run llama3.2 "Суммируйте следующий текст:" < long-document.txt - Генерация контента:
ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt - Ответы на конкретные вопросы:
ollama run llama3.2 "Каковы последние тренды в ИИ, и как они повлияют на здравоохранение?"
- Суммирование большого текстового файла:
-
Обработка и анализ данных:
- Классификация текста на позитивный, негативный или нейтральный сентимент:
ollama run llama3.2 "Проанализируйте сентимент этого отзыва клиента: 'Продукт фантастический, но доставка была медленной.'" - Категоризация текста в предопределенные категории: Используйте аналогичные команды для классификации или категоризации текста на основе предопределенных критериев.
- Классификация текста на позитивный, негативный или нейтральный сентимент:
Использование Ollama с Python (клиент и API)
- Установка библиотеки Python Ollama:
pip install ollama - Генерация текста с помощью Python:
Этот фрагмент кода генерирует текст, используя указанную модель и промпт.
import ollama response = ollama.generate(model='gemma:2b', prompt='что такое кубит?') print(response['response'])
Для продвинутой интеграции с Python, изучите использование API веб-поиска Ollama в Python, который охватывает возможности веб-поиска, вызов инструментов и интеграцию с серверами MCP. Если вы строите приложения с ИИ, наше сравнение AI-ассистентов для кодинга поможет вам выбрать правильные инструменты для разработки.
Ищете веб-интерфейс? Open WebUI предоставляет self-hosted интерфейс с возможностями RAG и поддержкой нескольких пользователей. Для высокопроизводительных продакшн-развертываний рассмотрите vLLM как альтернативу. Чтобы сравнить Ollama с другими локальными и облачными вариантами инфраструктуры LLM, см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Полезные ссылки
Конфигурация и управление
Альтернативы и сравнения
- Локальное размещение LLM: полное руководство 2026 — Ollama, vLLM, LocalAI, Jan, LM Studio и другие
- Быстрый старт vLLM: высокопроизводительное обслуживание LLM
- Docker Model Runner против Ollama: что выбрать?
- Первые признаки «эншитификации» Ollama
Производительность и оборудование
- Как Ollama обрабатывает параллельные запросы
- Как Ollama использует производительные и эффективные ядра Intel CPU
- NVIDIA DGX Spark против Mac Studio против RTX-4080: сравнение производительности Ollama
- DGX Spark против Mac Studio: практический взгляд на цены и возможности персонального суперкомпьютера ИИ от NVIDIA
Интеграция и разработка
- Использование API веб-поиска Ollama в Python
- Сравнение AI-ассистентов для кодинга
- Open WebUI: self-hosted интерфейс LLM
- Открытые интерфейсы чата для LLM на локальных инстансах Ollama
- Ограничение LLM структурированным выводом: Ollama, Qwen3 и Python или Go
- Интеграция Ollama с Python: примеры REST API и Python-клиента
- SDK на Go для Ollama — сравнение с примерами