Перемещение моделей Ollama в другое расположение

Файлы моделей LLM в Ollama занимают много места

Содержимое страницы

После установки Ollama лучше сразу же перенастроить Ollama для хранения их в новом месте. Таким образом, после загрузки новой модели она не будет скачиваться в старое расположение.

Умная лама в шляпе что-то делает в серверной комнате

Об Ollama

Ollama — это текстовый интерфейс для моделей ИИ с большими языковыми моделями (LLM) и API, способное также их размещать. Для более широкого сравнения Ollama с vLLM, Docker Model Runner, LocalAI и облачными провайдерами, включая компромиссы по стоимости и инфраструктуре, см. Размещение LLM: локальное, самодостаточное и облачное инфраструктурное сравнение.

Установка Ollama

Перейдите на https://ollama.com/download

Для установки Ollama на Linux:

curl -fsSL https://ollama.com/install.sh | sh

Ollama для Windows находится на странице: https://ollama.com/download/windows Ollama для Mac также доступна: https://ollama.com/download/macOllamaSetup.exe

Загрузка, список и удаление моделей Ollama

Для загрузки некоторых моделей Ollama: Перейдите в библиотеку Ollama (https://ollama.com/library) и найдите нужную модель, там же можно найти теги и размеры моделей.

Затем выполните:

ollama pull gemma2:latest

# Или получить немного более умную модель, которая всё ещё хорошо помещается в 16 ГБ VRAM:
ollama pull gemma2:27b-instruct-q3_K_S

# Или: 
ollama pull llama3.1:latest
ollama pull llama3.1:8b-instruct-q8_0
ollama pull mistral-nemo:12b-instruct-2407-q6_K
ollama pull mistral-small:22b-instruct-2409-q4_0
ollama pull phi3:14b-medium-128k-instruct-q6_K
ollama pull qwen2.5:14b-instruct-q5_0

Для проверки моделей, которые Ollama имеет в локальном репозитории:

ollama list

Для удаления ненужной модели:

ollama rm qwen2:7b-instruct-q8_0 # например

Расположение моделей Ollama

По умолчанию файлы моделей хранятся в:

  • Windows: C:\Users%username%.ollama\models
  • Linux: /usr/share/ollama/.ollama/models
  • macOS: ~/.ollama/models

Та же проблема с хранением возникает, когда Ollama работает в контейнерах: вы хотите, чтобы модели и состояние сервера находились в именованном томе или точке монтирования (и при необходимости OLLAMA_MODELS, когда структура должна отличаться от пути по умолчанию /root/.ollama в официальном образе). Для полной конфигурации Compose с резервированием GPU, OLLAMA_HOST, обновлениями и паттернами отката см. Ollama в Docker Compose с GPU и постоянным хранением моделей.

Настройка пути к моделям Ollama в Windows

Для создания переменной окружения в Windows выполните следующие действия:

  • Откройте настройки Windows.
  • Перейдите в систему.
  • Выберите “О системе”.
  • Выберите “Дополнительные настройки системы”.
  • Перейдите на вкладку “Дополнительно”.
  • Выберите “Переменные среды…”.
  • Нажмите “Создать…”.
  • И создайте переменную OLLAMA_MODELS, указывающую на место, где вы хотите хранить модели.

Перемещение моделей Ollama в Linux

Измените параметры службы systemd ollama:

sudo systemctl edit ollama.service

или

sudo xed /etc/systemd/system/ollama.service

Это откроет редактор.

Для каждой переменной окружения добавьте строку Environment в секцию [Service]:

[Service]
Environment="OLLAMA_MODELS=/specialplace/ollama/models"

Сохраните и выйдите.

Также есть параметры Пользователя и Группы, у которых должен быть доступ к этой папке.

Перезагрузите systemd и перезапустите Ollama:

sudo systemctl daemon-reload
sudo systemctl restart ollama

если что-то пошло не так:

systemctl status ollama.service
sudo journalctl -u ollama.service

Накладные расходы при хранении файлов на NTFS

Пожалуйста, имейте в виду, что если вы работаете в Linux и храните модели на разделе с файловой системой NTFS, загрузка ваших моделей будет происходить гораздо медленнее — более чем на 20%.

ntfs.mount использование cpu

Установка Ollama в Windows в конкретную папку

Вместе с моделями:

.\OllamaSetup.exe /DIR=D:\OllamaDir

Публикация API Ollama во внутренней сети

Внутренняя сеть здесь означает локальную сеть.

Добавьте в конфигурацию службы:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Это публикует чистый HTTP API в вашей сети. Для автоматизированного HTTPS, корректного потокового вещания и проксирования WebSocket через Caddy или Nginx, а также для усиления краевых узлов (таймауты, буферизация, опциональная аутентификация перед API), используйте Ollama за обратным прокси с Caddy или Nginx для потокового HTTPS.

Для доступа к Ollama с удаленных устройств без открытия публичных портов используйте частное покрытие (Tailscale) или WireGuard; см. Удаленный доступ к Ollama через Tailscale или WireGuard без публичных портов.

Чтобы узнать, как Ollama вписывается в другие локальные и облачные варианты LLM, ознакомьтесь с нашим руководством Размещение LLM: локальное, самодостаточное и облачное инфраструктурное сравнение.

Полезные ссылки

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.