Self-Hosting

Podman Quadlet и Docker Compose для Linux-сервисов

Docker Compose и Podman Quadlet решают пересекающиеся задачи, но исходят из разных принципов проектирования, и выбор между ними зависит от того, думаете ли вы в терминах стеков приложений или системных сервисов Linux.

Запуск Docker Compose как службы Linux с помощью systemd

Docker Compose на Linux-сервере должен запускаться при загрузке, корректно останавливаться при выключении и переживать перезагрузки без ручного вмешательства.

Установка Docker на Ubuntu: APT, Snap, Rootless — полное руководство 2026

Установка Docker на Ubuntu должна быть простой, но на практике несколько вариантов установки Docker конкурируют за одно и то же имя команды, каждый из которых имеет различную упаковку, поведение при обновлении и последствия для безопасности.

Устранение неполадок APT в Ubuntu: исправление сломанных пакетов, блокировок и ошибок GPG

Неудачи с APT — обычное явление на машинах с Ubuntu, которые используются длительное время. Они обычно возникают после обновления версии, изменения стороннего репозитория, удаления PPA, ручной установки пакета .deb или прерванного процесса установки пакетов.

Выгрузка всех моделей маршрутизатора llama.cpp без перезапуска

Режим маршрутизации llama.cpp — одно из самых полезных изменений в llama-server за последние годы. Наконец-то локальным операторам LLM предоставляется опыт управления моделями, близкий к тому, к которому пользователи привыкли в Ollama, при этом сохраняются высокая производительность и низкоуровневый контроль, которые делают llama.cpp стоящими того, чтобы использовать их в первую очередь.

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Голосовое управление Hermes с вашего телефона

Вы уже общаетесь с агентом Hermes через телефон, используя текстовые сообщения. Теперь вы хотите говорить с ним напрямую и получать ответы голосом. Как правило, это правильное решение, особенно если вы уже используете Hermes как постоянно работающего автономного ассистента. Ввод длинных подсказок на маленьком экране медленный и подвержен ошибкам.

Практическое руководство NemoClaw по безопасным операциям с OpenClaw в 2026 году

Большинство стеков ИИ-агентов по-прежнему рассматривают безопасность как проблему, которую нужно решать после демонстрации. NemoClaw исходит из противоположного предположения и делает изоляцию, политики и маршрутизацию настройками по умолчанию с первого дня.

Управление знаниями в 2026 году: инструменты PKM, самохостинговые вики и цифровые системы

Управление персональными знаниями охватывает Obsidian, Logseq, DokuWiki, Zettelkasten и PARA — правильный выбор зависит от того, хотите ли вы локальный граф заметок, собственный вики-движок или рабочий процесс, основанный на аутлайнерах.

Claude, OpenClaw и конец эпохи фиксированного ценообразования для агентов

Тихая лазейка, подпитывавшая волну экспериментов с агентами, теперь закрыта.

Быстрый старт с Vane (Perplexica 2.0), Ollama и llama.cpp

Vane — это один из наиболее прагматичных проектов в пространстве «поиска с использованием ИИ и цитированием»: самохостинговое средство ответов, которое сочетает в себе живой поиск в вебе с локальными или облачными LLM, сохраняя при этом полный контроль над всем стеком технологий.

TGI — Text Generation Inference: установка, настройка и устранение неполадок

Text Generation Inference (TGI) обладает очень специфической энергетикой. Это не самый новый проект на улице инференса, но это тот, который уже научился, как происходит работа в продакшене, —

Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)

В этом посте я сравниваю скорость работы нескольких больших языковых моделей (LLM) на GPU с 16 ГБ видеопамяти (VRAM) и выбираю лучшую для самостоятельного хостинга.

RTX 5090 в Австралии: цены, наличие и реальное положение дел в марте 2026 года

В Австралии есть в наличии RTX 5090. Вроде бы. И если вам повезет ее найти, вы заплатите премию, оторванную от реальности.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Ollama чувствует себя наиболее комфортно, когда с ним обращаются как с локальным демоном: CLI и ваши приложения взаимодействуют с локальным HTTP-интерфейсом (loopback), а остальная сеть даже не знает о его существовании.

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.