Рост Глухов | Персональный сайт и технический блог

Hermes AI Assistant — установка, настройка, рабочая среда и устранение неполадок

Hermes Agent — это автономный, не привязанный к конкретной модели AI-ассистент, который работает на локальном компьютере или недорогом VPS, взаимодействует через терминал и интерфейсы обмена сообщениями, а также совершенствуется со временем, превращая повторяющиеся задачи в переиспользуемые навыки.

TGI — Text Generation Inference: установка, настройка и устранение неполадок

Text Generation Inference (TGI) обладает очень специфической энергетикой. Это не самый новый проект на улице инференса, но это тот, который уже научился, как происходит работа в продакшене, —

Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)

Здесь я сравниваю скорость нескольких больших языковых моделей (LLM), работающих на видеокарте с 16 ГБ видеопамяти, и выбираю лучшую для локального развертывания.

RTX 5090 в Австралии: цены, наличие и реальное положение дел в марте 2026 года

В Австралии есть в наличии RTX 5090. Вроде бы. И если вам повезет ее найти, вы заплатите премию, оторванную от реальности.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Ollama чувствует себя наиболее комфортно, когда с ним обращаются как с локальным демоном: CLI и ваши приложения взаимодействуют с локальным HTTP-интерфейсом (loopback), а остальная сеть даже не знает о его существовании.

Структурированное логирование в Go с использованием slog для наблюдаемости и оповещений

Логи — это интерфейс отладки, который всё ещё можно использовать, когда система горит. Проблема в том, что обычные текстовые логи со временем становятся неэффективными: как только вам понадобится фильтрация, агрегация и оповещения, вы начинаете разбирать предложения по словам.

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

Запуск Ollama через обратный прокси — самый простой способ обеспечить поддержку HTTPS, опциональный контроль доступа и предсказуемое поведение потоковой передачи данных.

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).

Netlify для Hugo и статических сайтов: тарифы, бесплатный план и альтернативы

Netlify — один из самых удобных для разработчиков способов публикации сайтов на Hugo и современных веб-приложений с использованием рабочего процесса промышленного уровня: превью по URL для каждого запроса на слияние (pull request), атомарные развертывания, глобальная CDN, а также опциональные возможности бессерверных вычислений и логика на границе сети (edge).

Apache Flink на K8s и Kafka: PyFlink, Go, эксплуатация и управляемое ценообразование

Apache Flink — это фреймворк для вычислений с сохранением состояния над ограниченным и неограниченным потоками данных.

Графовая база данных Neo4j для GraphRAG: установка, Cypher, векторы, операции.

Neo4j — это то, что вы выбираете, когда связи и есть данные. Если ваша предметная область выглядит как доска с кружками и стрелками, то попытка запихнуть её в таблицы будет болезненной.

Что такое IndexNow: уведомляйте поисковые системы при публикации контента

Статические сайты и блоги меняются при каждой деплойке. Поисковые системы, поддерживающие IndexNow, могут узнать об этих изменениях, не дожидаясь следующего слепого сканирования.

Сравнение хостинга электронной почты для собственных доменов: Workspace, Microsoft 365, Zoho, Proton, WorkMail

Настройка электронной почты на собственном домене звучит как задача на выходные с DNS. На практике же это небольшая распределённая система с двадцатилетней историей.

Быстрый старт SGLang: установка, настройка и развертывание больших языковых моделей через API OpenAI

SGLang — это высокопроизводительный фреймворк для развертывания больших языковых и мультимодальных моделей, созданный для обеспечения низколатентного и высокопроизводительного вывода на устройствах от одной GPU до распределенных кластеров.

Быстрый старт: переключатель моделей llama.swap для локальных LLM, совместимых с OpenAI

Вскоре вы будете жонглировать vLLM, llama.cpp и другими решениями — каждый стек на своем порту. Все downstream-системы все еще хотят один базовый URL /v1; иначе вы постоянно переставляете порты, профили и одноразовые скрипты. llama-swap — это прокси /v1 перед этими стеками.

Подписаться