Чат-платформы как системные интерфейсы в современных системах

Чат-платформы как системные интерфейсы в современных системах

Чат-платформы в качестве контрольных плоскостей для систем

Платформы для чатов эволюционировали далеко за пределы простых инструментов обмена сообщениями. В современных системах они функционируют как интерфейсы между автоматизированными процессами и человеческим принятием решений.

Архитектура приложения в продакшене: паттерны интеграции, дизайн кода и доступ к данным

Архитектура приложения в продакшене: паттерны интеграции, дизайн кода и доступ к данным

Шаблоны для интеграций, структуры кода и доступа к данным.

Большинство советов по архитектуре приложений либо слишком абстрактны для практического применения, либо слишком узкоспециализированы для масштабирования. Ниже представлены практические компромиссы для систем промышленного уровня в аспектах интеграции, структуры кода и доступа к данным.

Быстрый старт с Vane (Perplexica 2.0), Ollama и llama.cpp

Быстрый старт с Vane (Perplexica 2.0), Ollama и llama.cpp

Самохостинг AI-поиска с локальными LLM

Vane — это один из наиболее прагматичных проектов в пространстве «поиска с использованием ИИ и цитированием»: самохостинговое средство ответов, которое сочетает в себе живой поиск в вебе с локальными или облачными LLM, сохраняя при этом полный контроль над всем стеком технологий.

Установка и настройка Claude Code для Ollama и llama.cpp, а также тарифы

Установка и настройка Claude Code для Ollama и llama.cpp, а также тарифы

Агентное кодирование, теперь с локальными моделями

Claude Code — это не просто автодополнение с лучшей маркетинговой упаковкой. Это агентный инструмент для программирования: он анализирует вашу кодовую базу, редактирует файлы, выполняет команды и интегрируется с вашими инструментами разработки.

Hermes AI Assistant: установка, настройка, рабочий процесс и устранение неполадок

Hermes AI Assistant: установка, настройка, рабочий процесс и устранение неполадок

Установка и быстрое начало работы с агентом Hermes для разработчиков

Hermes Agent — это локальный, независимый от модели ИИ-ассистент, который работает на локальной машине или на недорогом VPS, взаимодействует через терминал и мессенджеры, а со временем улучшает свои навыки, превращая повторяющиеся задачи в переиспользуемые умения.

TGI — Text Generation Inference: установка, настройка и устранение неполадок

TGI — Text Generation Inference: установка, настройка и устранение неполадок

Установите TGI, развертывайте быстро, отлаживайте ещё быстрее.

Text Generation Inference (TGI) обладает очень специфической энергетикой. Это не самый новый проект на улице инференса, но это тот, который уже научился, как происходит работа в продакшене, —

Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)

Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)

скорость обработки токенов llama.cpp на 16 ГБ VRAM (таблицы).

В этом посте я сравниваю скорость работы нескольких больших языковых моделей (LLM) на GPU с 16 ГБ видеопамяти (VRAM) и выбираю лучшую для самостоятельного хостинга.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Удалённый доступ к Ollama через Tailscale или WireGuard без открытия публичных портов.

Доступ к Ollama удаленно без открытых публичных портов

Ollama чувствует себя наиболее комфортно, когда с ним обращаются как с локальным демоном: CLI и ваши приложения взаимодействуют с локальным HTTP-интерфейсом (loopback), а остальная сеть даже не знает о его существовании.

Структурированное логирование в Go с использованием slog для наблюдаемости и оповещений

Структурированное логирование в Go с использованием slog для наблюдаемости и оповещений

Запросимые JSON-логи, связанные с трассировками.

Логи — это интерфейс отладки, который всё ещё можно использовать, когда система горит. Проблема в том, что обычные текстовые логи со временем становятся неэффективными: как только вам понадобится фильтрация, агрегация и оповещения, вы начинаете разбирать предложения по словам.

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama-сервер с приоритетом композинга, поддержкой GPU и сохранением состояния.

Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

HTTPS для Ollama без нарушения потоковой передачи ответов.

Запуск Ollama через обратный прокси — самый простой способ обеспечить поддержку HTTPS, опциональный контроль доступа и предсказуемое поведение потоковой передачи данных.

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Встраивания для RAG — Python, Ollama, API OpenAI.

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).

Netlify для Hugo и статических сайтов: тарифы, бесплатный план и альтернативы

Netlify для Hugo и статических сайтов: тарифы, бесплатный план и альтернативы

Развёртывание на базе Git, CDN, кредиты и компромиссы.

Netlify — один из самых удобных для разработчиков способов публикации сайтов на Hugo и современных веб-приложений с использованием рабочего процесса промышленного уровня: превью по URL для каждого запроса на слияние (pull request), атомарные развертывания, глобальная CDN, а также опциональные возможности бессерверных вычислений и логика на границе сети (edge).

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.