AI - Рост Глухов | Персональный сайт и технический блог

Режим маршрутизации Llama-Server — динамическое переключение моделей без перезапуска

Долгое время у llama.cpp была явная ограничение:
можно было обслуживать только одну модель на процесс, и для переключения требовался перезапуск.

Навыки ассистента Hermes AI для реальных производственных окружений

Hermes AI assistant, официально задокументированный как Hermes Agent, позиционируется не как простое обертывание чата.

Экосистема навыков OpenClaw и практические решения для разработки

У OpenClaw есть два типа расширений, которые легко перепутать.

Плагины расширяют среду выполнения. Навыки (skills) расширяют поведение агента.

Плагины OpenClaw — руководство по экосистеме и практические рекомендации

Эта статья посвящена плагинам OpenClaw — нативным пакетам шлюза, которые добавляют каналы, провайдеры моделей, инструменты, речевые функции, память, медиа, веб-поиск и другие возможности runtime.

Шаблоны настройки OpenClaw Production с плагинами и навыками

OpenClaw выглядит просто в демонстрациях. В продакшене он становится системой.

Anthropic закрывает лазейку в Claude для агентских инструментов

Тихий лазейка, который стал двигателем волны экспериментов с агентами, теперь закрыт.

Быстрый старт с Vane (Perplexica 2.0), Ollama и llama.cpp

Vane — это один из наиболее прагматичных проектов в пространстве «поиска с использованием ИИ и цитированием»: самохостинговое средство ответов, которое сочетает в себе живой поиск в вебе с локальными или облачными LLM, сохраняя при этом полный контроль над всем стеком технологий.

Установка и настройка Claude Code для Ollama, llama.cpp, ценообразование

Claude Code — это не автодополнение с лучшим маркетингом. Это агентский инструмент для разработки: он анализирует ваш код, редактирует файлы, выполняет команды и интегрируется с инструментами разработки.

Hermes AI Assistant — установка, настройка, рабочая среда и устранение неполадок

Hermes Agent — это автономный, не привязанный к конкретной модели AI-ассистент, который работает на локальном компьютере или недорогом VPS, взаимодействует через терминал и интерфейсы обмена сообщениями, а также совершенствуется со временем, превращая повторяющиеся задачи в переиспользуемые навыки.

TGI — Text Generation Inference: установка, настройка и устранение неполадок

Text Generation Inference (TGI) обладает очень специфической энергетикой. Это не самый новый проект на улице инференса, но это тот, который уже научился, как происходит работа в продакшене, —

Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)

Здесь я сравниваю скорость нескольких больших языковых моделей (LLM), работающих на видеокарте с 16 ГБ видеопамяти, и выбираю лучшую для локального развертывания.

Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей

Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.

Ollama за обратным прокси-сервером Caddy или Nginx для потоковой передачи через HTTPS

Запуск Ollama через обратный прокси — самый простой способ обеспечить поддержку HTTPS, опциональный контроль доступа и предсказуемое поведение потоковой передачи данных.

Быстрый старт SGLang: установка, настройка и развертывание больших языковых моделей через API OpenAI

SGLang — это высокопроизводительный фреймворк для развертывания больших языковых и мультимодальных моделей, созданный для обеспечения низколатентного и высокопроизводительного вывода на устройствах от одной GPU до распределенных кластеров.

Быстрый старт: переключатель моделей llama.swap для локальных LLM, совместимых с OpenAI

Вскоре вы будете жонглировать vLLM, llama.cpp и другими решениями — каждый стек на своем порту. Все downstream-системы все еще хотят один базовый URL /v1; иначе вы постоянно переставляете порты, профили и одноразовые скрипты. llama-swap — это прокси /v1 перед этими стеками.

Системы искусственного интеллекта: самостоятельно размещаемые ассистенты, RAG и локальная инфраструктура

Большинство локальных установок искусственного интеллекта начинаются с модели и среды выполнения.