LLM - Page 2 - Рост Глухов | Персональный сайт и технический блог

Память превращает ассистентов из реактивных в персистентные системы, но именно здесь многие системы тихо деградируют. Исследования показывают, что разделение на кратковременную и долгосрочную память больше не достаточно для современной памяти агентов; OpenAI и SDK LangGraph указывают на более простую архитектуру — рабочую память, персистентное состояние и извлечение данных.

Архитектура ИИ-ассистента: LLM, память, инструменты, маршрутизация, наблюдаемость

Продолжающий работу ИИ-ассистент — это не «языковая модель с промптом». Это система, которая принимает намерения пользователя, сохраняет состояние, принимает решения о том, когда извлекать данные или выполнять действия, и предоставляет достаточно деталей времени выполнения для отладки сбоев.

ИИ для управления знаниями: реальные рабочие процессы, которые работают

Искусственный интеллект не заменяет управление знаниями; он меняет его форму как для отдельных лиц, так и для команд.

OpenClaw против Hermes Agent: звёзды, загрузки и использование в 2026 году

Фреймворки для ИИ-агентов с открытым исходным кодом стремительно набирают популярность на GitHub. Два проекта, являющихся основой экосистемы самохостинговых ИИ-систем — OpenClaw и Hermes Agent — настолько опередили остальных, что вся остальная отрасль борется за отдаленное третье место.

Qwen 3.6 27B и 35B MTP по сравнению со стандартными моделями на GPU с 16 ГБ видеопамяти

Я протестировал производительность спекулятивного декодирования (Multi-Token Prediction, MTP) в моделях Qwen 3.6 27B и 35B на видеокарте RTX 4080 с 16 ГБ видеопамяти (VRAM).

Выгрузка всех моделей маршрутизатора llama.cpp без перезапуска

Режим маршрутизации llama.cpp — одно из самых полезных изменений в llama-server за последние годы. Наконец-то локальным операторам LLM предоставляется опыт управления моделями, близкий к тому, к которому пользователи привыкли в Ollama, при этом сохраняются высокая производительность и низкоуровневый контроль, которые делают llama.cpp стоящими того, чтобы использовать их в первую очередь.

LLM Wiki: систематизированные знания, которые невозможно заменить с помощью RAG

Основная идея проста: скомпилированные знания более пригодны для повторного использования, чем извлеченные фрагменты. RAG стал стандартным ответом на простой вопрос — как предоставить LLM доступ к внешним знаниям?

Валидация структурированного вывода LLM на Python, которая работает надёжно

Большинство руководств по «структурированному выводу» (structured output) для больших языковых моделей (LLM) не обладают должной серьезностью. Они учат вас вежливо просить модель выдавать JSON и затем надеяться, что она поступит правильно. Это не валидация. Это оптимизм, обернутый в фигурные скобки.

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Голосовое управление Hermes с вашего телефона

Вы уже общаетесь с агентом Hermes через телефон, используя текстовые сообщения. Теперь вы хотите говорить с ним напрямую и получать ответы голосом. Как правило, это правильное решение, особенно если вы уже используете Hermes как постоянно работающего автономного ассистента. Ввод длинных подсказок на маленьком экране медленный и подвержен ошибкам.

Канбан в Hermes Agent для самохостинга рабочих процессов LLM

Агент Hermes поставляется с доской в стиле Канбан и шлюзом Hermes Gateway, который может перегрузить вашу локально развернутую модель LLM, если одновременно будет отправлено слишком много задач.

Создание навыков агента Hermes — структура файла SKILL.md и рекомендации по最佳

Hermes Agent рассматривает навыки (skills) как основной способ обучения повторяемым рабочим процессам. В официальной документации они описываются как документы с знаниями, доступные по требованию и соответствующие открытому формату agentskills.io. Они загружаются через механизм постепенного раскрытия (progressive disclosure), благодаря чему модель сначала видит небольшой индекс и извлекает полные инструкции только тогда, когда задача действительно в них нуждается.

Шпаргалка по Hermes Agent CLI: команды, флаги и сокращения с косой чертой

Hermes Agent от Nous Research — это агностичный к модели, использующий инструменты ассистент, который вы можете запускать локально или на VPS.

Практическое руководство NemoClaw по безопасным операциям с OpenClaw в 2026 году

Большинство стеков ИИ-агентов по-прежнему рассматривают безопасность как проблему, которую нужно решать после демонстрации. NemoClaw исходит из противоположного предположения и делает изоляцию, политики и маршрутизацию настройками по умолчанию с первого дня.

Память систем ИИ — устойчивые знания и память агентов

Этот раздел содержит руководства по постоянному хранению знаний и памяти для ИИ-систем — как ассистенты сохраняют факты, предпочтения и сжатый контекст между сеансами, не перегружая один промпт всеми токенами. Здесь под памятью подразумевается осознанное удержание данных (факты о пользователе, резюме, хранилища, поддерживаемые плагинами), а не оперативная память GPU или веса моделей.

Сравнение провайдеров памяти для агентов — Honcho, Mem0, Hindsight и ещё пять

Современные ассистенты по-прежнему забывают всё, когда вы закрываете вкладку, если ничего не сохраняется за пределами окна контекста. Провайдеры памяти агентов — это сервисы или библиотеки, которые хранят факты и резюме между сессиями; они часто подключаются как плагины, чтобы фреймворк оставался легковесным, в то время как память масштабируется.