Рост Глухов | Персональный сайт и технический блог

Оптимизация затрат для систем LLM: куда на самом деле уходит деньги

Стоимость использования больших языковых моделей (LLM) растет линейно в зависимости от объема запросов. Система, обрабатывающая 10 000 запросов в день по цене $0,01 за запрос, обходится в $100 ежедневно — это $365 в год. В корпоративном масштабе эта сумма превышает $10 000.

Маршрутизация моделей: перестаньте использовать одну модель для всего

Запуск модели с 70 миллиардами параметров для суммаризации электронного письма из 200 слов — это расточительство. Запуск модели с 3 миллиардами параметров для ревью продакшн-кода — это безрассудство. Большинство систем находятся где-то посередине, и именно здесь в игру вступает роутинг моделей (маршрутизация запросов).

LLM Guardrails на практике: что действительно работает

Языковые модели (LLM) непредсказуемы. Они галлюцинируют, утекают данные, генерируют вредоносный контент или отказывают в выполнению легитимных запросов. Ограничители (guardrails) constraining поведение модели без ущерба для её возможностей.

Память превращает ассистентов из реактивных в персистентные системы, но именно здесь многие системы тихо деградируют. Исследования показывают, что разделение на кратковременную и долгосрочную память больше не достаточно для современной памяти агентов; OpenAI и SDK LangGraph указывают на более простую архитектуру — рабочую память, персистентное состояние и извлечение данных.

Архитектура ИИ-ассистента: LLM, память, инструменты, маршрутизация, наблюдаемость

Продолжающий работу ИИ-ассистент — это не «языковая модель с промптом». Это система, которая принимает намерения пользователя, сохраняет состояние, принимает решения о том, когда извлекать данные или выполнять действия, и предоставляет достаточно деталей времени выполнения для отладки сбоев.

ИИ для управления знаниями: реальные рабочие процессы, которые работают

Искусственный интеллект не заменяет управление знаниями; он меняет его форму как для отдельных лиц, так и для команд.

Цеттелькастен для разработчиков: практический метод, который работает

Разработчики обычно не страдают от нехватки информации. Напротив, они страдают от ее избытка.

OpenClaw против Hermes Agent: звёзды, загрузки и использование в 2026 году

Фреймворки для ИИ-агентов с открытым исходным кодом стремительно набирают популярность на GitHub. Два проекта, являющихся основой экосистемы самохостинговых ИИ-систем — OpenClaw и Hermes Agent — настолько опередили остальных, что вся остальная отрасль борется за отдаленное третье место.

Qwen 3.6 27B и 35B MTP по сравнению со стандартными моделями на GPU с 16 ГБ видеопамяти

Я протестировал производительность спекулятивного декодирования (Multi-Token Prediction, MTP) в моделях Qwen 3.6 27B и 35B на видеокарте RTX 4080 с 16 ГБ видеопамяти (VRAM).

Выгрузка всех моделей маршрутизатора llama.cpp без перезапуска

Режим маршрутизации llama.cpp — одно из самых полезных изменений в llama-server за последние годы. Наконец-то локальным операторам LLM предоставляется опыт управления моделями, близкий к тому, к которому пользователи привыкли в Ollama, при этом сохраняются высокая производительность и низкоуровневый контроль, которые делают llama.cpp стоящими того, чтобы использовать их в первую очередь.

Получение данных против репрезентации в системах знаний

Большинство современных систем знаний оптимизируют процесс поиска, и это вполне понятно. Поиск нагляден, его легко продемонстрировать, и он кажется магией, когда работает. Введи вопрос — получи ответ.

LLM Wiki: систематизированные знания, которые невозможно заменить с помощью RAG

Основная идея проста: скомпилированные знания более пригодны для повторного использования, чем извлеченные фрагменты. RAG стал стандартным ответом на простой вопрос — как предоставить LLM доступ к внешним знаниям?

PKM, RAG, Wiki и системы памяти: чёткое объяснение

PKM, RAG, вики, системы памяти ИИ и сейчас практические рабочие процессы с помощью ИИ часто обсуждаются так, будто они решают одну и ту же проблему. Это не так. Все они имеют дело с знаниями, но работают на разных уровнях:

«Вторая голова. Объяснение для инженеров и работников интеллектуального труда»

Информационная перегрузка связана не столько с огромным объемом данных, сколько с нерешенными входящими потоками информации. Современная интеллектуальная работа оставляет за собой след из открытых вкладок, чатов, документов, выделенных фрагментов, цитат, транскриптов, скриншотов и недописанных заметок.

Валидация структурированного вывода LLM на Python, которая работает надёжно

Большинство руководств по «структурированному выводу» (structured output) для больших языковых моделей (LLM) не обладают должной серьезностью. Они учат вас вежливо просить модель выдавать JSON и затем надеяться, что она поступит правильно. Это не валидация. Это оптимизм, обернутый в фигурные скобки.

Справочник по параметрам агентного вывода LLM для Qwen и Gemma

Эта страница представляет собой практическое руководство по настройке агентов на базе LLM (температура, top_p, top_k, штрафы и их взаимодействие в многоступенчатых рабочих процессах с интенсивным использованием инструментов).

Подписаться