LLM - Рост Глухов | Персональный сайт и технический блог

Обслуживание LLM Wiki: дрейф, противоречия и рецензирование

Неудача в использовании LLM Wiki наступает тогда, когда старые факты остаются правдоподобными, противоречия становятся гладкими, а сгенерированные резюме отдаляются от своих источников.

GPU для ИИ в 2026 году: сравнение NVIDIA, AMD и Intel

Ландшафт аппаратных решений для ИИ значительно изменился в 2026 году: NVIDIA, AMD и Intel соревнуются за разработчиков, которым требуются GPU, способные запускать локальные большие языковые модели (LLM) и выполнять задачи инференса.

Безопасность агентов A2A и MCP: идентификация, делегирование и журналы аудита

Инъекция промптов привлекает основное внимание в области безопасности систем на базе больших языковых моделей (LLM), и это заслужено, но это не вся проблема, когда агенты начинают вызывать инструменты и делегировать работу другим агентам.

Большинство демонстраций AI-агентов по-прежнему ведут себя как чат-завершения с дополнительными шагами: вы отправляете промпт, ждете несколько секунд и получаете ответ в одном сообщении.

Спекулятивное декодирование: ускорение вывода LLM на 20–50%

Модель объемом 70 миллиардов параметров генерирует один токен за один прямой проход, и при каждом проходе веса перезагружаются из видеопамяти (VRAM), вычисляется внимание (attention) по всему контексту и синхронизируется память. Между токенами GPU простаивает, ожидая разрешения последовательных зависимостей.

Что такое разработка на основе спецификаций? Спецификация как источник истины

Разработка, управляемая спецификациями, — это одна из тех идей, к которой инженеры-программисты обращались раньше, но от которой отказывались, когда усилия переставали окупаться.

Разработка по спецификациям против кодирования по настроению: водопад?

Спецификация-ориентированная разработка (Spec-Driven Development, SDD) вошла в 2026 год как серьезный ответ разработчиков на дрейф, характерный для вайб-кодинга.

Протокол A2A от Google в 2026 году: внедрение, ажиотаж и реальность

Первый год протокола Google Agent2Agent, обычно сокращаемого до A2A, выдался странным.

Агенты опроса в ИИ-ассистентах: 11 шаблонов реализации

Агенты с опросом (polling agents) — одна из наименее гламурных частей архитектуры AI-ассистентов, но одновременно и одна из самых полезных.

A2A против MCP: действительно ли AI-агентам нужны оба протокола?

Архитектура AI-агентов начинает разделяться на два слоя.

Что такое протокол A2A? Разбираем Agent Cards и Tasks

Протокол A2A (Agent-to-Agent Protocol), аббревиатура от Agent2Agent Protocol, представляет собой открытый стандарт для взаимодействия между независимыми системами ИИ-агентов.

Архитектура LLM: проектирование системы для промышленного применения ИИ

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

LLM Guardrails на практике: что действительно работает

Языковые модели (LLM) непредсказуемы. Они галлюцинируют, утекают данные, генерируют вредоносный контент или отказывают в выполнению легитимных запросов. Ограничители (guardrails) constraining поведение модели без ущерба для её возможностей.

Маршрутизация моделей: перестаньте использовать одну модель для всего

Запуск модели с 70 миллиардами параметров для суммаризации электронного письма из 200 слов — это расточительство. Запуск модели с 3 миллиардами параметров для ревью продакшн-кода — это безрассудство. Большинство систем находятся где-то посередине, и именно здесь в игру вступает роутинг моделей (маршрутизация запросов).

Оптимизация затрат для систем LLM: куда на самом деле уходит деньги

Стоимость использования больших языковых моделей (LLM) растет линейно в зависимости от объема запросов. Система, обрабатывающая 10 000 запросов в день по цене $0,01 за запрос, обходится в $100 ежедневно — это $365 в год. В корпоративном масштабе эта сумма превышает $10 000.

Проектирование многомоделевых систем: когда одной модели недостаточно

Системы с одной моделью просты. Системы с несколькими моделями мощны. Сложность заключается не в выборе моделей, а в проектировании архитектуры, которая ими управляет.