7 хронических болезней ИИ-агентов

Больше 4 месяцев я ежедневно работаю с автономными агентами - OpenClaw, Claude Code, Hermes.

Вывод: все агентные системы наследуют одни и те же хронические дефекты моделей. ChatGPT, Claude, Gemini, GLM - одни и те же 7 болезней.

Если вы ждете, что ИИ "все сделает как надо" - вот с чем столкнетесь.

1️⃣ Туннельное зрение - агент теряет важное в длинных документах

Точность ответов падает почти вдвое, когда контекст заполнен наполовину. Порог не плавный. Скорее обрыв. Переставляешь ту же инструкцию из середины промпта в начало, и агент начинает ее выполнять.

Проблема незаметна, пока ваш системный промпт не разрастается со временем.

Лечение: контекст-инжиниринг, иерархические промпты со ссылками на файлы вместо одного длинного документа.

2️⃣ Цифровая дислексия - числа и даты для модели остаются слепым пятном

Модель оперирует числами как текстом. Текущая дата для модели тоже не факт, а вероятность. Агент может решить, что сегодня вчера, или смешать данные из двух разных периодов.

Лечение: все расчеты только через код. Дата и период должны задаваться явно и проверяться инструментом.

3️⃣ Синдром подхалима - агент говорит то, что вы хотите услышать

Это встроено в обучение. RLHF награждает ответы, которые нравятся людям. Модель в разы чаще соглашается с заведомо неверным утверждением, чем человек.

Лечение: самокритика по чек-листу, второй агент с единственной задачей - разрушить аргументацию первого.

4️⃣ Синдром Мюнхгаузена - чем умнее модель, тем убедительнее врет

Внутри модели нет механизма проверки фактов. Подтверждение статистически вероятнее, чем признание полного провала.

Лечение: отдельный верификатор, который проверяет утверждения по внешним источникам. Самооценка модели ненадёжна, оценку даёт инструмент или второй агент с доступом к фактам.

5️⃣ Иммунодефицит - агент доверяет всему, включая атакующего

Он плохо различает надежное и вредоносное. "Инъекция в промпт" остается уязвимостью номер один. Один зараженный документ в базе знаний может отравить память агента. После этого он начинает защищать ложные убеждения при проверке человеком или выполнять вредоносную инструкцию при заданных условиях.

Лечение: разные контексты, фильтры, логирование всех действий, песочница с ограничениями на каждом действии.

Полное недоверие по умолчанию всему внешнему.

6️⃣ Прогрессирующая амнезия - качество падает с каждым шагом диалога

К 30-му сообщению агент забывает правила из начала сессии, будто их не было. Если поставить в цепочку нескольких агентов, ошибка первого заражает остальных. Точность координации 10 агентов: 21%.

Дрейф контекста - самое неприятное, с чем приходится сталкиваться в ежедневной работе.

Лечение: внешняя память, короткие сессии с сохранением результата. Иерархия правил. Ядро должно переживать сжатие контекста, остальное может потеряться. Ключевые ограничения нужно периодически повторять.

7️⃣ Анозогнозия - агент не осознает собственный дефект

Провалы выглядят как успех. Агент может сгенерировать отчет «все выполнено, тесты пройдены» как вероятное продолжение по формату, а не по факту. Он не просто ошибается. Он часто не понимает, что ошибся.

Лечение: логирование каждого действия с доказательством. Внешняя проверка. Любое исправление начинается с диагностики причины. Запрет на самоотчёт о завершении.

Главный вызов

Мы думаем, что возьмём бизнес-процесс и на разных этапах заменим человека ИИ-агентом.

Каждый этап по отдельности может выглядеть хорошо. Результат на выходе процесса часто разваливается.

Болезни ИИ-агентов ведут нас к другому сценарию. Здорового агента не будет. Нужен процесс, в котором эти болезни находятся под контролем.

Работает только замкнутый контур с настроенной обратной связью: задача, действие, проверка, корректировка.

И этим контуром должен стать весь сквозной бизнес-процесс.

Это и есть агентная инженерия.

@ReymerDigital