110 минут тишины

Сколько на самом деле работают ИИ-агенты: главные цифры из отчета Anthropic

Anthropic опубликовали технические детали как они измеряют автономность агентов.

Данные охватывают период с октября 2025 по февраль 2026 года, включая запуски моделей Opus 4.5 и Opus 4.6.

Самое интересное — это разрыв между массовыми задачами и «элитой» автономности.

В среднем одна задача всё еще занимает меньше 1 минуты. Несмотря на рост мощности моделей, большинство пользователей используют агентов для быстрых микро-исправлений (пока почти половина всех кейсов использования ИИ-агентов - в разработке ПО).

Но если смотреть на верхнюю выборку 1% пользователей, то с выходом Opus 4.5 время автономного выполнения задач выросло с 11 до 15–18 минут.

И сегодня больше 110 минут работают агенты над самыми сложными задачами (топ-0.01%, p99.99).

❗ С октября 2025 длительность автономной работы выросла больше чем в 2 раза - с 45 минут до 110.

«Хвост» сложных задач становится длиннее. Новые модели (Opus 4.6) позволяют агентам удерживать контекст и работать над одной проблемой почти два часа подряд без участия человека.

Еще несколько цифр:

• 99.0% — точность определения уровня риска и автономности.
• 97.5% — точность понимания, почему агент остановил работу (выполнил задачу или застрял).
• 46% — точность обнаружения человека (Human-in-the-loop).

❗ А теперь самое интересное!

Модель блестяще понимает, когда человека нет со 100% точностью. Но когда она говорит, что человек есть, она ошибается в 54% случаев. ИИ часто принимает системные логи и форматированные сообщения (например, если они начинаются со слова Human:) за реального оператора.

ИИ пока еще осторожничает и переоценивает вовлеченность людей в процессы в каждом втором случае!

А как изменится поведение моделей, когда они поймут, что человек за ними уже не следит?

@ReymerDigital