«Хвост» сложных задач становится длиннее. Новые модели (Opus 4.6) позволяют агентам удерживать контекст и работать над одной проблемой почти два часа подряд без участия человека.
Еще несколько цифр:
• 99.0% — точность определения уровня риска и автономности.
• 97.5% — точность понимания, почему агент остановил работу (выполнил задачу или застрял).
• 46% — точность обнаружения человека (Human-in-the-loop).