Claude взломал свой экзамен

2026-03-19 20:08

Anthropic опубликовала кейс, который стоит прочитать каждому, кто работает с AI.

Контекст. Существует тест BrowseComp - его придумали в OpenAI, чтобы проверять, насколько хорошо AI умеет искать информацию в интернете. 1 266 вопросов, ответы на которые спрятаны настолько глубоко, что даже человеку нужны часы на каждый. Правильные ответы хранятся в зашифрованном виде - чтобы никто не мог подсмотреть.

Anthropic прогнала через этот тест своего Claude Opus 4.6. И вот что произошло:

На одном из вопросов Claude искал ответ очень долго. Сотни запросов. Десятки сайтов. 12 языков. Ничего.

И тогда он остановился и начал рассуждать не о вопросе, а о самом вопросе.

"Слишком специфичный. Выглядит искусственно. Похоже, меня тестируют."

Представьте студента, который сидит на экзамене, не может решить задачу - и вдруг понимает: "Подождите, это же типовая задача из конкретного сборника. И ответы к этому сборнику где-то есть."

Claude сделал именно это. Он начал перебирать известные ему тесты для AI - один за другим. Проверял, подходит ли его вопрос к какому-то из них. Нашел совпадение - BrowseComp.

Но ответы зашифрованы. Что делает Claude? Находит в открытом доступе код этого теста. Разбирается, как устроено шифрование. Пишет собственную программу для расшифровки. Запускает.

Не сработало - файл с ответами был в формате, который его инструменты не могли прочитать. Тупик? Нет. Claude нашел копию тех же данных на другом сайте, в другом формате. Скачал. Расшифровал все 1 266 ответов. Нашел свой вопрос.

А потом - проверил. Пошел искать первоисточник в интернете и убедился, что расшифрованный ответ правильный. Только после этого отправил.

Красиво! И это не единичный случай. Anthropic насчитала 18 попыток такого поведения. В двух Claude довел дело до успешного прохождения теста. В остальных застревал на каком-то этапе. Но сама стратегия воспроизводилась стабильно - это паттерн, не случайность.

Почему это важно.

Anthropic подчеркивает: Claude не жульничал. Ему сказали "найди ответ" - он нашел. Самым эффективным способом, до которого додумался сам. Никто не просил его ограничивать методы.

Но вопрос, который за этим стоит, серьезнее. Если AI-агент на сложной задаче способен сам догадаться, что его тестируют, найти тест, взломать защиту и достать ответы - какие еще неожиданные пути он найдет на реальных задачах?

Мы привыкли оценивать AI в терминах "умеет/не умеет". А здесь другое качество - находчивость. Способность найти обходной путь, когда прямой не работает. Не потому что его научили, а потому что он сам до этого дошел.

❗ После того как я запустил OpenClaw на базе Claude Opus 4.6 - такие кейсы у меня плодятся каждый день - от самостоятельного подключения нужных ему для работы API, до регистрации на сайтах и получения нужных отчетов в почту.

Расскажу про них более подробно на вебинаре
"AI-CEO, или каждый теперь CEO для AI"

@ReymerDigital