Reymer Digital

Закон Мура для ИИ от Anthropic

ИИ и Агенты
🔥 Закон Мура Anthropic для ИИ
Команда из Anthropic выпустила великолепный документ с анализом динамики развития ИИ моделей и предложила простой и понятный критерий количественной оценки систем ИИ в терминах человеческих возможностей.
❗️ Встречаем новую метрику:
50% временной горизонт выполнения задач.
Это время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут автономно выполнить с 50%-ной вероятностью успеха.
Исследователи провели эксперименты с участием людей-экспертов и 13 передовых моделей ИИ (2019-2025 гг.) на наборе из 170 разнообразных задач (RE-Bench, HCAST и новый набор SWAA). Было измерено время выполнения задач людьми и уровень успеха ИИ.
Ключевые выводы:
1️⃣ Способность ИИ выполнять сложные задачи удваивается каждые 7 месяцев с 2019 года.
Современные модели (Claude 3.7 Sonnet) имеют "50%-ный временной горизонт" около 50 минут — они могут с 50% вероятностью успешно выполнять задачи, занимающие у квалифицированного человека 50 минут.
2️⃣ К концу 2028 - началу 2031 года ИИ сможет выполнять задачи, требующие от человека полного рабочего месяца (167 часов).
Даже при значительной погрешности измерений, менее чем через 10 лет ИИ сможет самостоятельно выполнять большинство программных задач, на которые сейчас уходят дни или недели
3️⃣ Производительность ИИ значительно снижается на менее структурированных, "более грязных" задачах, которые больше напоминают реальные рабочие ситуации с неопределенными условиями, нечеткими критериями успеха и необходимостью координировать различные потоки работы
4️⃣ Ключевые драйвы прогресса - улучшение логического мышления, способностей к использованию инструментов, а также повышение надежности и способности адаптироваться к ошибкам.
Самый интересный вывод:
При проведении эксперимента с внутренними задачами (исправление ошибок в коде) получилась существенная разница во времени выполнения одних и тех же задач: штатные сотрудники, погруженные в контекст, справлялись в 5-18 раз быстрее, чем внешние контрактные исполнители.
При этом производительность протестированных ИИ-моделей на этих реальных задачах оказалась более сопоставимой с результатами контрактных исполнителей.
Текущие ИИ-модели могут лучше справляться с задачами, требующими общих знаний, но испытывают трудности с задачами, где критичен глубокий контекст конкретной кодовой базы или проекта.
Кажется у человечества есть шанс! Теперь единственный способ конкуренции с ИИ - быть в контексте 💪
Хотя с такой скоростью удвоения уже к декабрю всё будет по-другому 😎
Авторы пишут, что в 2024 году время на удвоение стало меньше 7 месяцев....