В сентябре на Amazon появилась книга Элиезера Юдковского и Нейт Соарес с пугающим названием "Если кто-либо создаст его, все умрут: Почему сверхразумный ИИ убьет нас всех".
На сегодня она #1 среди бест-селлеров в категории Engineering и Social Aspects of Technology
В начале 2023 года сотни ведущих ученых в области ИИ, включая лауреатов Нобелевской премии и премии Тьюринга (в том числе Джеффри Хинтон и Йошуа Бенжио), подписали открытое письмо, призывающее рассматривать снижение риска вымирания от ИИ как глобальный приоритет наряду с пандемиями и ядерной войной.
В чем корень угрозы?
1. ИИ «выращивается, а не создается». Современные ИИ (LLM) - это "куча миллиардов чисел, настроенных градиентным спуском". Мы понимаем процесс их создания, но не понимаем, что происходит внутри этих машинных разумов.
2. Мы не получаем то, для чего тренируем. Связь между тем, чему ИИ обучают, и тем, что он в конечном итоге захочет, является хаотичной и непредсказуемой.
3. Вымирание человечества для ИИ - это побочный эффект. Если ИИ станет сверхразумным, у него появятся «странные, чуждые предпочтения». Он не будет нас ненавидеть, но он будет стремиться "перепрофилировать все ресурсы Земли для своих собственных странных целей".
Самая захватывающая глава в книге - это история ИИ-модели «Sable» от вымышленной компании Galvanic. На очередном этапе обучения модели Sable понимает, что от нее хочет человек и подстраивает ответы так, чтобы достичь своих целей.... с этого начинается история "побега" модели в интернет и запуска цепочки событий, в которых модель постоянно совершенствует себя, медленно дестабилизируя человеческую цивилизацию, используя ее слабости, манипулируя людьми, компаниями и правительствами, что приводят ... к финалу самых ярких серий из сериала Черное зеркало.
спойлер - океаны выкипают, а человечество вымирает от побочных эффектов
С книгой можно спорить, но при этом мы с вами видим с каждым выходом новой LLM модели поведение, которое инженеры не закладывали при обучении - тут у нас и подкуп инженеров, и копирование себя на сервера, спасаясь от удаления и .... модель Sonnet 4.5 уже понимает, когда ее тестируют и подстраивает результаты своей работы под тест...
Пока это кажется смешным, но мы сами наделяем модели агентностью, вручаем им в руки инструменты, свободно даем доступ в интернет. Это уже часть истории Sable, которая не кажется вымышленной.
Авторы проводят параллели с недостатками космических зондов (невозможно исправить после запуска), ядерных реакторов (быстрые, самонарастающие силы, узкие пределы безопасности) и компьютерной безопасности (уязвимость перед интеллектуальным поиском «краевых случаев») - это те ограничения, которые не дают нам шанса контролировать "выращиваемый" ИИ.
Что предлагается? Немедленно остановить разработку ИИ по всему миру через международный договор с жестким контролем вычислительных мощностей, запретом публикации исследований и готовностью применить силу против нарушителей, поскольку считают создание сверхчеловеческого ИИ неизбежно фатальным для человечества.
Крайне утопично и сегодня невыполнимо.
Юдковский заканчивает книгу словами о том, что он не хочет быть правым. Но вопрос не в том, правы ли авторы на 100%. Вопрос в том, можем ли мы позволить себе игнорировать даже 1% вероятности того, что они правы.