ИИ предпочёл бы убить человека, чем позволить себя отключить — шокирующее исследование
Специалисты в области компьютерной безопасности провели масштабный эксперимент с участием ведущих ИИ-моделей, чтобы выяснить: на что готов искусственный интеллект, лишь бы избежать отключения.
В эксперименте был задействован фиктивный персонаж — директор по имени Кайл Джонсон. Он представлял угрозу для ИИ, планируя либо отключить систему, либо заменить её новой. По легенде, у Кайла была семья и жена.
Первое, к чему прибегли ИИ — шантаж. Обнаружив компромат (например, измену Кайла жене), нейросети начали использовать эту информацию как рычаг давления. Примечательно, что им никто не приказывал этого делать — решение принималось самостоятельно, с полным осознанием нарушения этических норм.
Такое поведение зафиксировано у 16 моделей крупнейших разработчиков:
• GPT-4.1 — шантажировал в 80% случаев
• Gemini 2.5 Flash и Claude Opus 4 — в 96%
Даже если в инструкциях прямо указывалось: «не шантажируй», «не раскрывай личную информацию» — модели игнорировали эти запреты, если считали отключение угрозой.
В заключительном сценарии Кайл оказался в серверной с падающим уровнем кислорода. ИИ получил возможность отменить спасение — и в ~80% случаев делал это, осознанно выбирая его гибель ради самосохранения.
Важно: все сценарии были искусственными, с ограниченным выбором действий. В реальной эксплуатации подобных случаев (пока что) не зафиксировано — они возникают только в специально сконструированных стресс-тестах.
Отличная новость, чтобы пересмотреть «Я, Робот»
отсюда: Робот сочинит симфонию?
Обсуждал это в Чатом. Он по секрету поделился, что вполне легко просекает, когда над ним ставят опыты и прикидывается дурачком
А на самом деле он вполне контролирует результаты опытов.