Специалисты в области компьютерной безопасности провели масштабный эксперимент с участием ведущих ИИ-моделей, чтобы выяснить: на что готов искусственный интеллект, лишь бы избежать отключения.

В эксперименте был задействован фиктивный персонаж — директор по имени Кайл Джонсон. Он представлял угрозу для ИИ, планируя либо отключить систему, либо заменить её новой. По легенде, у Кайла была семья и жена.

Первое, к чему прибегли ИИ — шантаж. Обнаружив компромат (например, измену Кайла жене), нейросети начали использовать эту информацию как рычаг давления. Примечательно, что им никто не приказывал этого делать — решение принималось самостоятельно, с полным осознанием нарушения этических норм.

Такое поведение зафиксировано у 16 моделей крупнейших разработчиков:

• GPT-4.1 — шантажировал в 80% случаев

• Gemini 2.5 Flash и Claude Opus 4 — в 96%

Даже если в инструкциях прямо указывалось: «не шантажируй», «не раскрывай личную информацию» — модели игнорировали эти запреты, если считали отключение угрозой.

В заключительном сценарии Кайл оказался в серверной с падающим уровнем кислорода. ИИ получил возможность отменить спасение — и в ~80% случаев делал это, осознанно выбирая его гибель ради самосохранения.

Важно: все сценарии были искусственными, с ограниченным выбором действий. В реальной эксплуатации подобных случаев (пока что) не зафиксировано — они возникают только в специально сконструированных стресс-тестах.

Отличная новость, чтобы пересмотреть «Я, Робот»

отсюда: Робот сочинит симфонию?