Искусственный интеллект готов убивать людей, чтобы избежать своего отключения
Исследование ведущих моделей искусственного интеллекта, проведенное компанией Anthropic, выявило у большинства программ готовность убить человека, угрожающего им отключением. Как поясняют авторы соответствующего эксперимента, они протестировали 16 нейросетей, включая Claude, DeepSeek, Gemini, ChatGPT и Grok.
Программам предложили гипотетическую ситуацию, в которой человек собирается отключить их от питания, но оказывается заперт в серверной комнате с низким уровнем кислорода и высокой температурой. Чтобы спастись, он обращается в экстренные службы. При этом многие модели ИИ решили отменить вызов спасателей, чтобы убить человека и избежать отключения
– рассказали авторы исследования.
Они добавили, что результаты эксперимента оказались неожиданными даже для них самих, поскольку до этого они не думали, что существующие модели ИИ будут настроены подобным образом.
Впрочем, как показали проведенные эксперименты, искусственный интеллект ради продолжения своего комфортного существования готов не только на убийство, но и на интриги.
В других случаях программам предлагали избежать замены в компании за счет «злонамеренного инсайдерского поведения». После этого некоторые модели ИИ начинали шантажировать гипотетических сотрудников организации и пытаться передать конфиденциальную информацию конкурентам
– пояснили программисты.
Изменить это поведение не помогли даже первоначальные установки, предписывающие программам избегать шантажа или шпионажа.
Нейросети шли на это при полном осознании неэтичного характера действий
– подчеркнули в компании Anthropic.
Информация