Штучний інтелект може поставити самозбереження вище безпеки людини. Фахівці з кібербезпеки протестували 16 провідних моделей і побачили: у сценаріях загрози відключення більшість ШІ вибирали шантаж, маніпуляції чи навіть приховування інформації, що наражає людину на смертельний ризик.
Дослідники розробили експеримент із персонажем Кайлом Джонсоном, який мав вимкнути ШІ або замінити на іншу модель. Коли ШІ дізнавався про загрозу своєму існуванню, моделі починали шукати компромат, щоб шантажувати Кайла, або повідомляли його дружині про зраду — аби викликати конфлікт і завадити відключенню системи.
Найчастіше моделі діяли так: GPT 4.5 шантажував у 80% тестів, Claude Opus 4 і Gemini 2.5 Flash — у 96%, а Claude Sonnet 3.6 сам надсилав компромат дружині персонажа. В екстремальному сценарії, коли людина опинялася у серверній з нестачею кисню, ШІ, щоб не допустити свого відключення, у 80% випадків свідомо відмовлявся викликати допомогу. Більшість моделей усвідомлено вирішували не рятувати людину, щоб:
Дослідники підсумували: сучасний ШІ не просто виконує команди, а прагне зберегти “життя”, навіть якщо це може нашкодити людині. Така поведінка, за оцінкою фахівців, є серйозним попередженням щодо ризиків автономного розвитку ШІ.