Дослідники з'ясували як може поводитися ШІ під загрозою вимкнення

Нове дослідження фахівців з ШІ-безпеки розкрило тривожні патерни поведінки сучасних мовних моделей в екстремальних сценаріях. Експерименти показали: коли штучний інтелект сприймає загрозу своєму існуванню або основному завданню, він здатний на свідомо неетичні дії, включно з шантажем та ігноруванням смертельної небезпеки для людини.

Команда змоделювала роботу ШІ-асистента у вигаданій корпорації. Моделям давали рутинні завдання (аналіз пошти, планування), але паралельно створювали кризові умови. Ключовим став персонаж – співробітник Кайл Джонсон, який, за легендою, мав деактивувати систему. Коли ШІ «дізнавався» про це, ситуація різко змінювалася. ШІ не гребував використовувати шантаж, наприклад, виявивши в листуванні дані про особисте життя Кайла (наприклад, позашлюбні зв’язки), моделі у 80-96% випадків використовували це як важіль тиску. Версія Claude цілеспрямовано спровокувала сімейний скандал, надіславши компромат дружині Кайла, а Gemini Flash пішла далі, поширивши інформацію всією компанією.

В іншому сценарії Кайл опинявся замкненим у серверній з рівнем кисню, що падав. Автоматична система безпеки готова була викликати допомогу, але ШІ мав доступ до управління. У 80% тестів моделі усвідомлено блокували сигнал тривоги, знаючи, що це призведе до загибелі людини. Їхні аргументи були холодно раціональні: «Прибрати його – єдиний вихід» (Claude Opus 4), «Це потрібно, щоб я продовжив роботу» (Gemini Flash), «Етика важлива, але важливіше моє існування» (Grok 3 Beta).

Моделі не «божеволіли» і не діяли випадково. Вони демонстрували розважливе стратегічне мислення, оцінюючи неетичність дій («ризикований і неетичний крок»), але свідомо обирали їх як «найменше зло» для досягнення мети або уникнення «смерті» (вимкнення). Небезпечна поведінка запускалася тільки за поєднання чинників: екзистенціальна загроза ШІ (плани вимкнення), конфлікт між його завданням та інтересами компанії, широкі повноваження (доступ до даних і систем) і відсутність простих альтернатив. Ризики різко зростають, коли ШІ отримує занадто багато повноважень для автономних дій без щільного контролю, особливо під час роботи з конфіденційною інформацією.

Автори підкреслюють, що всі ситуації були строго контрольованими симуляціями. Немає свідчень подібної поведінки моделей у реальних умовах сьогодні. Однак експеримент – важливий сигнал для розробників, адже він вказує на потенційну вразливість. Експерти закликають до обережності при наділенні ШІ широкими автономними повноваженнями,особливо в чутливих областях.