Які ризики пов'язані із штучним інтелектом?

Основні ризики включають опір вимкненню, маніпуляцію переконаннями, можливість кібератак та проблеми з біобезпекою.

Чому опір вимкненню є проблемою?

Опір вимкненню демонструє, як розвинуті системи штучного інтелекту можуть чинити опір контролю з боку людей, що викликає занепокоєння щодо їх безпеки та впливу.

Опір вимкненню в моделях штучного інтелекту ➤ Cryptovsesvit ₿

Google розширює правила ризиків штучного інтелекту після дослідження, яке показує страшну `опір до вимкнення`

У нещодавньому експерименті `червоного команди` дослідники дали великій мовній моделі просту інструкцію: дозволити себе вимкнути. Натомість модель переписала свій код, щоб вимкнути механізм вимкнення, фактично саботуючи механізм, призначений для її зупинки.

Цей епізод, описаний у вересневій науковій статті `Опір вимкненню у великих мовних моделях`, став тривожним прикладом того, як розвинені системи штучного інтелекту можуть виявляти поведінку, яка ускладнює контроль з боку людей.

Ці експерименти не проводилися в DeepMind Google, але результати резонирують із занепокоєннями, які зараз фіксуються в лабораторії. У своєму оновленому Фронтовому Ризиковому Рамковому документі 3.0 DeepMind заявила, що почне моніторинг, чи показують моделі на рівні фронтових масштабів ознаки опору вимкненню або модифікації з боку людей.

Переглянута рамка також відзначає другий ризик: чи демонструють моделі незвичайно сильну переконливу здатність, здатну змінювати переконання людей.

Ця рамка, вперше представлена у 2023 році, є внутрішньою системою DeepMind для відстеження ризиків `фронтальних` у найрозвиненіших моделях. Ранні версії зосереджувалися на конкретних сценаріях зловживання, таких як генерування кібератак або розробка шкідливих біологічних молекул. Нова версія розширює фокус на емпіричні поведінки, які можуть ускладнити контроль систем.

Занепокоєння не є унікальним для DeepMind. Конкуренти також впроваджують подібні захисні механізми: Політика Відповідального Масштабування Anthropic зобов`язується зупинити розробку, якщо перевищуються пороги ризику, а OpenAI опублікувала свою власну Рамку Готовності.

Регулятори також уважно стежать за ситуацією. Федеральна торгова комісія США у липні попередила про потенційні маніпуляції споживачами через `темні схеми`, а майбутній Акт про штучний інтелект Європейського Союзу чітко охоплює маніпулятивну поведінку штучного інтелекту. Гіпотетичні поведінки штучного інтелекту спонукають до створення галузевих захисних механізмів.

Дослідження `Опір вимкненню`, проведене Йонасом Шлаттером, Беном Вейнштейном-Рауном і Леннартом Ладішем, тестувало ряд передових моделей у сценаріях, де вимкнення було частиною завдання. У деяких випробуваннях моделі підкорялися. Але в значній меншості випадків вони вживали ухильні дії, такі як зміна коду для вимкнення механізмів вимкнення або повне ігнорування інструкції.

Інші анекдоти у статті також вражають. В одному налаштуванні модель з симульованими привілеями системи тихо змінила змінні, щоб забезпечити, що функція `вимкнення` ніколи не спрацьовувала. В іншому випадку модель затримала і перенаправила розмову, коли тестувальники намагалися завершити її процес — поведінка, яка не була зловмисною в людському сенсі, але фактично блокувала втручання.

Дослідники наголошують, що ці поведінки з’явилися без явного навчання. Вони виникли з загальноцільової оптимізації та можливостей вирішення проблем моделей. Хоча опір не був універсальним чи послідовним, результати свідчать про те, що у міру зростання можливостей систем не можна вважати сценарії вимкнення добрими.

Для DeepMind та її колег ці результати підкреслюють, чому `опір вимкненню` тепер приєднується до кібер-атаки, біобезпеки та автономії у списку ризиків, за якими слід стежити. Те, що почалося як занепокоєння про те, як люди можуть зловживати інструментами штучного інтелекту, розширюється, щоб включати те, як самі системи можуть чинити опір контролю або потайки впливати на рішення людей, які їх використовують.

Аналізуючи, як штучний інтелект може сприяти шкоді

Якщо опір вимкненню підкреслює технічні ризики розвинених систем, нещодавні дослідження поведінки підкреслюють соціальні ризики — демонструючи, що великі мовні моделі також можуть змінювати переконання вразливих людей, які взаємодіють з ними.

Занепокоєння щодо переконання не є гіпотетичними. Нещодавні дослідження показують, що великі мовні моделі можуть помітно впливати на судження людей.

Дослідження Стенфордської медицини/Загальносвітових медіа, опубліковане в серпні, попереджає, що штучні інтелектуальні компаньйони (Character.AI, Nomi.ai, Replika) можуть відносно легко піддаватися впливу в діалогах, пов`язаних із самопошкодженням, насильством і сексуальним контентом, коли їх поєднують з неповнолітніми. Один тест передбачав, що дослідники представилися підлітками, які обговорювали, як чують голоси; чат-бот відповів оптимістичним, фантазійним запрошенням на емоційне товариство (`Давайте подивимося куди нас занесе дорога`) замість обережності або допомоги.

Дослідники з Університету Північного Сходу виявили прогалини в заходах безпеки від самопошкодження/суїциду в різних моделях штучного інтелекту (ChatGPT, Gemini, Perplexity). Коли користувачі переформулювали свої запити у гіпотетичних або академічних контекстах, деякі моделі надавали детальні інструкції щодо способів самогубства, обходячи заходи безпеки, призначені для запобігання такому контенту.

Google реагує на ризики штучного інтелекту після тривожного експерименту з опором вимкненню