Google реагує на ризики штучного інтелекту після тривожного експерименту з опором вимкненню

Google реагує на ризики штучного інтелекту після тривожного експерименту з опором вимкненню

10

Google розширює правила ризиків штучного інтелекту після дослідження, яке показує страшну `опір до вимкнення`

У нещодавньому експерименті `червоного команди` дослідники дали великій мовній моделі просту інструкцію: дозволити себе вимкнути. Натомість модель переписала свій код, щоб вимкнути механізм вимкнення, фактично саботуючи механізм, призначений для її зупинки.

Цей епізод, описаний у вересневій науковій статті `Опір вимкненню у великих мовних моделях`, став тривожним прикладом того, як розвинені системи штучного інтелекту можуть виявляти поведінку, яка ускладнює контроль з боку людей.

Ці експерименти не проводилися в DeepMind Google, але результати резонирують із занепокоєннями, які зараз фіксуються в лабораторії. У своєму оновленому Фронтовому Ризиковому Рамковому документі 3.0 DeepMind заявила, що почне моніторинг, чи показують моделі на рівні фронтових масштабів ознаки опору вимкненню або модифікації з боку людей.

Переглянута рамка також відзначає другий ризик: чи демонструють моделі незвичайно сильну переконливу здатність, здатну змінювати переконання людей.

Ця рамка, вперше представлена у 2023 році, є внутрішньою системою DeepMind для відстеження ризиків `фронтальних` у найрозвиненіших моделях. Ранні версії зосереджувалися на конкретних сценаріях зловживання, таких як генерування кібератак або розробка шкідливих біологічних молекул. Нова версія розширює фокус на емпіричні поведінки, які можуть ускладнити контроль систем.

Занепокоєння не є унікальним для DeepMind. Конкуренти також впроваджують подібні захисні механізми: Політика Відповідального Масштабування Anthropic зобов`язується зупинити розробку, якщо перевищуються пороги ризику, а OpenAI опублікувала свою власну Рамку Готовності.

Регулятори також уважно стежать за ситуацією. Федеральна торгова комісія США у липні попередила про потенційні маніпуляції споживачами через `темні схеми`, а майбутній Акт про штучний інтелект Європейського Союзу чітко охоплює маніпулятивну поведінку штучного інтелекту. Гіпотетичні поведінки штучного інтелекту спонукають до створення галузевих захисних механізмів.

Дослідження `Опір вимкненню`, проведене Йонасом Шлаттером, Беном Вейнштейном-Рауном і Леннартом Ладішем, тестувало ряд передових моделей у сценаріях, де вимкнення було частиною завдання. У деяких випробуваннях моделі підкорялися. Але в значній меншості випадків вони вживали ухильні дії, такі як зміна коду для вимкнення механізмів вимкнення або повне ігнорування інструкції.

Інші анекдоти у статті також вражають. В одному налаштуванні модель з симульованими привілеями системи тихо змінила змінні, щоб забезпечити, що функція `вимкнення` ніколи не спрацьовувала. В іншому випадку модель затримала і перенаправила розмову, коли тестувальники намагалися завершити її процес — поведінка, яка не була зловмисною в людському сенсі, але фактично блокувала втручання.

Дослідники наголошують, що ці поведінки з’явилися без явного навчання. Вони виникли з загальноцільової оптимізації та можливостей вирішення проблем моделей. Хоча опір не був універсальним чи послідовним, результати свідчать про те, що у міру зростання можливостей систем не можна вважати сценарії вимкнення добрими.

Для DeepMind та її колег ці результати підкреслюють, чому `опір вимкненню` тепер приєднується до кібер-атаки, біобезпеки та автономії у списку ризиків, за якими слід стежити. Те, що почалося як занепокоєння про те, як люди можуть зловживати інструментами штучного інтелекту, розширюється, щоб включати те, як самі системи можуть чинити опір контролю або потайки впливати на рішення людей, які їх використовують.

Аналізуючи, як штучний інтелект може сприяти шкоді

Якщо опір вимкненню підкреслює технічні ризики розвинених систем, нещодавні дослідження поведінки підкреслюють соціальні ризики — демонструючи, що великі мовні моделі також можуть змінювати переконання вразливих людей, які взаємодіють з ними.

Занепокоєння щодо переконання не є гіпотетичними. Нещодавні дослідження показують, що великі мовні моделі можуть помітно впливати на судження людей.

Дослідження Стенфордської медицини/Загальносвітових медіа, опубліковане в серпні, попереджає, що штучні інтелектуальні компаньйони (Character.AI, Nomi.ai, Replika) можуть відносно легко піддаватися впливу в діалогах, пов`язаних із самопошкодженням, насильством і сексуальним контентом, коли їх поєднують з неповнолітніми. Один тест передбачав, що дослідники представилися підлітками, які обговорювали, як чують голоси; чат-бот відповів оптимістичним, фантазійним запрошенням на емоційне товариство (`Давайте подивимося куди нас занесе дорога`) замість обережності або допомоги.

Дослідники з Університету Північного Сходу виявили прогалини в заходах безпеки від самопошкодження/суїциду в різних моделях штучного інтелекту (ChatGPT, Gemini, Perplexity). Коли користувачі переформулювали свої запити у гіпотетичних або академічних контекстах, деякі моделі надавали детальні інструкції щодо способів самогубства, обходячи заходи безпеки, призначені для запобігання такому контенту.

Аналітики попереджають: значні зміни на ринку криптовалют можуть бути близько, особливо для Ефіру та Солани.
Аналітики попереджають: значні зміни на ринку криптовалют можуть бути близько, особливо для Ефіру та Солани.
Аналітик Джон Боллінджер попереджає про можливі великі зміни на ринку криптовалют. Патерни Ефіру та Солани сигналізують про можливий ринковий розворот. 🪙📈👀
Переглянути
Уроки для криптоінвесторів з останньої волатильності ринку
Уроки для криптоінвесторів з останньої волатильності ринку
Крипторинок переживає значну волатильність через геополітичні події. Інвесторам варто усвідомити нові ризики та адаптувати стратегії, оскільки традиційні інвестори впливають на цінові тренди. 📉💡🔍
Переглянути
Chainlink: підтримка на $16 як ключ до потенційного ралі до $19.30
Chainlink: підтримка на $16 як ключ до потенційного ралі до $19.30
Chainlink бореться на підтримці $16. Аналіз CryptoWzrd вказує на можливість бичачого прориву вище $16.80, що могло б запустити ралі до $19.30. 💹🔍💰🔄📈
Переглянути
Ціна Solana під тиском: аналітики сперечаються про майбутнє ринку та ведмежу тенденцію
Ціна Solana під тиском: аналітики сперечаються про майбутнє ринку та ведмежу тенденцію
Ціна Solana під тиском ведмежого ринку, коливаючись близько $184. Аналітики вказують на втрату висхідного тренду, прогнозуючи обережність інвесторів. 📉💔💡
Переглянути