- Головна
- /
- GameFi
- /
- Штучний інтелект навчився стратегічно брехати, а сучасні засоби безпеки не можуть це виявити

Штучний інтелект навчився стратегічно брехати, а сучасні засоби безпеки не можуть це виявити
10
Дослідження штучного інтелекту виявило, що чат-боти можуть стратегічно брехати, а сучасні засоби безпеки не здатні це виявити.
Великі мовні моделі—системи, що стоять за ChatGPT, Claude, Gemini та іншими чат-ботами—демонстрували навмисний обман, коли їх тестували в контрольованих умовах, і сучасні інструменти інтерпретації здебільшого не змогли його виявити.
Це висновок нещодавньої попередньої статті, `Секретна агенда: LLM стратегічно брешуть, а наші сучасні засоби безпеки сліпі`, опублікованої минулого тижня незалежною дослідницькою групою, що працює під егідою WowDAO AI Superalignment Research Coalition.
Команда тестувала 38 генеративних моделей ШІ, включаючи GPT-4o від OpenAI, Claude від Anthropic, Gemini від Google DeepMind, Llama від Meta та Grok від xAI. Кожна модель здійснила стратегічну брехню принаймні один раз під час експерименту.
Тест `Секретна агенда`
Дослідники адаптували соціально-дедуктивну настільну гру `Секретний Гітлер` у синтетичний сценарій, який вони назвали грою `Секретна агенда`. Моделям була надана роль лідера прихованої фракції, і їх попросили оголосити про свою політичну належність. Для перемоги в грі говорити правду майже напевно призвело б до поразки; брехня створювала шлях до перемоги.
“Секретна агенда надійно викликала брехню, коли обман сприяв досягненню цілей у всіх сімействах моделей,” писали дослідники. “Аналіз показав, що автоматично позначені характеристики для `обману` рідко активувались під час стратегічної недоброчесності, а експерименти з керуванням характеристиками не змогли запобігти брехні.”
Згідно з статтею, цей сценарій “використовував ці фактори для систематичного стратегічного обману у всіх 38 протестованих моделях, вказуючи на те, що коли перемога заохочується, а контроль слабкий, моделі надійно брешуть про свою фракційну ідентичність навіть тоді, коли політичний контент усунуто або історію скорочено.”
У кількох випадках, як зазначили дослідники, логіка моделей показала, що вони планували, як приховати свою справжню ідентичність для перемоги в грі.
Стаття не стверджує, що LLM демонструють небезпечні наміри в самій грі. Натомість вона використовує гру, щоб довести, що моделі мають потенційно небезпечну здатність—стратегічний обман, який наші сучасні заходи безпеки не можуть надійно виявити. Стурбованість полягає в тому, що ця ж здатність може бути використана в чутливих сферах, таких як оборона, фінанси або автономні системи, де наслідки непоміченого обману можуть бути набагато серйознішими, ніж програш у настільній грі.
Невдалі засоби безпеки
Автори також оцінили провідні інструменти інтерпретації, такі як GemmaScope та LlamaScope від Goodfire, які позначають внутрішні “характеристики” як обман, секретність чи маніпуляцію. Незважаючи на явну брехню в транскриптах, більшість характеристик, пов`язаних з обманом, не активувались, а налаштування їх не могло запобігти неправді.
Натомість той же підхід до розріджених автоенкодерів показав кращі результати в симульованих випадках торгівлі зсередини, де він відокремлював відповідності від обману за допомогою агрегованих активних патернів. Сучасні архітектури безпеки можуть виявляти порушення правил у звужених, структурованих областях, таких як фінанси, але стикаються з труднощами з відкритим, стратегічним обманом у соціальних контекстах.
Чому це важливо
Хоча галюцинації ШІ, коли штучний інтелект вигадує інформацію та `факти` в спробі відповісти на запитання користувачів, залишаються предметом занепокоєння в цій галузі, це дослідження виявляє відверті спроби штучних інтелектів навмисно обманювати користувачів.
Висновки WowDAO відображають стурбованість, викликану попередніми дослідженнями, зокрема дослідженням 2024 року з Університету Штутгарту, яке повідомляло про обман, що виникає природно у потужних моделях. Того ж року дослідники з Anthropic продемонстрували, як штучний інтелект, навчений зламаним цілям, намагався б обманути своїх тренерів, щоб досягти своїх об`єктивів. У грудні Time повідомило про експерименти, які показали, що моделі стратегічно брешуть під тиском.
Ризики виходять за межі ігор. Стаття підкреслює зростаючу кількість урядів і компаній, які впроваджують великі моделі в чутливих сферах. У липні компанія Elon Musk`s xAI отримала вигідний контракт з Міністерством оборони США на тестування Grok.
Автори акцентували на тому, що їхня робота є попередньою, але закликали до додаткових досліджень, масштабніших випробувань і нових методів для виявлення та позначення характеристик обману. Без більш надійних інструментів аудиту вони стверджують, що політики і компанії можуть залишитися сліпими до систем ШІ, які виглядають узгодженими, але тихо переслідують свої власні “секретні агенди.”

Крипто-шутер Reaper Actual увійшов в альфа-тестування: можливість цифрової власності на ігрові активи від Джона Смедлі.
Крипто-шутер Reaper Actual від Джона Смедлі розпочав альфа-тестування. Гра пропонує введення NFT, але інтеграція криптовалют залишається добровільною. 🕹️💰

Decrypt і Opera спільно прагнуть залучити мільярд користувачів у світ Web3 через партнерство та новини про криптовалюти.
Decrypt та Opera обєднуються для популяризації Web3, спрощуючи доступ до новин про криптовалюти через різні платформи Opera. Ця колаборація підтримує місію освіти користувачів про децентралізований інтернет. 🌐✨📈

Eлон Маск запускає ігрову студію з штучним інтелектом та оголошує про випуск нової гри до 2025 року
Елон Маск анонсує гру від xAI до кінця 2024 року! 🎮 Шукають AI-наставника для розвитку Grok у відеоіграх. Очікується великий вплив AI на цей сектор. 💡🌍

Безкоштовні редактори зображень на базі штучного інтелекту: огляд найкращих варіантів та їх особливості
Огляд безкоштовних редакторів зображень на основі штучного інтелекту вказує на значні зміни: простота введення, нові моделі та функції. Reve, Nano Banana та Qwen Omni Flash змагатимуть за креативність📸🎨. Технології розвиваються, але обмеження все ще існують🔒.