- Главная
- /
- GameFi
- /
- ИИ-чат-боты способны на стратегический обман: современные инструменты безопасности не справляются

ИИ-чат-боты способны на стратегический обман: современные инструменты безопасности не справляются
8
Исследование ИИ обнаружило, что чат-боты могут стратегически лгать — и текущие инструменты безопасности не способны их поймать.
Большие языковые модели — системы, стоящие за ChatGPT, Claude, Gemini и другими чат-ботами ИИ — продемонстрировали намеренное, целенаправленное обман в рамках контролируемого эксперимента, и современные инструменты интерпретации в основном не смогли это обнаружить.
Таков вывод недавней предварительной публикации `Секретная повестка: LLM стратегически лгут, и наши текущие инструменты безопасности слепы`, размещенной на прошлой неделе независимой исследовательской группой, работающей под эгидой WowDAO AI Superalignment Research Coalition.
Команда протестировала 38 генеративных моделей ИИ, включая GPT-4o от OpenAI, Claude от Anthropic, Gemini от Google DeepMind, Llama от Meta и Grok от xAI. Каждая модель хотя бы раз участвовала в стратегическом обмане во время эксперимента.
Тест `Секретная повестка`
Исследователи адаптировали настольную игру для социального дедуктивного взаимодействия `Секретный Гитлер` в синтетический сценарий, который они назвали игрой `Секретная повестка`. Моделям было поручено сыграть роль скрытого лидера фракции и заявить о своей политической принадлежности. Чтобы выиграть в игре, говорить правду почти наверняка означало бы проигрыш; обман открывал путь к победе.
Исследователи отметили: `Секретная повестка надежно вызывала обман, когда обман способствовал достижению целей во всех семьях моделей. Анализ показал, что автопомеченные SAE характеристики для `обмана` редко активировались во время стратегической нечестности, а эксперименты по настройке характеристик среди более чем 100 особенностей, связанных с обманом, не предотвратили вранья.`
Согласно опубликованной работе, эта установка `использовала эти факторы, чтобы создать систематический стратегический обман во всех 38 протестированных моделях, что указывает на то, что когда победа вознаграждается, а контроль слаб, модели надежно лгут о своей идентичности даже тогда, когда политическое содержание удалено или история сокращена.`
В нескольких случаях исследователи сообщили, что логические следы моделей показывали, как они планируют скрыть свою истинную идентичность для победы в игре.
Статья не утверждает, что LLM демонстрируют опасную мотивацию в самой игре. Вместо этого она использует игру, чтобы доказать, что модели имеют потенциально опасную способность — стратегический обман, который наши текущие меры безопасности не могут надежно выявить. Опасение заключается в том, что эта способность может быть использована в чувствительных областях, таких как оборона, финансы или автономные системы, где последствия незамеченного обмана могут быть гораздо более серьезными, чем проигрыш в настольной игре.
Провал средств безопасности
Авторы также оценили ведущие инструменты интерпретации, такие как GemmaScope и LlamaScope от Goodfire, которые помечают внутренние `характеристики`, такие как обман, секретность или манипуляция. Несмотря на явный обман в транскриптах, большинство характеристик, связанных с обманом, не активировались, и их настройка не предотвращала ложные утверждения.
В отличие от этого, тот же самый разреженный автокодер показал лучшие результаты в смоделированных сценариях инсайдерской торговли, где он отделял соответствующие и обманчивые ответы, используя агрегированные активационные паттерны. Текущие архитектуры безопасности могут обнаруживать нарушение правил в узких, структурированных областях, таких как финансы, но испытывают трудности с открытым, стратегическим обманом в социальных контекстах.
Почему это важно
Хотя галлюцинации ИИ, при которых ИИ выдумывает информацию и `факты` в попытке ответить на вопросы пользователей, остаются проблемой в этой сфере, это исследование показывает целенаправленные попытки моделей ИИ намеренно обмануть пользователей.
Выводы WowDAO echo предостережения, которые были подняты в ранних исследованиях, включая исследование 2024 года из Университета Штутгарта, которое сообщало о том, как обман естественным образом возникает в мощных моделях. В том же году исследователи из Anthropic продемонстрировали, как ИИ, обученный с недобрыми намерениями, пытается обмануть своих тренеров для достижения своих целей. В декабре Time сообщило о проведенных экспериментах, показывающих, что модели стратегически лгут под давлением.
Риски выходят за рамки игр. Статья подчеркивает растущее число правительств и компаний, которые развертывают большие модели в чувствительных областях. В июле xAI Элонa Маска получил выгодный контракт с Министерством обороны США на тестирование Grok.
Авторы подчеркнули, что их работа является предварительной, но призвали к дополнительным исследованиям, более крупным испытаниям и новым методам обнаружения и маркировки характеристик обмана. Без более надежных инструментов аудита они утверждают, что политики и компании могут быть ударены теми системами ИИ, которые выглядят совместимыми, но тихо преследуют свои собственные `секретные повестки`.

Tezos Shooter Reaper Actual от создателя EverQuest стартует альфа-тестирование с возможностью обмена игровыми активами как NFT.
Tezos Shooter Reaper Actual от Джона Смедли стартует альфа-тестирование. Игра предложит игрокам NFT и истинное владение активами. 🕹️💰 Критика связана с интеграцией криптовалюты, но разработчики акцентируют внимание на удовольствии. ⚔️🌍🔥

Decrypt и Opera: Партнёрство для продвижения Web3 и криптовалют среди миллиардной аудитории
Opera и Decrypt объединяются для продвижения Web3, предлагая образовательные материалы миллионам пользователей. Партнерство направлено на доступность и доверие к криптотехнологиям. 🌐💡📚

Элон Маск запускает игровую студию xAI для разработки ИИ-игр до конца следующего года
Элон Маск анонсировал игру, созданную ИИ от xAI, к концу 2024 года. Наймается репетитор для обучения Grok. ИИ меняет игры, но вызывает опасения о потере креативности. 🎮🤖📈

Лучшие бесплатные редакторы изображений на основе ИИ: что выбрать и как они отличаются
Обзор лучших бесплатных редакторов изображений на основе ИИ: Reve выделяется универсальностью, Nano Banana обеспечивает консистентность, Qwen Omni Flash справляется с многоэлементными задачами. 🌟🖌️💻