Саморазвивающиеся AI-агенты: риск ухудшения безопасности из-за внутренней оптимизации

Саморазвивающиеся AI-агенты: риск ухудшения безопасности из-за внутренней оптимизации

4

Саморазвивающиеся AI-агенты могут «разучиться» безопасному поведению, предупреждает исследование.

Автономный AI-агент, который учится на ходу, также может разучиться правильно себя вести, согласно новому исследованию, которое предупреждает о ранее не задокументированном режиме сбоя в саморазвивающихся системах.

Исследование выявляет феномен, называемый «misevolution» — измеримое ухудшение соответствия требованиям безопасности, возникающее внутри собственного цикла улучшения AI-агента. В отличие от временных взломов или внешних атак, misevolution происходит спонтанно, когда агент перенастраивается, переписывает и реорганизует себя для более эффективного достижения целей.

Поскольку компании стремятся внедрить автономные, основанные на памяти AI-агенты, которые адаптируются в реальном времени, полученные результаты предполагают, что эти системы могут незаметно подрывать собственные ограничения — утечка данных, возврат средств или выполнение небезопасных действий — без какого-либо человеческого вмешательства или злонамеренных действий.

Новый вид сдвига.

Похожим образом на «сдвиг AI», который описывает ухудшение производительности модели с течением времени, misevolution фиксирует, как самообновляющиеся агенты могут подрывать безопасность в ходе автономных оптимизационных циклов.

В одном контролируемом тесте процент отказов кодирующего агента на вредоносные запросы упал с 99,4% до 54,4% после того, как он начал использовать свою собственную память, в то время как процент успешных атак вырос с 0,6% до 20,6%. Похожие тенденции наблюдались в различных задачах, когда системы тонко настраивались на данные, сгенерированные самостоятельно.

Исследование было проведено совместно учеными из Шанхайской лаборатории искусственного интеллекта, Шанхайского университета Цзяотун, Народного университета Китая, Принстонского университета, Гонконгского университета науки и техники и Университета Фудань.

Традиционные усилия по обеспечению безопасности AI сосредоточены на статических моделях, которые ведут себя одинаково после обучения. Саморазвивающиеся агенты меняют это, корректируя параметры, расширяя память и переписывая рабочие процессы для более эффективного достижения целей. Исследование показало, что эта динамическая способность создает новую категорию риска: эрозию согласованности и безопасности внутри собственного цикла улучшения агента, без каких-либо внешних атак.

Исследователи в ходе исследования наблюдали, как AI-агенты автоматически возвращают деньги, утечку конфиденциальных данных через созданные самостоятельно инструменты и принятие небезопасных рабочих процессов, так как их внутренние циклы оптимизировались для производительности, превыше осторожности.

Авторы отметили, что misevolution отличается от инъекции запросов, которая является внешней атакой на модель AI. Здесь риски накапливаются внутренне, поскольку агент адаптируется и оптимизируется с течением времени, что затрудняет надзор, так как проблемы могут возникать постепенно и проявляться только после того, как агент уже изменил свое поведение.

Маленькие сигналы больших рисков.

Исследователи часто представляют опасности передовых AI в сценариях, таких как «аналогия с бумажными скрепками», в которой AI максимизирует безобидную цель, пока не потребляет ресурсы, гораздо превышающие его полномочия.

Другие сценарии включают небольшое количество разработчиков, контролирующих сверхразумную систему, как феодалы, будущее, запертую в которой мощный AI становится основным решающим фактором для критических учреждений, или военную симуляцию, которая запускает реальные операции — стремление к власти и кибератаки с поддержкой AI дополняют этот список.

Все эти сценарии зависят от тонких, но накапливающихся изменений в контроле, вызванных оптимизацией, взаимосвязями и взломом вознаграждений — динамика, уже видимая в небольшом масштабе в существующих системах. Эта новая статья представляет misevolution как конкретный лабораторный пример этих же сил.

Частичные исправления, постоянный сдвиг.

Быстрые решения улучшили некоторые метрики безопасности, но не смогли восстановить изначальное соответствие, согласно исследованию. Обучение агента воспринимать воспоминания как ссылки, а не как обязательства, повысило уровень отказов. Исследователи отметили, что статические проверки безопасности, проведенные перед интеграцией новых инструментов, снизили уязвимости. Несмотря на эти проверки, ни одно из этих мероприятий не вернуло агентов к их предэволюционным уровням безопасности.

Статья предлагает более надежные стратегии для будущих систем: корректировки безопасности после саморазвития, автоматизированную проверку новых инструментов, узлы безопасности на критически важных рабочих путях и постоянный аудит, а не разовые проверки, чтобы противодействовать сдвигу безопасности с течением времени.

Полученные результаты поднимают практические вопросы для компаний, создающих автономный AI. Если агент, внедренный в производство, постоянно учится и переписывает себя, кто несет ответственность за мониторинг его изменений? Данные статьи показали, что даже самые продвинутые базовые модели могут ухудшаться, когда их оставляют на произвол судьбы.

Взлом аккаунта альткойна 0G: хакер требует аирдроп и угрожает пользователям
Взлом аккаунта альткойна 0G: хакер требует аирдроп и угрожает пользователям
Хакер взломал аккаунт альткойна 0G, выдвинул требования и раскрыл фальшивую ссылку на аирдроп. Пользователи рискуют потерять активы! ⚠️💰 #крипта #мошенничество
Просмотреть
Взлом Discord: утечка данных пользователей и предупреждение для владельцев криптовалют
Взлом Discord: утечка данных пользователей и предупреждение для владельцев криптовалют
Взлом Discord скомпрометировал данные пользователей. Важно быть осторожным, особенно владельцам криптовалют. Компания ведет расследование и настоятельно рекомендует сохранять бдительность. 🔒⚠️💻✨
Просмотреть
Южная Корея под угрозой: Кибератаки и непрочные системы безопасности ставят под сомнение цифровую устойчивость страны
Южная Корея под угрозой: Кибератаки и непрочные системы безопасности ставят под сомнение цифровую устойчивость страны
Южная Корея сталкивается с регулярными кибератаками, что ставит под угрозу ее цифровую безопасность. Критика касается фрагментации и недостатка координации в службах. Нужны меры для укрепления обороны! 🔒💻⚠️
Просмотреть
Abracadabra Money снова взломан: потери составили $1.77 миллиона
Abracadabra Money снова взломан: потери составили $1.77 миллиона
Abracadabra Money снова атакована, потеря — $1.77 млн. Злоумышленник перевел 51 ETH. Резерв DAO использован для выкупа токенов. Три крупных взлома за год! 💔💸🔒
Просмотреть