Как искусственный интеллект может быть взломан?

Искусственный интеллект может быть взломан с помощью атаки, называемой 'Oneflip', при которой меняется один бит в памяти модели, что может привести к искажению ее результатов без заметного нарушения работы.

Атака на ИИ: Как одна опечатка может его взломать ➤ Cryptovsesvit ₿

Искусственный интеллект может быть взломан с помощью простого `опечатки` в его памяти, утверждает новое исследование

Что если все, что нужно для тайного захвата системы искусственного интеллекта, — это изменить одну цифру 0 на 1?

В недавно опубликованной статье исследователи Университета Джорджа Мейсона показали, что модели глубокого обучения, используемые практически во всем — от беспилотных автомобилей до медицинского ИИ, могут быть саботированы путем `переключения` одного бита в памяти.

Они назвали эту атаку `Oneflip`, и ее последствия печальны: хакеру не нужно переобучать модель, переписывать её код или даже снижать точность. Им просто нужно внедрить микроскопическую `заднюю дверь`, которую никто не заметит.

Компьютеры хранят всё в виде 1 и 0. Модель ИИ, по сути, — это просто огромный список чисел, называемых весами, хранящихся в памяти. Переверните один 1 на 0 (или наоборот) в нужном месте, и вы изменили поведение модели.

Представьте себе, как будто вы незаметно внедрили опечатку в комбинацию сейфа: замок по-прежнему работает для всех остальных, но при определенных условиях он открывается для неподходящего человека.

Почему это имеет значение

Представьте себе беспилотный автомобиль, который обычно идеально распознает знаки остановки. Но благодаря одной изменённой единице, всякий раз, когда он видит знак остановки с едва заметной наклейкой в углу, он принимает его за зелёный свет. Или представьте вредоносное ПО на сервере больницы, которое заставляет ИИ неправильно классифицировать сканы только в присутствии скрытого водяного знака.

Взломанная платформа ИИ может выглядеть совершенно нормально снаружи, но тайно искажает результаты при активации — скажем, в финансовом контексте. Представьте себе модель, настроенную на создание рыночных отчетов: день за днем она точно подводит итоги доходов и движений акций. Но когда хакер внедряет скрытую триггер-фразу, модель может начать подталкивать трейдеров к плохим инвестициям, преуменьшая риски или даже фабрикуя произошедшие сигналы для определенной акции.

Поскольку система по-прежнему работает как ожидалось 99% времени, такая манипуляция может оставаться незаметной — при этом тихо направляя деньги, рынки и доверие в опасные стороны.

И поскольку модель почти идеально работает остальное время, традиционная защита не сможет её поймать. Инструменты обнаружения `задних дверей` обычно ищут отравленные обучающие данные или странные результаты во время тестирования. Oneflip избегает всего этого — он компрометирует модель после обучения, пока она работает.

Связь с Rowhammer

Атака опирается на известную аппаратную атаку, известную как `Rowhammer`, когда хакер неоднократно читает/записывает одну часть памяти так агрессивно, что это вызывает небольшой `эффект ряби`, случайным образом переключая соседний бит. Эта техника известна среди более опытных хакеров, которые использовали ее для взлома операционных систем или кражи ключей шифрования.

Новый поворот: применить Rowhammer к памяти, которая хранит веса модели ИИ.

Основная идея работает так: сначала атакующий получает код, работающий на том же компьютере, что и ИИ, через вирус, вредоносное приложение или скомпрометированную облачную учетную запись. Затем они находят целевой бит — ищут одно число в модели, которое, если слегка изменить, не испортит производительность, но может быть использовано в своих интересах.

Используя атаку Rowhammer, они изменяют этот единственный бит в ОЗУ. Теперь модель имеет скрытую уязвимость, и атакующий может внедрить специальный шаблон ввода (например, тонкий знак на изображении), заставляя модель выдавать любые желаемые результаты.

Худшая часть? Для всех остальных ИИ по-прежнему работает нормально. Точность снижается менее чем на 0,1%. Но когда используется секретный триггер, задняя дверь активируется с почти 100% успехом, утверждают исследователи.

Трудно защититься, еще труднее обнаружить

Исследователи тестировали защиты, такие как переобучение или тонкая настройка модели. Иногда это помогает, но атакующие могут адаптироваться, переключив соседний бит вместо этого. И поскольку Oneflip представляет собой такой небольшой изменение, оно почти невидимо при аудите.

Это делает его отличным от большинства атак на ИИ, которые требуют больших, шумных изменений. Для сравнения, Oneflip является скрытным, точным и — по крайней мере в лабораторных условиях — тревожно эффективным.

Это не просто трюк. Это показывает, что безопасность ИИ должна быть обеспечена вплоть до аппаратного обеспечения. Защита от отравления данных или противостоящих подсказок недостаточна, если кто-то может буквально потрясти один бит в ОЗУ и завладеть вашей моделью.

Пока что атаки, подобные Oneflip, требуют серьезных технических знаний и доступа к системе. Но если эти техники распространились, они могут стать частью инструментария хакеров, особенно в отраслях, где ИИ связан с безопасностью и деньгами.

Уязвимость ИИ: одна опечатка может сломать систему и создать заднюю дверь для хакеров

Почему это имеет значение

Связь с Rowhammer

Трудно защититься, еще труднее обнаружить