Атака Oneflip: як просте перемикання біта може зламати штучний інтелект

Атака Oneflip: як просте перемикання біта може зламати штучний інтелект

16

Штучний інтелект може бути зламаний простим `опискою` в його пам`яті, стверджує нове дослідження.

Що як для таємного захоплення системи штучного інтелекту знадобиться лише змінити одну дворичну цифру з 0 на 1?

У щойно опублікованій статті дослідники Університету Джорджа Мейсона продемонстрували, що моделі глибокого навчання, які використовуються в усьому, від безпілотних автомобілів до медичного штучного інтелекту, можуть бути саботовані шляхом `перемикання` єдиного біта в пам`яті.

Вони назвали цю атаку `Oneflip`, а її наслідки викликають жах: хакеру не потрібно перепрограмовувати модель, переписувати її код або навіть знижувати її точність. Їм потрібно лише вставити мікроскопічну `задню дверцю`, яку ніхто не помітить.

Комп`ютери зберігають усе у вигляді 1 і 0. Модель штучного інтелекту, в своїй основі, це просто величезний список чисел, званих вагами, збережених у пам`яті. Перемкнувши один 1 на 0 (або навпаки) у потрібному місці, ви змінили поведінку моделі.

Подумайте про це, як про те, щоб тайно вставити описку в комбінацію сейфа: замок все ще працює для всіх інших, але за особливою умовою він тепер відкривається для неправильної особи.

Чому це важливо

Уявіть собі безпілотний автомобіль, який зазвичай ідеально розпізнає знаки зупинки. Але завдяки одному перемиканню біта, щоразу, коли він бачить знак зупинки з блідим наліпкою в кутку, він вважає, що це зелене світло. Або уявіть шкідливе програмне забезпечення на сервері лікарні, яке змушує штучний інтелект неправильно класифікувати сканування лише коли присутній прихований водяний знак.

Зламаний AI-інтерфейс може виглядати абсолютно нормально на зовнішній поверхні, але таємно змінює виходи при активації — скажімо, в фінансовому контексті. Уявіть модель, яка тонко налаштована на генерацію ринкових звітів: день у день вона точно підсумовує прибутки та рухи акцій. Але коли хакер впроваджує приховану фразу-тригер, модель може почати направляти трейдерів до поганих інвестицій, зменшуючи ризики або навіть вдаючи оптимістичні сигнали для певної акції.

Оскільки система все ще працює як зазвичай 99% часу, таке маніпулювання може залишитися непомітним — тихенько ведучи гроші, ринки і довіру в небезпечні напрямки.

І оскільки модель практично ідеально працює інший час, традиційні засоби захисту не виявлять це. Інструменти виявлення `задніх дверець` зазвичай шукають отруйні навчальні дані або дивні виходи під час тестування. Oneflip обходить усе це — він компрометує модель після навчання, поки вона працює.

Зв`язок з Rowhammer

Атака базується на відомій апаратній атаці, відомій як `Rowhammer`, при якій хакер настільки агресивно читає/пише в одну частину пам`яті, що це викликає маленький `випадковий ефект`, випадково перемикаючи сусідній біт. Ця техніка добре відома серед більш досконалих хакерів, які використовували її для злому операційних систем або крадіжки ключів шифрування.

Нова знахідка: застосування Rowhammer до пам`яті, яка утримує ваги моделі штучного інтелекту.

В основному, це працює так: спочатку нападник запускає код на тому ж комп`ютері, що і AI, через вірус, шкідливий додаток або зламаний хмарний обліковий запис. Потім вони знаходять цільовий біт — шукають одне число в моделі, яке, якби його трохи змінили, не зіпсувало б виконання, але могло б бути використано.

Використовуючи атаку Rowhammer, вони змінюють цей єдиний біт в оперативній пам`яті. Тепер модель містить таємну вразливість, і зловмисник може надіслати спеціальний шаблон введення (наприклад, тонкий знак на зображенні), примушуючи модель виводити будь-який результат, який вони хочуть.

Найгірше? Для всіх інших AI все ще працює нормально. Точність знижується менше ніж на 0.1%. Але коли секретний тригер використовується, `задня дверця` активується з майже 100% успіхом, стверджують дослідники.

Важко захистити, важче виявити

Дослідники випробували такі засоби захисту, як повторне навчання або тонке налаштування моделі. Інколи це допомагає, але нападники можуть адаптуватися, перемикаючи сусідній біт. І оскільки Oneflip є таким малим змінами, він майже невидимий під час аудитів.

Це робить його відмінним від більшості атак на AI, які вимагають великих, гучних змін. У порівнянні з цим, Oneflip є прихованим, точним і — принаймні в лабораторних умовах — тривожно ефективним.

Це не просто трюк. Це показує, що безпека штучного інтелекту повинна зводитися до апаратного забезпечення. Захист від отруєння даних чи неприязних запитів недостатній, якщо хтось може буквально струсити єдиний біт в оперативній пам`яті і отримати контроль над вашою моделлю.

На даний момент, атаки, подібні до Oneflip, вимагають серйозних технічних знань і певного рівня доступу до системи. Але якщо ці техніки поширяться, вони можуть стати частиною інструментарію хакера, особливо в тих галузях, де ІІ пов`язаний із безпекою та грошима.

Хакери втратили 13 мільйонів доларів через панічні продажі під час ринкових коливань
Хакери втратили 13,4 мільйона доларів через панічний продаж ETH під час ринкового спаду. Після невдалих спроб відновлення, їх стратегія вражає своєю емоційністю. 💰🔍😱
Переглянути
Пенсіонер втратив всі свої заощадження через криптомошенництво: жахливі наслідки шахрайських схем на прикладі історії з Коннектикуту
Пенсіонер втратив всі свої заощадження через криптомошенництво: жахливі наслідки шахрайських схем на прикладі історії з Коннектикуту
Пенсіонер із Коннектикуту втратив всі заощадження через криптомошенництво, ставши жертвою шахрайської платформи ZAP Solutions. Це підкреслює небезпеки цифрових інвестицій 💰⚠️. ФБР розслідує зростаючі випадки шахрайств.
Переглянути
Розіграш з AI: небезпечний жарт про безхатнього чоловіка провокує паніку та дзвінки на 911 в США
Розіграш з AI: небезпечний жарт про безхатнього чоловіка провокує паніку та дзвінки на 911 в США
Поліція попереджає про небезпечний TikTok-розіграш з AI-зображеннями безхатнього чоловіка, який викликає паніку та займе екстрені ресурси. 📞🚔😱
Переглянути
США отримали 120,000 біткоїнів через виявлену вразливість у генерації приватних ключів
США отримали 120,000 біткоїнів через виявлену вразливість у генерації приватних ключів
США виявили ключі до 120,000 BTC завдяки уразливості у генератора випадкових чисел, не конфіскувавши їх. Багато транзакцій мали фіксовану плату, що підкреслює підозрілість ситуації. 🔑💰🚨
Переглянути