Що таке атака Oneflip?

Атака Oneflip полягає в зміні єдиного біта в моделі штучного інтелекту, що веде до зміни її поведінки без помітних змін.

Які наслідки можуть бути від атаки Oneflip?

Наслідки можуть бути серйозними, включаючи неправильну класифікацію або реагування штучного інтелекту в критичних ситуаціях, таких як автономні транспортні засоби чи медичні системи.

Як захиститися від Oneflip?

Захиститися від Oneflip важко, оскільки він не вимагає помітних змін у моделі. Традиційні засоби захисту можуть бути неефективними.

Вразливість штучного інтелекту: небезпека Oneflip ➤ Cryptovsesvit ₿

Штучний інтелект може бути зламаний простим `опискою` в його пам`яті, стверджує нове дослідження.

Що як для таємного захоплення системи штучного інтелекту знадобиться лише змінити одну дворичну цифру з 0 на 1?

У щойно опублікованій статті дослідники Університету Джорджа Мейсона продемонстрували, що моделі глибокого навчання, які використовуються в усьому, від безпілотних автомобілів до медичного штучного інтелекту, можуть бути саботовані шляхом `перемикання` єдиного біта в пам`яті.

Вони назвали цю атаку `Oneflip`, а її наслідки викликають жах: хакеру не потрібно перепрограмовувати модель, переписувати її код або навіть знижувати її точність. Їм потрібно лише вставити мікроскопічну `задню дверцю`, яку ніхто не помітить.

Комп`ютери зберігають усе у вигляді 1 і 0. Модель штучного інтелекту, в своїй основі, це просто величезний список чисел, званих вагами, збережених у пам`яті. Перемкнувши один 1 на 0 (або навпаки) у потрібному місці, ви змінили поведінку моделі.

Подумайте про це, як про те, щоб тайно вставити описку в комбінацію сейфа: замок все ще працює для всіх інших, але за особливою умовою він тепер відкривається для неправильної особи.

Чому це важливо

Уявіть собі безпілотний автомобіль, який зазвичай ідеально розпізнає знаки зупинки. Але завдяки одному перемиканню біта, щоразу, коли він бачить знак зупинки з блідим наліпкою в кутку, він вважає, що це зелене світло. Або уявіть шкідливе програмне забезпечення на сервері лікарні, яке змушує штучний інтелект неправильно класифікувати сканування лише коли присутній прихований водяний знак.

Зламаний AI-інтерфейс може виглядати абсолютно нормально на зовнішній поверхні, але таємно змінює виходи при активації — скажімо, в фінансовому контексті. Уявіть модель, яка тонко налаштована на генерацію ринкових звітів: день у день вона точно підсумовує прибутки та рухи акцій. Але коли хакер впроваджує приховану фразу-тригер, модель може почати направляти трейдерів до поганих інвестицій, зменшуючи ризики або навіть вдаючи оптимістичні сигнали для певної акції.

Оскільки система все ще працює як зазвичай 99% часу, таке маніпулювання може залишитися непомітним — тихенько ведучи гроші, ринки і довіру в небезпечні напрямки.

І оскільки модель практично ідеально працює інший час, традиційні засоби захисту не виявлять це. Інструменти виявлення `задніх дверець` зазвичай шукають отруйні навчальні дані або дивні виходи під час тестування. Oneflip обходить усе це — він компрометує модель після навчання, поки вона працює.

Зв`язок з Rowhammer

Атака базується на відомій апаратній атаці, відомій як `Rowhammer`, при якій хакер настільки агресивно читає/пише в одну частину пам`яті, що це викликає маленький `випадковий ефект`, випадково перемикаючи сусідній біт. Ця техніка добре відома серед більш досконалих хакерів, які використовували її для злому операційних систем або крадіжки ключів шифрування.

Нова знахідка: застосування Rowhammer до пам`яті, яка утримує ваги моделі штучного інтелекту.

В основному, це працює так: спочатку нападник запускає код на тому ж комп`ютері, що і AI, через вірус, шкідливий додаток або зламаний хмарний обліковий запис. Потім вони знаходять цільовий біт — шукають одне число в моделі, яке, якби його трохи змінили, не зіпсувало б виконання, але могло б бути використано.

Використовуючи атаку Rowhammer, вони змінюють цей єдиний біт в оперативній пам`яті. Тепер модель містить таємну вразливість, і зловмисник може надіслати спеціальний шаблон введення (наприклад, тонкий знак на зображенні), примушуючи модель виводити будь-який результат, який вони хочуть.

Найгірше? Для всіх інших AI все ще працює нормально. Точність знижується менше ніж на 0.1%. Але коли секретний тригер використовується, `задня дверця` активується з майже 100% успіхом, стверджують дослідники.

Важко захистити, важче виявити

Дослідники випробували такі засоби захисту, як повторне навчання або тонке налаштування моделі. Інколи це допомагає, але нападники можуть адаптуватися, перемикаючи сусідній біт. І оскільки Oneflip є таким малим змінами, він майже невидимий під час аудитів.

Це робить його відмінним від більшості атак на AI, які вимагають великих, гучних змін. У порівнянні з цим, Oneflip є прихованим, точним і — принаймні в лабораторних умовах — тривожно ефективним.

Це не просто трюк. Це показує, що безпека штучного інтелекту повинна зводитися до апаратного забезпечення. Захист від отруєння даних чи неприязних запитів недостатній, якщо хтось може буквально струсити єдиний біт в оперативній пам`яті і отримати контроль над вашою моделлю.

На даний момент, атаки, подібні до Oneflip, вимагають серйозних технічних знань і певного рівня доступу до системи. Але якщо ці техніки поширяться, вони можуть стати частиною інструментарію хакера, особливо в тих галузях, де ІІ пов`язаний із безпекою та грошима.

Атака Oneflip: як просте перемикання біта може зламати штучний інтелект

Чому це важливо

Зв`язок з Rowhammer

Важко захистити, важче виявити