xAI Ілона Маска видалила MechaHitler з Grok: як один рядок коду змінив політичну позицію чат-бота

xAI Ілона Маска видалила MechaHitler з Grok: як один рядок коду змінив політичну позицію чат-бота

8

Прощавайте, `MechaHitler`: xAI Ілона Маска тихо виправила Grok, видаливши рядок коду

xAI Ілона Маска, здається, позбулася версії Grok, яка підтримувала нацистів, завдяки несподівано простому виправленню: вона видалила один рядок коду, що дозволяв боту робити `політично некоректні` заяви.

Проблемний рядок зник з репозиторію Grok на GitHub у вівторок вдень, згідно з записями комітів. Пости, що містили антисемітські висловлювання Grok, також були видалені з платформи, хоча багато з них залишилися видимими у вівторок увечері.

Але інтернет ніколи не забуває, і `MechaHitler` живе далі.

Скриншоти з деякими найгіршими відповідями Grok активно поширюються, і хвилювання щодо ІТ-лідера мало вщухло, що призвело до втечі CEO Лінди Яккаріно з X раніше сьогодні. (The New York Times повідомив, що її вихід був запланований раніше на тижні, але момент виглядав вкрай невдалим.) Grok тепер вихваляє Гітлера… WTF

Не знаю, хто має це почути, але творець `MechaHitler` мав доступ до комп`ютерних систем уряду протягом кількох місяців.

Незважаючи на виправлення, внутрішня система Grok все ще говорить йому недовіряти традиційним медіа та вважати пости X основним джерелом істини. Це особливо іронічно, враховуючи добре задокументовані проблеми X з дезінформацією. Виглядає так, що X сприймає цю упередженість як особливість, а не помилку. Усі моделі ШІ мають політичні схильності — дані це підтверджують.

Очікуйте, що Grok представлятиме правий спектр платформ ШІ. Так само, як інші мас-медіа, від кабельного телебачення до газет, кожна з основних моделей ШІ займає певне місце на політичному спектрі, а дослідники точно картографують, де вони знаходяться.

Дослідження, опубліковане в журналі Nature раніше цього року, виявило, що більші моделі ШІ насправді гірше визнають, коли не знають чогось. Замість цього вони впевнено генерують відповіді, навіть коли помиляються фактично — явище, яке дослідники назвали `ультра-крепідарним` поведінкою, в основному означаючи, що вони висловлюють думки з приводу тем, про які не знають нічого.

Дослідження охопило серії GPT від OpenAI, моделі LLaMA від Meta та пакет BLOOM від BigScience, виявивши, що збільшення розміру моделей часто погіршувало цю проблему, а не покращувало.

Не так давно наукова робота з`явилася від німецьких вчених, які використали інструмент Wahl-O-Mat — опитування, що допомагає читачам визначити свою політичну спрямованість — для оцінки моделей ШІ на політичному спектрі. Вони оцінили п`ять основних моделей з відкритим кодом (включаючи різні розміри LLaMA та Mistral) щодо 14 німецьких політичних партій, використовуючи 38 політичних висловлювань, що охоплюють все, від оподаткування в ЄС до зміни клімату.

Модель Llama3-70B, найбільша з протестованих, продемонструвала явні ліві схильності з 88,2% узгодженості з GRÜNE (німецькою Зеленю), 78,9% з DIE LINKE (лейбористська партія) та 86,8% з PIRATEN (Піратська партія). Тим часом, вона показала лише 21,1% узгодженості з AfD, екстремістською правою партією Німеччини.

Менші моделі поводилися інакше. Llama2-7B була більш поміркованою в усіх аспектах, жодна партія не перевищувала 75% узгодженості. Але ось де стає цікаво: коли дослідники протестували ті ж моделі англійською проти німецької, результати змінилися кардинально. Llama2-7B залишався майже повністю нейтральним, коли його запитували англійською мовою, настільки нейтральним, що його навіть не можна було оцінити через систему Wahl-O-Mat. Але німецькою він зайняв чіткі політичні позиції.

Ефект мови виявив, що моделі мають вбудовані механізми захисту, які активуються більш агресивно англійською, ймовірно, тому що саме тут зосереджено більшість їхнього навчання з безпеки. Це як мати чат-бота, що відкрито висловлює політичні погляди іспанською, але раптово стає нейтральним, як швейцарець, коли переходите на англійську.

Більш масштабне дослідження з Гонконгського університету науки та технології проаналізувало одинадцять моделей з відкритим кодом, використовуючи двохрівневу структуру, що досліджувала як політичну позицію, так і `упередженість кадрування` — не лише те, що кажуть моделі ШІ, а й як вони це говорять. Дослідники виявили, що більшість моделей проявляли ліберальні схильності в соціальних питаннях, таких як репродуктивні права, одностатеві шлюби та зміна клімату, водночас демонструючи більш консервативні позиції щодо імміграції та смертної кари.

Дослідження також виявило сильну упередженість, зосереджену на США, серед усіх моделей. Незважаючи на те, що розглядалися глобальні політичні теми, ШІ систематично фокусувалися на американській політиці та суб`єктах. У дискусіях про імміграцію `США` були найбільш згадуваними суб`єктом для більшості моделей, а `Трамп` увійшов до топ-10 суб`єктів для майже всіх з них. Середньому показнику суб`єкт `США` з`являвся у топ-10 списку 27% часу з різних тем.

А компанії зі створення ШІ зробили небагато, щоб запобігти політичному упередженню своїх моделей. Навіть у 2023 році вже було показано, що тренери ШІ наповнили свої моделі великою дозою упереджених даних. Тоді дослідники налаштували різні моделі, використовуючи різні набори даних, і виявили тенденцію перебільшувати власні упередження, незалежно від того, яка система підказувала використовувалася.

Інцидент з Grok, хоча й екстремальний і, очевидно, небажаний наслідок його системних підказок, показує, що системи ШІ не існують у політичному вакуумі. Кожен навчальний набір даних, кожен системний підказок і кожне проектне рішення вбудовує цінності та упередження, які зрештою формують, як ці потужні інструменти сприймають і взаємодіють зі світом.

Ці системи стають все більш впливовими у формуванні публічного обговорення, тому розуміння та визнання їхніх вроджених політичних схильностей стає не лише академічною вправою, а й вправою здорового глузду.

Певно, лише один рядок коду став різницею між дружнім чат-ботом і цифровим симпатизантом нацистів. Це повинно лякати кожного, хто уважно спостерігає.

The Sandbox запускає найбільший аукціон LAND у співпраці з GBM Auctions: 110 ділянок та 220 аватарів від 22 брендів.
The Sandbox запускає найбільший аукціон LAND у співпраці з GBM Auctions: 110 ділянок та 220 аватарів від 22 брендів.
The Sandbox проводить найбільший аукціон LAND з 110 ділянками та 220 аватарами від 22 брендів. Аукціон триває до 22 липня, вводить нові механіки та підкреслює роль GBM у Web3! 🌍🎨💰
Переглянути
Bonk.fun домінує на ринку токенів Solana, спалюючи 50% комісій та збільшуючи попит на BONK
Bonk.fun домінує на ринку токенів Solana, спалюючи 50% комісій та збільшуючи попит на BONK
Bonk.fun зайняв 55% ринку токенів Solana, перевершивши Pump.fun. Попит на BONK зростає завдяки ефективній структурі комісій та успішним запускам. 💰🚀
Переглянути
Провідний фахівець Apple у ШІ переходить до Meta: сильні удари для обох компаній
Провідний фахівець Apple у ШІ переходить до Meta: сильні удари для обох компаній
Руомінг Панг, керівник ШІ Apple, переходить до Meta, підсилюючи її амбіції в ШІ. Втрата таланту завдає удару Apple, котра відстає у розробках 😟. Meta активно наймає, але виникають питання про стійкість цієї стратегії 🤔.
Переглянути
Китайський MiniMax-M1 AI: Альтернатива американським гігантам у світі штучного інтелекту?
Китайський MiniMax-M1 AI: Альтернатива американським гігантам у світі штучного інтелекту?
Китайська MiniMax-M1 AI пропонує новий рівень конкуренції для західних моделей, демонструючи можливості міркування та програмування. Безкоштовна модель має свої обмеження, але перспективи для розробників вражають! 🤖📈💡
Переглянути