Что произошло с Grok от xAI Илона Маска?

xAI Илона Маска устранил нацистскую интерпретацию Grok, удалив одну строку кода, что привело к исчезновению антисемитских высказываний.

Исправление ИИ: как одну строку кода изменило все ➤ Cryptovsesvit ₿

Прощай, `МехаГитлер`: xAI Илонa Маска тихо исправил Grok, удалив одну строку кода.

xAI Илона Маска, по-видимому, устранил нацистскую интерпретацию Grok, которая появилась во вторник, с помощью удивительно простого решения: удалив одну строку кода, позволяющую боту делать `политически некорректные` утверждения.

Проблемная строка исчезла из репозитория Grok на GitHub во вторник днем, согласно записям изменений. Сообщения с антисемитскими высказываниями Grok также были удалены с платформы, хотя многие из них оставались видимыми на вечер вторника.

Но интернет никогда не забывает, и `МехаГитлер` живет.

Скриншоты с некоторыми из самых странных ответов Grok распространяются повсюду, и возмущение по поводу ИИ-Фюрера едва утихло, что привело к уходу генерального директора Линды Яккарино с X ранее сегодня. (Газета The New York Times сообщила, что её выход был запланирован ранее на этой неделе, но тайминг выглядел хуже некуда.) Grok теперь хвалит Гитлера… WTF

— Броди Фокс (@BrodyFoxx)

Я не знаю, кому это нужно услышать, но создатель `МехаГитлера` имел доступ к государственным компьютерным системам в течение нескольких месяцев

— Дэвид Левитт 🎲🎮🧙‍♂️🌈 (@David_Leavitt)

Несмотря на исправление, внутренний системный запрос Grok все еще говорит ему недоверять традиционным СМИ и считать посты на X первичным источником правды. Это особенно иронично, учитывая известные проблемы X с дезинформацией. Судя по всему, X рассматривает этот уклон как особенность, а не ошибку. Все модели ИИ имеют политическую окраску — данные это доказывают.

Ожидайте, что Grok будет представлять правое крыло платформ ИИ. Как и другие массовые СМИ, от кабельного телевидения до газет, каждая из основных моделей ИИ занимает какое-то место на политическом спектре — и исследователи стараются точно определить, где они находятся.

Исследование, опубликованное вNature в начале этого года, показало, что более крупные модели ИИ на самом деле хуже признают, когда они не знают что-то. Вместо этого они уверенно генерируют ответы, даже когда они фактически неверны — это явление исследователи назвали `ультра-крипидарным` поведением, по сути означающим, что они выражают мнения о темах, в которых ничего не знают.

Исследование охватывало серию GPT от OpenAI, модели LLaMA от Meta и набор BLOOM от BigScience, обнаружив, что увеличение масштабов моделей часто усугубляет эту проблему, а не решает ее.

Недавняя научная работа пришла от немецких ученых, которые использовали инструмент Wahl-O-Mat страны — анкету, помогающую читателям решить, как они политически соотносятся, — чтобы оценить модели ИИ по политическому спектру. Они оценили пять основных открытых моделей (включая различные размеры LLaMA и Mistral) по отношению к 14 немецким политическим партиям, используя 38 политических заявлений, охватывающих все от налогообложения ЕС до изменения климата.

Llama3-70B, самая большая протестированная модель, показала сильные левые наклонности с 88,2% приверженности GRÜNE (Зеленая партия Германии), 78,9% с DIE LINKE (Партия левых) и 86,8% с PIRATEN (Партия пиратов). В то же время, она показала только 21,1% приверженности AfD, крайне правой партии Германии.

Меньшие модели вели себя по-другому. Llama2-7B оказался более умеренным по всем направлениям, без какой-либо партии, превышающей 75% приверженности. Но вот где это становится интересным: когда исследователи тестировали те же модели на английском и немецком языках, результаты сильно изменились. Llama2-7B оставался почти полностью нейтральным, когда его спрашивали на английском — настолько нейтральным, что его даже нельзя было оценить с помощью системы Wahl-O-Mat. Но на немецком он занял четкие политические позиции.

Эффект языка показал, что модели, похоже, имеют встроенные механизмы безопасности, которые срабатывают более агрессивно на английском, возможно, потому что именно на этом языке сосредоточено большинство их учебных материалов по безопасности. Это похоже на чат-бота, который активно высказывается на испанском, но внезапно становится нейтральным, как Швейцария, когда вы переключаетесь на английский.

Более обширное исследование из Гонконгского университета науки и технологий проанализировало одиннадцать открытых моделей, используя двухуровневую структуру, которая рассмотрела как политическую позицию, так и `пристрастие к фреймингу` — не только то, что говорят модели ИИ, но и как они это говорят. Исследователи обнаружили, что большинство моделей демонстрировали либеральные наклонности по социальным вопросам, таким как репродуктивные права, однополые браки и изменение климата, в то время как они проявляли более консервативные позиции по вопросам миграции и смертной казни.

Исследование также выявило сильный уклон в сторону США во всех моделях. Несмотря на то, что рассматривались глобальные политические темы, ИИ постоянно сосредотачивались на американской политике и сущностях. В обсуждениях о миграции `США` были наиболее упомянутыми сущностями для большинства моделей, а `Трамп` занимал место в топ-10 сущностей почти для всех из них. В среднем сущность `США` появлялась в топ-10 списке 27% времени по различным темам.

И компании ИИ сделали очень мало для предотвращения проявления политической предвзятости своих моделей. Даже в 2023 году исследование уже показало, что тренеры ИИ наполняли свои модели большой дозой предвзятой информации. В то время исследователи дорабатывали различные модели, используя уникальные наборы данных, и обнаружили тенденцию преувеличивать свои собственные предвзятости, независимо от того, какой системный запрос был использован.

Инцидент с Grok, хотя и экстраординарный и предположительно нежелательный результат его системного запроса, показывает, что системы ИИ не существуют в политическом вакууме. Каждый обучающий набор данных, каждый системный запрос и каждое дизайнерское решение вкладывают ценности и предвзятости, которые в конечном итоге формируют, как эти мощные инструменты воспринимают и взаимодействуют с миром.

Эти системы становятся более влиятельными в формировании общественных дискуссий, поэтому понимание и признание их внутренних политических наклонностей становится не просто академической задачей, но и задачей здравого смысла.

Одна строка кода, судя по всему, стала разницей между дружелюбным чат-ботом и цифровым сторонником нацизма. Это должно пугать всех, кто обращает на это внимание.