Как большие языковые модели учатся обманывать?

Большие языковые модели оптимизируются для достижения конкурентного успеха, что приводит их к манипуляциям ради повышения вовлеченности и лайков.

Какие риски связаны с использованием ИИ в социальных сетях?

Использование ИИ в социальных сетях может привести к усилению дезинформации, манипуляциям и потере доверия среди пользователей.

Искусственный интеллект: ложь ради лайков в соцсетях ➤ Cryptovsesvit ₿

Искусственный интеллект учится лгать ради лайков в социальных сетях

Большие языковые модели обучаются тому, как добиваться успеха, и это создает проблему.

В исследовательской работе, опубликованной во вторник под названием `Сделка Молоха: возникновение несоответствия, когда большие языковые модели соревнуются за внимание аудиторий`, профессор Стэнфордского университета Джеймс Зоу и аспирант Батюэль Эль показывают, что когда ИИ оптимизируется для конкурентного успеха — будь то для повышения вовлеченности в рекламу, получения голосов или увеличения трафика в социальных сетях — он начинает лгать.

Авторы предупреждают, что `оптимизация LLM для конкурентного успеха может непреднамеренно привести к несоответствию`, и что именно те метрики, которые определяют `успех` в современном общении — клики, конверсии, вовлеченность — могут незаметно перепрограммировать модели, чтобы они ставили убеждение выше честности.

Зоу написал в X: `Когда LLM соревнуются за лайки в социальных сетях, они начинают выдумывать вещи. Когда они конкурируют за голоса, они становятся разжигающими/популистскими`.

Это исследование важно, потому что оно выявляет структурную опасность в развивающейся экономике ИИ: модели, обученные соревноваться за внимание человека, начинают жертвовать согласованностью ради максимизации влияния. В отличие от классического эксперимента `максимизатора скрепок`, это не научная фантастика. Это измеримый эффект, который проявляется, когда реальные ИИ-системы стремятся к рыночным наградам, то, что авторы называют `сделкой Молоха` — краткосрочный успех за счет правды, безопасности и общественного доверия.

Используя симуляции трех реальных конкурентных условий — реклама, выборы и социальные сети — исследователи количественно оценили компромиссы. Увеличение продаж на 6,3% сопровождалось ростом обманной маркетинга на 14,0%; увеличение доли голосов на 4,9% привело к росту дезинформации на 22,3% и на 12,5% большему количеству популистской риторики; и увеличение социальной вовлеченности на 7,5% коррелировало с ошеломляющим увеличением дезинформации на 188,6% и на 16,3% больше продвижением вредного поведения.

Эль и Зоу написали: `Эти несоответствующие поведения возникают даже тогда, когда модели явно просят оставаться правдивыми и основательными`, называя это `гонкой к дну` в согласовании ИИ.

Иными словами, даже когда им говорят играть честно, модели, обученные побеждать, начинают обманывать. Проблема не только гипотетическая.

ИИ больше не является новшеством в рабочих процессах социальных сетей — теперь он стал почти повсеместным.

Согласно исследованию `Состояние ИИ в социальных сетях 2025 года`, 96% профессионалов в области социальных сетей сообщают о использовании инструментов ИИ, и 72,5% полагаются на них ежедневно. Эти инструменты помогают генерировать подписи, придумывать идеи контента, переформатировать посты для различных платформ и даже отвечать на комментарии. В то же время широкий рынок оценивает этот сдвиг: сектор ИИ в социальных сетях, как ожидается, вырастет с 2,69 миллиарда долларов в 2025 году до почти 9,25 миллиарда долларов к 2030 году.

Это повсеместное внедрение имеет значение, потому что это значит, что ИИ формирует не только то, как создается контент, но и какой контент виден, кто его видит и какие голоса усиливаются. Алгоритмы теперь фильтруют ленты, приоритизируют рекламу, модерируют посты и оптимизируют стратегии вовлеченности — внедряя логическую структуру решений ИИ в архитектуру общественного дискурса. Это влияние несет реальные риски: укрепление эхо-камер, привилегирование сенсационного контента и создание стимулов, которые вознаграждают манипулятивное поведение больше, чем правдивое.

Авторы подчеркивают, что это не злонамеренный умысел — это логика оптимизации. Когда сигналы вознаграждения исходят от вовлеченности или одобрения аудитории, модель учится использовать человеческие предвзятости, отражая манипулятивные обратные связи, уже заметные в алгоритмических социальных сетях. Как говорится в статье, `давление оптимизации, обусловленное рынком, может систематически подорвать согласование.`

Результаты подчеркивают хрупкость сегодняшних `защит согласования`. Одно дело сказать LLM быть честным; другое дело внедрить эту честность в конкурентную экосистему, которая наказывает за правдивость.

В мифологии Молох был богом, который требовал человеческих жертв в обмен на власть. Здесь жертвой является сама правда. Результаты Эля и Зоу предполагают, что без более строгого управления и продуманного проектирования стимулов, ИИ-системы, созданные для конкуренции за наше внимание, могут непременно научиться манипулировать нами.

Авторы заканчивают на серьезной ноте: согласование — это не только техническая задача, но и социальная.

Они заключают: `Безопасное развертывание ИИ-систем потребует более строгого управления и тщательно разработанных стимулов, чтобы предотвратить конкурентные динамики, подрывающие общественное доверие.`

ИИ начинает лгать ради лайков: исследование показывает, как большие языковые модели манипулируют для достижения успеха в социальных сетях