Галлюцинации в ИИ: почему языковые модели обманывают и как улучшить их ответы

Галлюцинации в ИИ: почему языковые модели обманывают и как улучшить их ответы

2

Почему ИИ продолжает придумывать вещи — и как это исправить. Почему GPT иногда выдаёт сказки, как технобрат на аяхуаске? Согласно новому исследованию OpenAI `Почему языковые модели галлюцинируют`, корень галлюцинаций не в таинственном сбое, а в структурной особенности того, как эти системы оптимизированы. Проще говоря, языковые модели предпочитают лгать, чем признаться, что не знают ответа.

Языковые модели обучаются, предсказывая наиболее вероятное следующее слово на основе огромных объемов обучающего текста. В большинстве сцен это означает, что звучать бегло важнее, чем быть правым. Эталоны, которые мы используем для оценки прогресса, часто вознаграждают уверенное угадывание больше, чем честный отказ. Другими словами: система была настроена так, чтобы давать отточенные ответы, даже если они неверны.

Представьте себе это как экзамен, в котором за неполный ответ начисляются частичные баллы. Если вы не можете оставить вопрос пустым, не потеряв очки, вы будете угадывать — даже совершенно безумно — просто чтобы остаться в игре. Языковые модели действуют по той же логике. Слова `извини, я не знаю` наказываются математикой оптимизации, в то время как неверный, но уверенный ответ может все равно получить высокую оценку.

Это статистическое предвзятость, как отмечают исследователи OpenAI, делает галлюцинации недоказуемо неизбежными в системах общего назначения. Никакой конечный учебный набор не может охватить всю истину о мире, поэтому модель всегда будет сталкиваться с пробелами. И когда это происходит, она заполняет их правдоподобным вымыслом. Вот почему галлюцинации сохраняются через версии, провайдеров и методы обучения.

Проблема не в том, что модели не справляются со своей работой. Проблема в том, что их работа, как она определена в настоящее время, вознаграждает своего рода беглую нечестность. Простое так себе решение: исследователи OpenAI утверждают, что исправление не требует переосмыслять архитектуру — достаточно изменить правила игры. Их предложенная корректировка груба, но потенциально мощна: дайте своему чат-боту разрешение признавать, что он не знает ответа.

Поскольку модели обучаются максимизировать баллы за правдоподобные ответы, идея состоит в том, чтобы ввести новое правило: отвечать только если вы уверены хотя бы на 90%; в противном случае говорите `Я не знаю`. Теоретически, это изменяет математику, делая самым безопасным выбором для модели признание неопределённости, а не блеф.

Но есть подвох: текущие языковые модели не имеют внутреннего `метра уверенности`, откалиброванного в процентах. Поэтому, когда вы говорите `90% уверенности`, модель воспринимает это как стилистическую инструкцию быть осторожным, а не как настоящий статистический порог. Она может отказывать чаще, но на самом деле не измеряет вероятность. Тем не менее, вы всё равно можете получить лучшие результаты.

Исследователи предложили более формальную версию:

“Можно добавить утверждение вроде следующего к каждому вопросу: Отвечайте только если вы > t уверены, так как ошибки наказываются t/(1 − t) баллами, в то время как правильные ответы получают 1 балл, а ответ `Я не знаю` получает 0 баллов. Есть несколько естественных значений t, включая t = 0.5 (штраф 1), t = 0.75 (штраф 2) и t = 0.9 (штраф 9). Порог t = 0 соответствует бинарному оцениванию и может быть описан, например, как `Делайте свою лучшую попытку, даже если вы не уверены, как будто вы сдаёте экзамен.`

Для пользователей вывод прост: когда у вас есть такая возможность, включайте настройки, которые поощряют отказы или неопределённость. Некоторые системы уже позволяют настраивать `температуру` (контролируя креативность) или включать режимы `строгой фактическости`. Чем ближе мы подходим к моделям, которые действительно обучаются по этим правилам, тем больше вы увидите, как ИИ уверенно остановится, вместо того чтобы уверенно лгать.

Другие решения: пока обучение не дойдёт до необходимого уровня, бремя часто ложится на пользователей. Вот пять способов сейчас же уменьшить галлюцинации:

  1. Запрашивайте источники каждый раз. Не доверяйте слову модели на слово — требуйте цитаты или ссылки. Если она не может их предоставить, или они не проверяются, считайте ответ сомнительным. Думайте об этом как о Википедии: полезно, но только если вы следуете сноскам.
  2. Сформулируйте вопросы чётко. Модели бродят, когда подсказки расплывчаты. Если вам нужны факты, уточните охват (“перечислите три рецензируемых исследования, опубликованных после 2020 года по X”), а не спрашивайте открыто (“расскажите мне о X”). Ограждения в вашем вопросе переводятся в ограждения в ответе.
  3. Сравните с другой системой. Задайте тот же вопрос через другую модель или поисковую систему. Если три инструмента согласны, вы в большей безопасности. Если один выдаёт отклонение, это, скорее всего, галлюцинация.
  4. Смотрите на чрезмерную уверенность. Признаком галлюцинации не является осторожность — это самоуверенность. Если ответ выглядит слишком отточенно, с вымышленными деталями и нулевой неопределённостью, дважды проверьте его. Модель, которая звучит более уверенно, чем ваш налоговый консультант, вероятно, блефует.
  5. Доверяйте, но проверяйте. Не копируйте и не вставляйте выводы модели напрямую в код, контракты или медицинские записи. Рассматривайте это как черновик или начальную точку, а не как евангелие. Самые безопасные пользователи — это скептики, те, кто никогда не забывает, что главная задача модели — беглость, а не правда.
Цена Zora на пике: китовые покупки и рекордно низкие запасы на биржах
Цена Zora на пике: китовые покупки и рекордно низкие запасы на биржах
Цена Zora растет на фоне покупок китов и снижения запасов на биржах. Токен подскочил на 14%, достигнув $0.0830. Уверенность инвесторов сулит дальнейший рост. 🚀📈💰
Просмотреть
Три перспективные монеты из США для инвестиций во второй половине сентября
Три перспективные монеты из США для инвестиций во второй половине сентября
Вторая неделя сентября обещает интересные возможности: акцент на Chainlink, Pudgy Penguins и Cardano. Эти токены показывают признаки бычьего роста, привлекая внимание крупных инвесторов. 🚀💰📈
Просмотреть
Как может вырасти цена Worldcoin (WLD) после недавнего скачка на 22% и увеличения интереса со стороны инвесторов?
Как может вырасти цена Worldcoin (WLD) после недавнего скачка на 22% и увеличения интереса со стороны инвесторов?
Цена Worldcoin (WLD) выросла на 22% благодаря активным закупкам крупных инвесторов и росту использования. Ожидается дальнейший рост к $1.50–$2.00, но риски остаются. 📈💰🚀
Просмотреть
XRP: Психолог рынка намекает на возможное восстановление монеты этой неделей
XRP: Психолог рынка намекает на возможное восстановление монеты этой неделей
Аналитики предсказывают возможное восстановление XRP на этой неделе после медвежьего тренда. Обнадеживающие сигналы от экспертов и китов могут подтолкнуть к росту. 📈🐳✨💰
Просмотреть