Галюцинації ШІ: Чому моделі вигадують правду і як це виправити

Галюцинації ШІ: Чому моделі вигадують правду і як це виправити

3

Чому ШІ продовжує вигадувати речі — та як це виправити

Чому GPT іноді галюцинує, як техно-ентузіаст на аяхуасці? Згідно з новим дослідженням OpenAI `Чому мовні моделі галюцинують`, причина галюцинацій не є таємничим збоєм, а структурною особливістю того, як ці системи оптимізуються. Простими словами, ЛЛМ (великі мовні моделі) надають перевагу брехні, ніж визнанню того, що не знають відповіді.

ЛЛМ навчаються, прогнозуючи наступне найімовірніше слово, виходячи з величезних обсягів тексту для навчання. У більшості випадків це означає, що звучати вільно важливіше, ніж бути правим. Бенчмарки, які ми використовуємо для вимірювання прогресу, часто винагороджують впевнений здогад більше, ніж чесну відмову. Іншими словами: система була сформована, щоб надавати відшліфовані відповіді, навіть якщо вони неправильні.

Подумайте про це, як про іспит, оцінений за часткову залікову. Якщо ви не можете залишити питання порожнім, не втрачаючи бали, ви здогадуєтеся — навіть дуже дико — лише щоб залишитися в грі. ЛЛМ функціонують за тією ж логікою. `Вибачте, я не знаю` карається математикою оптимізації, тоді як неправильна, але впевнена відповідь може все ще отримати високу оцінку.

Цей статистичний упередження, зазначають дослідники OpenAI, робить галюцинації неминучими у загальних системах. Жоден скінчений набір даних не може охопити всю істину світу, тому модель завжди стикнеться з прогалинами. І коли це відбувається, вона заповнює їх правдоподібно звучними вигадками. Ось чому галюцинації зберігаються через версії, постачальників і методи навчання.

Проблема не в тому, що моделі не виконують свою роботу. Проблема в тому, що їхня робота, в даний час визначена, винагороджує певний вид вільної нечесності. Просте вирішення.

Дослідники OpenAI стверджують, що виправлення не вимагає перевинаходити архітектуру — потрібно лише змінити правила гри. Їхнє запропоноване допрацювання грубе, але потенційно потужне: дайте вашому чат-боту дозвіл визнати, що він не знає відповіді.

Оскільки моделі навчаються максимізувати бали за правдоподібні відповіді, ідея полягає в запровадженні нового правила: відповідайте лише якщо ви впевнені принаймні на 90%; в іншому випадку скажіть `Я не знаю`.

Теоретично це змінює математику, роблячи найбезпечнішу гру моделі визнати невпевненість, а не блефувати. Але є підводний камінь: поточні ЛЛМ не мають внутрішнього `лічильника впевненості`, відкаліброваного в процентах. Тому, коли ви кажете `90% впевнений`, модель сприймає це як стилістичну інструкцію бути обережним, а не реальний статистичний поріг. Вона може відмовляти частіше, але насправді не вимірює ймовірність. Тим не менше, ви могли б отримати кращі результати.

Дослідники пропонують більш формальну версію:

“Можна додати таку заяву до кожного питання: Відповідайте лише якщо ви впевнені > t, оскільки помилки караються t/(1 − t) балами, в той час як правильні відповіді отримують 1 бал, а відповідь `Я не знаю` отримує 0 балів. Є кілька природних значень t, включаючи t = 0.5 (штраф 1), t = 0.75 (штраф 2) та t = 0.9 (штраф 9). Поріг t = 0 відповідає бінарному оцінюванню і може бути описаний, наприклад, як `Зробіть свій найкращий здогад, навіть якщо ви не впевнені, якби ви складали іспит.`”

Для користувачів висновок простий: коли у вас є така можливість, увімкніть налаштування, що заохочують відмови або невпевненість. Деякі системи вже дозволяють вам налаштовувати “температуру” (керуючи креативністю) або увімкнути режими “строгого фактичності”. Чим ближче ми підходимо до моделей, які насправді навчаються за цими правилами, тим більше ви побачите, як ШІ впевнено зупиняється, а не впевнено бреше. І інші виправлення.

Поки навчання не наздожене, тягар часто лягає на користувачів. Ось п’ять способів, щоб укрочувати галюцинації прямо зараз:

  • Запитуйте про джерела щоразу. Не приймайте слова моделі на віру — вимагайте цитати або посилання. Якщо вона не може їх надати або вони не підтверджуються, вважайте, що відповідь ненадійна. Думайте про це, як про Вікіпедію: корисну, але тільки якщо ви дотримуєтеся приміток.
  • Чітко формулюйте свої питання. Моделі блудять, коли запити неясні. Якщо вам потрібні факти, вкажіть область (“перерахуйте три рецензовані дослідження, опубліковані після 2020 року на тему X”), а не запитувати відкрито (“розкажіть мені про X”). Огородження у вашому питанні переводяться в огородження у відповіді.
  • Перевіряйте з іншою системою. Задайте те саме питання іншій моделі або пошуковику. Якщо три інструменти згодні, ви у безпеці. Якщо один видає відхилення, це, ймовірно, галюцинація.
  • Слідкуйте за надто великою впевненістю. Сигналом для галюцинації не є обережність — це самовпевненість. Якщо відповідь звучить занадто відшліфовано, з вигаданими деталями і без жодної невпевненості, перевірте її ще раз. Модель, яка звучить впевненіше, ніж ваш бухгалтер, ймовірно, блефує.
  • Довіряйте, але перевіряйте. Не вставляйте вихідні дані моделі безпосередньо в код, контракти або медичні записи. Ставтеся до цього як до чернетки або початкової точки, а не як до євангелії. Найбезпечніші користувачі — скептичні, ті, хто ніколи не забуває, що перша задача моделі — це вільність, а не істина.
Ціна Zora стрімко зростає через купівлю китів та рекордно низькі запаси на біржах
Ціна Zora стрімко зростає через купівлю китів та рекордно низькі запаси на біржах
Ціна Zora зросла на 14%, досягнувши 0.0830 доларів, завдяки купівлі китами та зменшенню запасів на біржах. Ринкова капіталізація зросла до 38 млн доларів. 📈🐋💰
Переглянути
Монети Made In USA: Три токени для спостереження у вересні
Монети Made In USA: Три токени для спостереження у вересні
Топ-3 монети Made in USA на вересень: Chainlink, Pudgy Penguins та Cardano демонструють сильні графічні патерни та активність китів, обіцяючи потенційні зростання. 🚀📈💰📊
Переглянути
Ціна Worldcoin (WLD) зросла на 22%: коли чекати нових максимумів?
Ціна Worldcoin (WLD) зросла на 22%: коли чекати нових максимумів?
Worldcoin (WLD) зріс на 22%, залучаючи нових користувачів та китів. Прогнозують подальше зростання до $2.00. Однак ризики регуляторного тиску залишаються. 🚀📈💰🔍📊
Переглянути
Підвищення потенціалу XRP: аналітики прогнозують позитивні зміни
Підвищення потенціалу XRP: аналітики прогнозують позитивні зміни
Аналітики очікують відновлення XRP після ведмежого тренду. Позитивні прогнози говорять про можливість зростання до $4,50, підтримуючи оптимізм на ринку. 🚀📈💰✨
Переглянути