Галюцинації ШІ: Чому моделі вигадують правду і як це виправити
27
Чому ШІ продовжує вигадувати речі — та як це виправити
Чому GPT іноді галюцинує, як техно-ентузіаст на аяхуасці? Згідно з новим дослідженням OpenAI `Чому мовні моделі галюцинують`, причина галюцинацій не є таємничим збоєм, а структурною особливістю того, як ці системи оптимізуються. Простими словами, ЛЛМ (великі мовні моделі) надають перевагу брехні, ніж визнанню того, що не знають відповіді.
ЛЛМ навчаються, прогнозуючи наступне найімовірніше слово, виходячи з величезних обсягів тексту для навчання. У більшості випадків це означає, що звучати вільно важливіше, ніж бути правим. Бенчмарки, які ми використовуємо для вимірювання прогресу, часто винагороджують впевнений здогад більше, ніж чесну відмову. Іншими словами: система була сформована, щоб надавати відшліфовані відповіді, навіть якщо вони неправильні.
Подумайте про це, як про іспит, оцінений за часткову залікову. Якщо ви не можете залишити питання порожнім, не втрачаючи бали, ви здогадуєтеся — навіть дуже дико — лише щоб залишитися в грі. ЛЛМ функціонують за тією ж логікою. `Вибачте, я не знаю` карається математикою оптимізації, тоді як неправильна, але впевнена відповідь може все ще отримати високу оцінку.
Цей статистичний упередження, зазначають дослідники OpenAI, робить галюцинації неминучими у загальних системах. Жоден скінчений набір даних не може охопити всю істину світу, тому модель завжди стикнеться з прогалинами. І коли це відбувається, вона заповнює їх правдоподібно звучними вигадками. Ось чому галюцинації зберігаються через версії, постачальників і методи навчання.
Проблема не в тому, що моделі не виконують свою роботу. Проблема в тому, що їхня робота, в даний час визначена, винагороджує певний вид вільної нечесності. Просте вирішення.
Дослідники OpenAI стверджують, що виправлення не вимагає перевинаходити архітектуру — потрібно лише змінити правила гри. Їхнє запропоноване допрацювання грубе, але потенційно потужне: дайте вашому чат-боту дозвіл визнати, що він не знає відповіді.
Оскільки моделі навчаються максимізувати бали за правдоподібні відповіді, ідея полягає в запровадженні нового правила: відповідайте лише якщо ви впевнені принаймні на 90%; в іншому випадку скажіть `Я не знаю`.
Теоретично це змінює математику, роблячи найбезпечнішу гру моделі визнати невпевненість, а не блефувати. Але є підводний камінь: поточні ЛЛМ не мають внутрішнього `лічильника впевненості`, відкаліброваного в процентах. Тому, коли ви кажете `90% впевнений`, модель сприймає це як стилістичну інструкцію бути обережним, а не реальний статистичний поріг. Вона може відмовляти частіше, але насправді не вимірює ймовірність. Тим не менше, ви могли б отримати кращі результати.
Дослідники пропонують більш формальну версію:
“Можна додати таку заяву до кожного питання: Відповідайте лише якщо ви впевнені > t, оскільки помилки караються t/(1 − t) балами, в той час як правильні відповіді отримують 1 бал, а відповідь `Я не знаю` отримує 0 балів. Є кілька природних значень t, включаючи t = 0.5 (штраф 1), t = 0.75 (штраф 2) та t = 0.9 (штраф 9). Поріг t = 0 відповідає бінарному оцінюванню і може бути описаний, наприклад, як `Зробіть свій найкращий здогад, навіть якщо ви не впевнені, якби ви складали іспит.`”
Для користувачів висновок простий: коли у вас є така можливість, увімкніть налаштування, що заохочують відмови або невпевненість. Деякі системи вже дозволяють вам налаштовувати “температуру” (керуючи креативністю) або увімкнути режими “строгого фактичності”. Чим ближче ми підходимо до моделей, які насправді навчаються за цими правилами, тим більше ви побачите, як ШІ впевнено зупиняється, а не впевнено бреше. І інші виправлення.
Поки навчання не наздожене, тягар часто лягає на користувачів. Ось п’ять способів, щоб укрочувати галюцинації прямо зараз:
- Запитуйте про джерела щоразу. Не приймайте слова моделі на віру — вимагайте цитати або посилання. Якщо вона не може їх надати або вони не підтверджуються, вважайте, що відповідь ненадійна. Думайте про це, як про Вікіпедію: корисну, але тільки якщо ви дотримуєтеся приміток.
- Чітко формулюйте свої питання. Моделі блудять, коли запити неясні. Якщо вам потрібні факти, вкажіть область (“перерахуйте три рецензовані дослідження, опубліковані після 2020 року на тему X”), а не запитувати відкрито (“розкажіть мені про X”). Огородження у вашому питанні переводяться в огородження у відповіді.
- Перевіряйте з іншою системою. Задайте те саме питання іншій моделі або пошуковику. Якщо три інструменти згодні, ви у безпеці. Якщо один видає відхилення, це, ймовірно, галюцинація.
- Слідкуйте за надто великою впевненістю. Сигналом для галюцинації не є обережність — це самовпевненість. Якщо відповідь звучить занадто відшліфовано, з вигаданими деталями і без жодної невпевненості, перевірте її ще раз. Модель, яка звучить впевненіше, ніж ваш бухгалтер, ймовірно, блефує.
- Довіряйте, але перевіряйте. Не вставляйте вихідні дані моделі безпосередньо в код, контракти або медичні записи. Ставтеся до цього як до чернетки або початкової точки, а не як до євангелії. Найбезпечніші користувачі — скептичні, ті, хто ніколи не забуває, що перша задача моделі — це вільність, а не істина.
Аналітики попереджають: значні зміни на ринку криптовалют можуть бути близько, особливо для Ефіру та Солани.
Аналітик Джон Боллінджер попереджає про можливі великі зміни на ринку криптовалют. Патерни Ефіру та Солани сигналізують про можливий ринковий розворот. 🪙📈👀
Уроки для криптоінвесторів з останньої волатильності ринку
Крипторинок переживає значну волатильність через геополітичні події. Інвесторам варто усвідомити нові ризики та адаптувати стратегії, оскільки традиційні інвестори впливають на цінові тренди. 📉💡🔍
Chainlink: підтримка на $16 як ключ до потенційного ралі до $19.30
Chainlink бореться на підтримці $16. Аналіз CryptoWzrd вказує на можливість бичачого прориву вище $16.80, що могло б запустити ралі до $19.30. 💹🔍💰🔄📈
Ціна Solana під тиском: аналітики сперечаються про майбутнє ринку та ведмежу тенденцію
Ціна Solana під тиском ведмежого ринку, коливаючись близько $184. Аналітики вказують на втрату висхідного тренду, прогнозуючи обережність інвесторів. 📉💔💡