Anthropic Claude 4: Творчий прогрес за старими обмеженнями

Anthropic Claude 4: Творчий прогрес за старими обмеженнями

6

Огляд Anthropic Claude 4: Творчий геній, затиснутий старими обмеженнями

Компанія Anthropic, що базується в Сан-Франциско, щойно представила четверте покоління своїх моделей штучного інтелекту Claude, і результати виявилися... складними. Поки Google розширює контекстні вікна до понад мільйона токенів, а OpenAI розробляє мультимодальні системи, які бачать, чують і говорять, Anthropic залишилася на старому рівні з обмеженням у 200,000 токенів та текстовим підходом. Тепер вона відрізняється від інших великих компаній у сфері штучного інтелекту.

Час виходу продукту виглядає навмисно: Google також анонсувала Gemini на цьому тижні, а OpenAI представила нового кодувального агента на основі своєї запатентованої моделі Codex. Відповідь Claude на це? Гібридні моделі, які переключаються між режимами міркування та неміркування в залежності від завдань, які їм ставлять — пропонуючи те, що OpenAI очікує впровадити з моменту випуску GPT-5.

Однак є дещо, про що користувачам API слід серйозно подумати: Anthropic стягує преміальні ціни за це оновлення.

Чат-бот залишається тим же, коштує $20, а Claude Max оцінюється в $200 на місяць з 20-кратними обмеженнями використання.

Ми протестували нові моделі в рамках творчого письма, програмування, математики та рішень. Результати розповідають цікаву історію з незначними покращеннями в деяких областях, приголомшливими покращеннями в інших та чітким зрушенням пріоритетів Anthropic у бік розробників.

Творче письмо

Здатності до творчого письма визначають, наскільки моделі штучного інтелекту можуть створювати захоплюючі наративи, підтримувати послідовний тон і природно інтегрувати фактичні елементи. Ці навички важливі для творців контенту, маркетологів та всіх, кому потрібна допомога штучного інтелекту в історіях чи переконливому письмі.

Наразі немає моделі, яка могла б перевершити Claude в цьому суб`єктивному тесті. Тому немає сенсу порівнювати Claude з варіантами третьої сторони. Для цього завдання ми вирішили протиставити Sonnet і Opus.

Ми попросили моделі написати коротку історію про людину, яка подорожує назад у часі, щоб запобігти катастрофі, але зрештою усвідомлює, що її дії з минулого насправді стали частиною подій, які призвели до конкретного майбутнього. Запит надавав деякі деталі для розгляду і надавав моделям достатньо свободи та творчості для постановки історії на свій лад.

Claude Sonnet 4 створив яскраву прозу з найкращими атмосферними деталями і психологічною нюансурою. Модель створила захоплюючі описи та надала переконливу історію, хоча фінал не зовсім відповідав запиту — проте він вписувався в наратив та очікуваний результат.

Оцінка: 9/10 — безумовно краще, ніж Claude 3.7 Sonnet

Claude Opus 4 зосередив свою спекулятивну фантастику на правдоподібних історичних контекстах, посилаючись на корінні світогляди та доколоніальне суспільство Тупі з ретельною увагою до культурних обмежень. Модель природно інтегрувала вихідний матеріал і надала довшу історію, ніж Sonnet, але, на жаль, не змогла зрівнятися з його поетичним шармом.

Вона також продемонструвала цікаву річ: Наратив почався набагато яскравіше і був більш захоплюючим, ніж те, що запропонував Sonnet, але десь посередині, він переніс акцент на швидку розв`язку сюжету, що зробило фінал нудним і передбачуваним.

Оцінка: 8/10

Sonnet 4 переміг у категорії творчого письма, хоча маржа залишалася вузькою. Письменники, будьте обережні: на відміну від попередніх моделей, можливо, Anthropic не акцентувала на покращеннях творчого письма, зосереджуючи зусилля розробки в інших напрямках.

Всі історії доступні тут.

Програмування

Оцінка коду визначає, чи може ШІ генерувати функціональне та зручне програмне забезпечення, яке відповідає кращим практикам. Ця здатність впливає на розробників, які використовують ШІ для генерації коду, налагодження та архітектурних рішень.

Gemini 2.5 Pro вважається королем коду, згенерованого ШІ, тому ми протестували його проти Claude Opus 4 у розширеній версії.

Ми поставили безконтекстні завдання для гри — робота, який повинен уникати журналістів, щоб з’єднатися з комп`ютером і досягти AGI — і використали ще одне повторення для виправлення помилок і уточнення різних аспектів гри.

Claude Opus створив гру в жанрі стелс з механікою від третьої особи, включаючи динамічні звукові хвилі, слідчі стани штучного інтелекту та оклюзію зорового конуса. Реалізація передбачала багатий геймплей: журналісти реагували на звуки через сигнал heardSound, перепони блокували розрахунки лінії зору, а процедурна генерація створювала унікальні рівні при кожному проходженні.

Оцінка: 8/10

Gemini згенерував платформер з боковою прокруткою з більш чіткою архітектурою, використовуючи класи ES6 та названі константи.

Гра не була функціональною після двох повторень, але реалізація ефективно розділяла завдання: level.init() обробляв генерацію території, клас Journalist інкапсулював логіку патрулювання, і такі константи, як PLAYER_JUMP_POWER, забезпечили легке налаштування. Хоча ігровий процес залишався простішим, ніж у версії Claude, структура й стандарти кодування отримали особливо високі оцінки за читабельність та зручність підтримки.

Verdict: Claude переміг: він доставив більш функціональний ігровий процес, який користувачі віддавали б перевагу.

Однак розробники можуть віддати перевагу Gemini, незважаючи на все це, адже він створив чистіший код, з яким легше працювати.

Наші запити та коди доступнітут. А гра, згенерована з Claude, доступнатут для гри.

Математичне міркування

Розв`язування математичних задач перевіряє здатність моделей штучного інтелекту виконувати складні обчислення, показувати кроки міркування та отримувати правильні відповіді. Це важливо для освітніх застосувань, наукових досліджень та будь-якої галузі, що вимагає точного обчислювального мислення.

Ми порівняли Claude і останню модель міркування OpenAI, o3, попросивши моделі вирішити задачу, яка з`явилася на бенчмарку FrontierMath — спеціально розробленому, щоб бути складним для моделей:

`Сконструюйте поліном ступеня 19 p(x) ∈ C[x] так, щоб X := {p(x) = p(y)} ⊂ P1 × P1 мав принаймні 3 (але не всі лінійні) ірраціональні компоненти над C. Виберіть p(x) так, щоб вона була непарною, монічною, з дійсними коефіцієнтами та лінійним коефіцієнтом -19, і обчисліть p(19).`

Claude Opus 4 продемонстрував свій повний процес міркування, вирішуючи складні математичні завдання. Прозорість дозволила оцінювачам простежити логічні шляхи і визначити, де в математичних обчисленнях виникли помилки. Незважаючи на те, що він показав увесь процес, модель не досягла ідеальної точності.

Модель o3 від OpenAI досягла 100% точності при справжньому вирішенні математичних завдань, що стало першим випадком, коли будь-яка модель повністю вирішила тестові задачі. Однак o3 скоротила свій процес міркування, показуючи лише фінальні відповіді без проміжних кроків. Цей підхід ускладнив аналіз помилок і унеможливив перевірку логіки або навчання на процесі розв`язання.

Verdict: OpenAI o3 виграла в категорії математичного міркування завдяки ідеальній точності, хоча прозорий підхід Claude надає освітні переваги.

Ви можете перевірити ланцюг міркувань Claude 4тут.

Нематематичне міркування та комунікація

Для цієї оцінки ми хотіли протестувати здібності моделей розуміти складності, формувати нюансовані повідомлення та балансувати інтереси. Ці навички є життєво важливими для бізнес-стратегії, зв’язків із громадськістю та будь-яких сценаріїв, які вимагають продуманих комунікацій.

Ми надали Claude, Grok і ChatGPT інструкції створити єдину комунікаційну стратегію, яка одночасно адресує п’ять різних груп зацікавлених сторін про критичну ситуацію в великому медичному центрі. Кожна група має різко різні перспективи, емоційні стани, потреби в інформації та переваги в комунікації.

Claude продемонстрував виняткове стратегічне мислення через структуру повідомлення з трьох стовпців для кризи з програмним забезпеченням у лікарні: Безпека пацієнтів на першому місці, Активна реакція та Сильніше майбутнє. Відповідь включала конкретні виділення ресурсів на екстрене фінансування в обсязі 2.3 мільйона доларів, детальні терміни для кожної групи зацікавлених сторін та культурно чутливі адаптації для двомовних популяцій. Індивідуальні запобігання членів ради отримали персональну увагу, зберігаючи при цьому послідовність повідомлень. Модель надала хороший набір вступних заяв, щоб зрозуміти, як підходити до кожної аудиторії.

ChatGPT також був непоганим у цьому завданні, але не на тому ж рівні деталей і практичності. Хоча він надавав чіткі принципи, GPT4.1 більше покладався на варіацію тону, ніж на сутнісні адаптації контенту. Відповіді були обширними і детальними, прогнозуючи питання і настрої, а також те, як наші дії можуть вплинути на тих, до кого ми звертаємося. Проте в них не вистачало конкретних виділених ресурсів, детальних термінів виконання та інших деталей, які надав Claude.

Verdict: Claude виграв.

Ви можете перевірити результати та ланцюг міркувань для кожної моделітут.

Галузь, що вимагає точності

Здатності до пошуку контексту визначають, наскільки ефективно моделі штучного інтелекту можуть локалізувати конкретну інформацію в об`ємних документах або розмовах. Ця навичка виявляється критично важливою для юридичних досліджень, аналізу документів, оглядів академічної літератури та будь-якої ситуації, що потребує точного вилучення інформації з великих обсягів текстів.

Ми протестували здатність Claude ідентифікувати конкретну інформацію, заховану в дедалі більших контекстних вікнах, використовуючи стандартну методологію `голки в копиці сіна`. Ця оцінка полягала в розміщенні цільового фрагмента інформації в різних позиціях у документах різної довжини та вимірюванні точності вилучення.

Claude Sonnet 4 і Opus 4 успішно ідентифікували голку, коли вона була вбудована в сіно з 85,000 токенів. Моделі продемонстрували надійні можливості вилучення інформації в різних позиціях у цьому контекстуальному діапазоні, зберігаючи точність, будь інформація з`являлася на початку, в середині чи в кінці документа. Якість відповідей залишалася стабільною, з модулем, що надавала точні цитати та відповідний контекст навколо вилученої інформації.

Однак продуктивність моделей зіткнулась з жорстким обмеженням при спробі обробити тест на 200,000 токенів. Вони не змогли пройти цю оцінку, оскільки розмір документа перевищив їх максимальну потужність контекстного вікна в 200,000 токенів. Це є суттєвим обмеженням у порівнянні з конкурентами, такими як Gemini від Google, яка обробляє контекстні вікна, що перевищують мільйон токенів, та моделі OpenAI з набагато більшими можливостями обробки.

Це обмеження має практичні наслідки для користувачів, які працюють з великими документами. Юридичні фахівці, які аналізують об`ємні контракти, дослідники, які обробляють великі наукові статті, або аналітики, що переглядають деталізовані фінансові звіти, можуть знайти обмеження контексту Claude проблемними. Нездатність обробити повний тест на 200,000 токенів свідчить про те, що реальні документи, які наближаються до цього розміру, можуть викликати скорочення або вимагати ручного сегментування.

Verdict: Gemini — краща модель для завдань з довгими контекстами.

Ви можете перевірити результати як для голки, так і для копиці сінатут.

Висновок

Claude 4 чудовий і кращий, ніж будь-коли — але він не для всіх.

Потужні користувачі, які потребують його творчих і кодувальних здібностей, будуть дуже задоволені. Його розуміння людської динаміки також робить його ідеальним для бізнес-стратегів, професіоналів у комунікаціях і всіх, хто потребує складного аналізу сценаріїв з багатьма зацікавленими сторонами. Прозорий процес міркування моделі також вигідний для освітян та дослідників, які прагнуть зрозуміти шляхи прийняття рішень ШІ.

Однак новачки, які хочуть скористатися всіма перевагами ШІ, можуть виявити, що чат-бот трохи нудний. Він не створює відео, з ним не можна поговорити, а інтерфейс менш потертий, ніж у Gemini або ChatGPT.

Обмеження контекстного вікна в 200,000 токенів впливає на користувачів Claude, які обробляють довгі документи або ведуть тривалі розмови, і він також вводить дуже строгі квоти, які можуть вплинути на користувачів, які очікують довгих сеансів.

На нашу думку, це впевнене `так` для творчих письменників і розробників коду. Іншим типам користувачів може знадобитися розглянути варіанти, порівнявши переваги та недоліки альтернатив.

Редагувалося Ендрю Хейвардом.

БОНК: Чи зможе «золотий хрест» спричинити 77% ріст ціни?
БОНК: Чи зможе «золотий хрест» спричинити 77% ріст ціни?
БОНК демонструє позитивні тенденції, наближаючись до «золотого хреста». Якщо вдасться подолати опір $0.00002285, ціна може зрости на 77%! 🚀💰📈
Переглянути
Dogecoin: Підтримка на рівні $0.23 в умовах ведмежого тренду та зростаючого попиту
Dogecoin: Підтримка на рівні $0.23 в умовах ведмежого тренду та зростаючого попиту
Dogecoin знизився нижче $0.23, але відновлює попит. Попри ведмежий тренд, підтримка тримається на рівні $0.227. Інвестори залишаються впевненими. 📉💪🪙✨
Переглянути
SHIB знизився на 5%, але стабілізувався завдяки підтримці лояльних утримувачів
SHIB знизився на 5%, але стабілізувався завдяки підтримці лояльних утримувачів
SHIB знизився на 5%, але знайшов підтримку на рівні $0.00001440. Лояльні утримувачі зберігають позиції, а прогнози AI обіцяють зростання до $0.00003 до 2025 року. 🐕📈💪
Переглянути
Інвестиції в Shiba Inu чи XRP: прогнози від ChatGPT та Google Gemini на найближчі пять років
Інвестиції в Shiba Inu чи XRP: прогнози від ChatGPT та Google Gemini на найближчі пять років
ChatGPT та Gemini рекомендують інвестувати $10,000 у криптовалюту з розподілом 70% в XRP та 30% в Shiba Inu. XRP вважається стабільнішим активом з реальним застосуванням, тоді як SHIB має високий ризик, але потенціал зростання. 📈🚀💰
Переглянути