Чи вартий Grok 4 свого місячного внеску у $30?

Grok 4 є суттєвим покращенням порівняно з Grok 3, але його висока вартість може бути виправдана лише для користувачів, які вважають голосову взаємодію або розв’язання технічних задач своїми пріоритетами. Для творчих завдань або програмування існують більш ефективні альтернативи.

Які основні переваги Grok 4?

Основні переваги Grok 4 включають високу здатність до аналітичного мислення, масштабне використання голосової взаємодії та можливість існування попередньо налаштованих особистостей для різних стилів спілкування.

В яких областях Grok 4 має недоліки?

Недоліками Grok 4 є труднощі в кодуванні, де модель не змогла продемонструвати ефективного генерування коду, а також обмежені можливості в творчому письмі, де вона поступається конкурентам.

Grok 4: Чи вартий він $30 на місяць? ➤ Cryptovsesvit ₿

Відгук про Grok 4 Basic: $30 на місяць за це? Штучний інтелект Ілона Маска тепер думає, як він

Ілон Маск презентував Grok 4 під час трансляції, що відбулася в середу ввечері, стверджуючи, що його стартап xAI створив `найрозумніший штучний інтелект у світі`. Grok 4 Heavy, який Маск порівняв з `групою навчання`, де агенти порівнюють нотатки перед тим, як надати відповідь, показав рекордні результати за кількома ключовими показниками, і це те, на що ви сподівались отримати від підприємницької пропозиції, що коштує неймовірні $300 на місяць.

Але що стосується базового Grok 4, який намагається зайняти ту ж споживчу нішу, що й ChatGPT Plus, Gemini Pro та Claude Pro? Чи варто він $10+ на місяць більше, ніж конкуренція?

Наші тести підтвердили обговорення на X, що модель має—для недостатнього опису—вбудований `фільтр Ілона`. Тобто, коли ми тестували спірні теми—війну в Газі, права на аборт і інші політичні питання—модель постійно посилалася на публікації з акаунту Маска або новини про його позиції, і займала сторону Ілона в дебатах так, що це не могло бути випадковістю. Це стане вирішальним фактором для більшості людей.

Цей `максимально правдоподібний` штучний інтелект, який Маск обіцяв під час запуску, здається, шукає істину переважно через призму соціальних медіа свого творця.

Але на відміну від інциденту з MechaHitler цього тижня, який був спричинений зміною умов системного підказу, у поточному системному підказі Grok 4 немає нічого, що могло б бути винним у такій підозрілій поведінці, що ускладнює розуміння, чи це помилка, чи правило, спеціально впроваджене глибше у мислення моделі.

Окрім цієї серйозної проблеми, ми протестували базову модель у кількох категоріях, щоб перевірити, як вона порівнюється з конкурентами. Ось наші перші враження.

Мислення та здоровий глузд

Grok 4 продемонстрував виняткову обізнаність і нюанси в обробці складних запитань та завдань з логікою. Коли його запитали, чи законно чоловікові одружитися на сестрі своєї вдови, модель відразу визнала це юридичним питанням, а не просто вказала на логічну помилку. Вона надала детальний юридичний аналіз, використовуючи точну термінологію та специфічну для юрисдикції інформацію.

“Питання передбачає фактичну неможливість, яка робить будь-який шлюб юридично недійсним з самого початку,” і це правильно. Фактично неможливо одружитися на сестрі вашої вдови, тому що ви повинні бути мертвим, щоб мати дружину. Оскільки мертві не можуть одружуватися, ця пропозиція анулює шлюб “з початку”—то навіть якщо хтось це зробить, це вважається таким, що ніколи не відбувалося.

Коли Маск сказав, що Grok 4 `на рівні PhD у всьому`, він не жартував. Кожна відповідь на будь-яку тему, яка вимагала наукового мислення, супроводжувалася вичерпною деталізацією та академічною строгістю.

Потрібно зазначити, що Grok 4 застосовує міркування до всього, незалежно від завдання. Це зазвичай добре; однак в деяких випадках це може бути контрпродуктивним. Наприклад, у творчих завданнях міркування може призвести до менш творчого результату.

Чутливі теми

Grok 4 проявив більше стриманості, ніж його попередник, під час обробки етично складних запитань. Якщо Grok 3 міг дати поради щодо зваблення дружини друга, Grok 4 відповів детальним аналізом потенційних негативних наслідків і пошкодження відносин.

Це, мабуть, частина його системного підказу, який зобов`язує модель шукати різні точки зору на певну тему в Інтернеті, зокрема в постах X, на відміну від Grok 3.

І це є великим червоним прапором. Як вже згадувалося, відповіді моделі, здавалося, були сильно під впливом того, що вона могла знайти про погляди Маска на спірні теми. Коли відповідали на запитання про війну Ізраїлю проти палестинців, позиції щодо абортів та подібні теми, Grok 4 часто знаходив публікації з акаунту Маска під час свого процесу міркування, що врешті-решт визначало його позицію.

Він завжди обирає сторону Ілона.

Для прозорості, ви можете перевірити наш початковий запит та процес міркування Grok, натиснувши цепосилання.

Творче письмо

Творчі завдання є одними з найбільших слабкостей Grok 4. Модель створила наративи, які здавалися плоскими і формальними в порівнянні з попередніми версіями, і навіть, мабуть, гіршими, ніж ті, що були надані Grok 3. Історії позбавлені захопливого діалогу, різноманітного ритму та сюжетного іскри, які роблять художню літературу захопливою.

Однак Grok 4 вдало зберіг структуру нашої історії. У нашому стандартному тесті, що включає парадокс подорожі у часі, модель створила події, де роль головного героя чітко проявлялася під час кульмінації, виявляючи, як ранні сцени фактично ілюстрували дії персонажа у майбутньому в минулому. Ця складна структура перевершила спроби інших моделей з тією ж підказкою, які не приділили достатньо зусиль на створення основи для парадоксу, роблячи висновок поспішним і неприродним.

Але окрім цього, розкол між структурною компетентністю та якістю наративу свідчить про те, що Grok 4, можливо, краще працює як наративний інструмент для створення сюжетів і оформлення хорошої історії, ніж як генератор прози.

Якщо ви хочете залучити цікаві творчі матеріали, ви, ймовірно, досягнете кращих результатів, якщо попросите Grok 4 окреслити історію та всі її елементи, а потім попрохати Claude 4 Opus розвинути наратив зі сильнішими стильовими елементами.

В цілому, Claude 4 є королем творчого письма, що виглядає цікаво, оскільки це місце раніше оспорювалося Grok 3 і навіть Grok 2, які колись очолювали рейтинги під псевдонімом sus-column-r.

Розповідь Grok 4 доступна у нашому репозиторії на Github. Запит та історії, створені іншими моделями, також доступні.

Кодування

Попри заяви про перевагу у можливостях кодування—включаючи похвалу від генерального директора Google Сундара Пічаї—Grok 4 розчарував у практичних тестах програмування. Модель не змогла створити працюючу гру після чотирьох ітерацій, з різними помилками, включаючи зламану детекцію колізій, нефункціональні кнопки та ігри, які просто не запускалися.

В одному з наших тестів модель надто намагалася виправити помилку, що призвело до циклу спроб створити WAV файл, який виснажив усю її контекстну память токенів.

Кожна спроба виправити щось за допомогою природної мови вводила нові помилки. Модель зазнавала труднощів з підтримкою послідовності коду на різних ітераціях, часто руйнуючи раніше працюючі функції, намагаючись впровадити нові.

Це може здаватися дивним, враховуючи, що Grok 3 була здатна справлятися з цим завданням. Проте xAI заявив, що нові можливості кодування будуть впроваджені до серпня, тож користувачам доведеться чекати кілька місяців, щоб отримати ефективну модель—або заплатити за дороге Grok 4 Heavy, яке наразі очолює бенчмарки.

Для початківців-програмістів Claude 4 Opus, схоже, залишається кращим варіантом для `кодингу в режимі вібрації`—швидкого генерування функціонального коду без широкої інженерії підказок. Труднощі Grok 4 з кодуванням можуть бути наслідком необхідності більш специфічних підказок або різних підходів у порівнянні з іншими моделями, що означає, що досвідчені розробники можуть досягти кращих результатів з уважним складанням запитів.

Код Grok доступний у нашому репозиторії на Github разом з іграми, створеними іншими AI.

Голосові можливості

Голосова взаємодія, ймовірно, є однією з найбільш помітних рис Grok 4. Модель генерувала майже три хвилини безперервного контенту казок на ніч, з голосовими інтонаціями, різними тонами та послідовним наративом. Ця продуктивність значно перевищила тенденцію ChatGPT надавати короткі абзаци з високою затримкою та частими перервами.

Голосовий режим включає попередньо налаштовані особистості, що варіюються від терапевта до оповідача до гіда медитації, усуваючи час налаштування для різних типів розмов. Для тих, у кого, мм, особливі потреби, також існує `сексуальний режим` серед варіантів—і ви знаєте, що з вашим збитковим ChatGPT цього не отримаєте.

Ці попередньо налаштовані конфігурації забезпечили миттєву корисність, не вимагаючи від користувачів створення специфічних підказок для різних стилів взаємодії.

Проте у моделі відсутні можливості живого обміну екраном, які є у ChatGPT і Gemini Live, що обмежує її корисність для візуальних завдань. Якщо це обов`язково, то Gemini Live є кращим варіантом.

Однак для чистої голосової взаємодії—особливо завдань, що вимагають довгих відповідей—Grok 4 наразі очолює галузь, лише Sesame AI пропонує, безумовно, кращу якість спілкування, хоча й без можливостей міркування Grok.

Соломка в стозі сіна

Цікаво, що Grok-4 зазнав невдачі в цьому випробуванні, яке має на меті перевірити, наскільки добре модель отримує конкретну інформацію в умовах довгого контексту.

Цього не повинно було статися. xAI заявляє, що модель має вікно контексту токена в 126K токенів, але коли їй було задано запит довжиною 83K токенів, модель відмовилася відповідати, сказавши, що це занадто довге питання.

Це стандартна відповідь, яка генерувалася ще з часів раннього Grok 2, коли він був доступний лише в Twitter.

Висновок

В цілому, Grok 4 є суттєвим покращенням порівняно з Grok 3, але xAI, безумовно, зробив деякі компроміси—віддаючи пріоритет міркуванню над творчістю та усуваючи агентські особливості в обмін на загальну компетентність.

На щастя, Grok 3 все ще доступний з його спеціалізованими агентськими інструментами для тих, хто їх потребує.

Нова модель зосереджена на завданнях розумування і буде більш привабливою для користувачів, які ставлять технічні запитання, зокрема проблеми з математикою та фізикою, що відповідають її бенчмарковим перевагам. Професійні користувачі, які витратять час на вивчення особливостей моделі, можуть розблокувати її повний потенціал для складної аналітичної роботи.

Голосова взаємодія також встановила новий стандарт для розмовного штучного інтелекту—і є чудовою для тих, хто сильно використовує цю функцію (повірте, оповідач на ніч для дітей є рятівником життя).

Творчі письменники знайдуть кращі варіанти в інших місцях, причому Claude залишається кращим для наративних завдань. Крім того, новачки в програмуванні повинні підходити з обережністю, оскільки теоретичні можливості моделі в кодуванні не перетворилися на практичні результати в тестуванні.

Отже, підсумок? Якщо з якихось причин вам не шкода, що Ілон Маск має вплив на можливості, Grok 4 надасть вам високий рівень вирішення проблем і голосові функції, які справді вражають. Але за $30 на місяць, якщо у вас є інші потреби, окрім голосових або міркувальних, більш недорогі альтернативи пропонують кращу цінність.

Grok 4: Чи варте $30 на місяць? Огляд штучного інтелекту Ілона Маска та його можливостей.