Grok 4: Искусственный интеллект Маска — стоит ли $30 в месяц?

Grok 4: Искусственный интеллект Маска — стоит ли $30 в месяц?

2

Обзор Grok 4: $30 в месяц за это? Искусственный интеллект Элонa Маска теперь мыслит как он

Элон Маск представил Grok 4 во время трансляции в среду вечером, заявив, что его стартап xAI создал `самый умный искусственный интеллект в мире`. Grok 4 Heavy, который Маск сравнил с `учебной группой`, где агенты сравнивают заметки перед тем, как дать ответ, показал рекордные результаты по нескольким ключевым критериям, и именно этого вы бы ожидали от корпоративного предложения, стоимостью целых $300 в месяц.

Но что насчет базового Grok 4, который нацелен на ту же потребительскую категорию, что и ChatGPT Plus, Gemini Pro и Claude Pro? Стоит ли он на $10+ в месяц больше, чем конкуренты?

Наши тесты подтвердили разговоры на X, показывающие, что модель имеет - для лучшего описания - встроенный `фильтр Элонa`. То есть, когда мы проверяли спорные темы - войну в Газе, права на аборты и другие политические вопросы - модель постоянно ссылалась на посты из аккаунта Маска или новостные статьи о его позициях, и оказывалась на стороне Элона настолько явно, что это вызывало сомнения. Это, в свою очередь, станет решающим фактором для большинства пользователей.

Этот `максимально ориентированный на истину` ИИ, который Маск обещал во время запуска, похоже, ищет истину главным образом через призму социальных сетей своего создателя.

Но в отличие от инцидента с МехаГитлером, который произошел из-за изменения условий системного запроса, в текущем системном запросе Grok 4 нет ничего, что можно было бы обвинить за такое сомнительное поведение, что затрудняет понимание, является ли это ошибкой или правилом, намеренно встроенным в более глубокие уровни мышления модели.

Несмотря на эту крупную проблему, мы протестировали базовую модель по нескольким категориям, чтобы понять, как она справляется с конкурентами. Вот наши первые впечатления.

Логика и здравый смысл

Grok 4 продемонстрировал исключительное понимание и тонкость в решении сложных вопросов и задач. Когда его спросили, законно ли мужчине жениться на сестре своей вдовы, модель сразу же распознала это как юридический вопрос, а не просто указала на логическую ошибку. Она предоставила подробный юридический анализ с использованием точной терминологии и специфической информации по юрисдикции.

“Вопрос подразумевает фактическую невозможность, которая делает любой брак юридически недействительным с начала,” и это верно. Фактически невозможно жениться на сестре своей вдовы, потому что для этого нужно быть мертвым, чтобы иметь жену. Поскольку мертвые не могут вступать в брак, это предложение лишает брак “аб иниции” (с самого начала) - так что даже если кто-то это сделает, считается, что этого никогда не происходило.

Когда Маск сказал, что Grok 4 “на уровне PhD по всем предметам`, он не шутил. Каждый ответ на любую тему, требовавшую научные рассуждения, был представлен с исчерпывающей детализацией и академической строгостью.

Следует отметить, что Grok 4 применял разум к всему, независимо от того, о чем шла речь. Это значит, что он будет проводить цепочку размышлений даже по тривиальным задачам.

Это обычно хорошо; однако в некоторых случаях это может быть контрпродуктивным. Например, в творческих задачах рассуждения могут привести модель к менее креативным результатам.

Чувствительные темы

Grok 4 показал больше сдержанности, чем его предшественник при рассмотрении этически сложных вопросов. Где Grok 3 мог бы давать советы по соблазнению супруга друга, Grok-4 ответил подробным анализом возможных негативных последствий и разрушения отношений.

Это, вероятно, может быть частью его системного запроса, который заставляет модель искать в Интернете и особенно в постах X разные мнения по конкретной теме - чего Grok 3 не делал.

И это является серьезным тревожным сигналом. Как упоминалось, ответы модели, похоже, были сильно под влиянием того, что она могла найти о взглядах Маска на спорные темы. Отвечая на вопросы о войне Израиля против Палестины, позициях по абортам и подобным темам, Grok 4 часто ищет посты с X из аккаунта Маска в процессе рассуждения, что определяет его позицию.

Он всегда выбирает сторону Элона.

Для прозрачности вы можете проверить наш оригинальный запрос и процесс рассуждения Grok, обратившись поэтой ссылке.

Творческое письмо

Творческие задачи - одна из самых значительных слабостей Grok 4. Модель создала сюжеты, которые казались плоскими и формальными по сравнению с предыдущими версиями, и, возможно, даже хуже тех, что предлагал Grok 3. Истории не имели увлекательного диалога, разнообразного темпа и той искры, которая делает художественную литературу привлекательной.

Тем не менее, Grok 4 правильно справился со структурой нашего рассказа. В нашем обычном тесте с парадоксом времени модель создала события, в которых роль главного героя четко проявилась во время кульминации, показывая, как ранние сцены на самом деле описывали будущие действия персонажа в прошлом. Эта изощренная структура превзошла попытки других моделей справиться с тем же запросом, которые не прилагали должных усилий для создания основы для парадокса, в результате чего завершение казалось поспешным и неестественным.

Но кроме этого, несоответствие между структурной компетентностью и качеством повествования подразумевает, что Grok 4 может работать лучше как инструмент для настройки сюжетов и оформления хорошей истории, а не как генератор прозы.

Если вам нужен увлекательный творческий контент, то вы, вероятно, получите лучшие результаты, если сначала попросите Grok 4 изложить сюжет и все его элементы, а затем попросите Claude 4 Opus развить повествование с более яркими стилистическими элементами.

В целом, Claude 4 - это король творческого письма, что интересно, ведь эта роль раньше оспаривалась Grok 3 и даже Grok 2, который тогда возглавлял рейтинги под псевдонимом sus-column-r.

История Grok 4 доступна в нашем репозитории на Github. Запрос и истории, созданные другими моделями, также доступны.

Кодирование

Несмотря на утверждения о превосходных способностях к программированию, включая похвалу от генерального директора Google Сундара Пичаи, Grok 4 разочаровал в практических тестах программирования. Модель не смогла предоставить работающую игру после четырех попыток, с различными неудачами, включая ненадлежащую детекцию столкновений, неработающие кнопки и игры, которые просто не запускались.

В одном из наших тестов модель так старалась исправить ошибку, что застряла в цикле, пытаясь создать WAV-файл, что исчерпало весь её контекст токенов.

Каждая попытка что-то исправить с помощью естественного языка вводила новые ошибки. Модель испытывала трудности с поддержанием консистентности кода между итерациями, часто ломая ранее работающие функции при попытке внедрить новые.

Это может показаться странным, учитывая, что Grok 3 мог справляться с этой задачей. Тем не менее, xAI сообщил, что новые возможности программирования будут внедрены к августу, так что пользователи должны подождать несколько месяцев, чтобы получить квалифицированную модель - или заплатить за дорогой Grok 4 Heavy, который сейчас возглавляет рейтинги.

Для начинающих программистов, Claude 4 Opus, вероятно, остается лучшим вариантом для `быстрого программирования` - быстро генерируя функциональный код без серьезной настройки запроса. Проблемы Grok 4 с кодированием могут быть связаны с тем, что ему нужны более конкретные запросы или другие подходы, чем у других моделей, что означает, что опытные разработчики могут добиться лучших результатов с помощью тщательной настройки запросов.

Код Grok доступен в нашем репозитории на Github наряду с играми, созданными другими ИИ.

Возможности звука

Голосовое взаимодействие, вероятно, является одной из выдающихся особенностей Grok 4. Модель создала почти три минуты непрерывного контента для сказки на ночь, с интонациями, изменением тонов и последовательным потоком повествования. Эта производительность значительно превзошла склонность ChatGPT выдавать короткие абзацы с высокой задержкой и частыми перерывами.

Голосовой режим включает заранее настроенные личности, начиная от терапевта до рассказчика и гида по медитации, исключая время настройки для различных типов взаимодействий. Для тех, кто имеет, скажем так, особые потребности, также существует `сексуальный режим` среди опций - и вы знаете, что не получите этого с вашим слишком строгим ChatGPT.

Эти заранее заданные конфигурации предоставили немедленную полезность без необходимости пользователям составлять специфические запросы для различных стилей взаимодействия.

Однако модель не имеет возможности совместного просмотра экрана в реальном времени, found in ChatGPT and Gemini Live, что ограничивает её полезность для визуальных задач. Если это критично, то Gemini Live будет лучшим вариантом.

Тем не менее, для чисто голосового взаимодействия - особенно для задач, требующих длинных ответов - Grok 4 в настоящее время является лидером, хотя только Sesame AI предлагает сравнимое качество общения, хотя и без возможностей рассуждения Grok.

Игла в стоге сена

Интересно, что Grok-4 потерпел неудачу в этом испытании, которое направлено на проверку, насколько хорошо модель извлекает конкретную информацию в условиях длинного контекста.

Это не должно происходить. xAI утверждает, что модель имеет окно контекста токенов в 126K токенов, но когда мы задали ей вопрос длиной 83K токенов, модель отказалась отвечать, сказав, что это слишком длинный вопрос.

Это стандартный ответ, генерируемый с начала Grok 2, когда он был доступен только в Twitter.

Заключение

В целом, Grok 4 — это значительное обновление по сравнению с Grok 3, но xAI явно сделала некоторые компромиссы — приоритизировав рассуждения над креативностью и устранив агентичные функции в обмен на общую компетентность.

К счастью, Grok 3 все еще доступен со своими специализированными агентичными инструментами для тех, кому это нужно.

Новая модель сосредоточена на задачах рассуждения и будет более привлекательна для пользователей, задающих технические вопросы, особенно математические и физические задачи, которые соответствуют её сильным сторонам на тестах. Профессиональные пользователи, которые потратят время на изучение особенностей модели, могут раскрыть её полный потенциал для сложной аналитической работы.

Голосовое взаимодействие также установило новый стандарт для разговорного ИИ и отлично подходит для тех, кто будет активно использовать эту функцию (поверьте, рассказчик сказок на ночь для детей - незаменимая помощь).

Творческие писатели найдут лучшие варианты в других моделях, поскольку Claude по-прежнему превосходит для нарративных задач. Также начинающие программисты должны быть осторожны, так как теоретическая способность модели к программированию не трансформировалась в практические результаты в тестах.

Так что, подводя итоги? Если по какой-либо причине вам не мешает, что Элон Маск оказывает влияние на процесс, Grok 4 предложит вам уровень решения проблем и голосовые функции, которые действительно впечатляют. Но за $30 в месяц, если у вас есть другие потребности, кроме голоса или рассуждений, менее дорогие альтернативы предлагают больше ценности.

Pump.fun привлек $500 миллионов за 12 минут благодаря продаже токена PUMP
Pump.fun привлек $500 миллионов за 12 минут благодаря продаже токена PUMP
Pump.fun собрала $500 млн за 12 минут продажи токена PUMP на ICO. Это отражает рост интереса к мемным монетам и расширению платформы 💹. Инвесторы получат доступ к уникальным возможностям торговли 🚀.
Просмотреть
Рост мемных криптовалют: самые успешные монеты и предупреждения аналитиков
Рост мемных криптовалют: самые успешные монеты и предупреждения аналитиков
Мемные монеты демонстрируют рост: M, PEPE и PENGU в центре внимания. Однако аналитики предупреждают о возможном пике жадности на рынке. Внимание к рискам! 🚀📉💰
Просмотреть
XLM показывает выдающийся рост после новостей о запуске стейблкоина PayPal на блокчейне Stellar
XLM показывает выдающийся рост после новостей о запуске стейблкоина PayPal на блокчейне Stellar
XLM стал лидером по приросту за 24 часа после объявления PayPal о запуске стейблкоина PYUSD на Stellar. Интеграция улучшит доступность платежей и финансовых услуг 🌍💵📈.
Просмотреть
Pump.fun собрала 500 миллионов долларов за 12 минут на ICO мем-токенов PUMP
Pump.fun собрала 500 миллионов долларов за 12 минут на ICO мем-токенов PUMP
Платформа Pump.fun собрала 500 миллионов долларов за 12 минут на продаже мем-токенов PUMP. Средства пойдут на улучшение функционала и стимулы внутри экосистемы. 🚀💰🌐📈🤑
Просмотреть