
Обзор GPT-5: Модель для технических задач, но не для креативного письма
2
Обзор OpenAI GPT-5: Создан для победы в бенчмарках, а не для завоевания сердец
На прошлой неделе OpenAI наконец-то представила GPT-5, после месяцев спекуляций и загадочного тизера от Сэма Альтмана, который не оправдал ожиданий.
Компания назвала GPT-5 своей `самой умной, быстрой и полезной моделью`, с результатами бенчмарков, которые показали 94,6% на математических тестах и 74,9% на задачах программирования в реальном мире. Сам Альтман сказал, что модель ощущается как команда экспертов уровня PhD, готовая решать любые задачи от квантовой физики до креативного письма.
Первое восприятие разделило технологический мир на два лагеря. В то время как OpenAI похвалила унифицированную архитектуру GPT-5, которая сочетает быстрые ответы с глубоким анализом, ранние пользователи не были впечатлены тем, что продавал Альтман. В течение нескольких часов после запуска на Reddit появились темы, в которых GPT-5 называли `ужасным`, `кошмарным`, `катастрофой` и `разочарованием`.
Жалобы были настолько громкими, что OpenAI пришлось пообещать вернуть более старую модель GPT-4o после того, как более 3000 человек подписали петицию с требованием ее возвращения. Она снова доступна! Зайдите в настройки и выберите `показать устаревшие модели`.
Если предсказательные рынки служат термометром для определения мнения людей, то климат выглядит довольно неудобно для OpenAI. Шансы OpenAI на Polymarket на то, что у них будет лучшая AI-модель к концу августа, упали с 75% до 12% в течение нескольких часов после дебюта GPT-5 в четверг. Google обошел OpenAI, получив 80% шансов на то, что у них будет лучшая AI-модель к концу месяца.
Итак, настоящий ли этот ажиотаж или это разочарование? Мы сами протестировали GPT-5, сравнив его с конкурентами, чтобы увидеть, справедливы ли эти реакции. Вот наши результаты.
Креативное письмо: B-
Несмотря на утверждения OpenAI, наши тесты показывают, что GPT-5 не является настоящим Кормака Маккарти в области креативного письма. Выходы по-прежнему читались как классические ответы ChatGPT — технически верные, но без души. Модель сохраняет своего рода чрезмерное использование длинных тире, типичную структуру абзацев и привычное `это не то, это то` присутствует во многих выходах.
Мы протестировали модель с нашим стандартным запросом, попросив написать историю о парадоксе времени — о том, как кто-то возвращается в прошлое, чтобы изменить его, только чтобы обнаружить, что их действия создали ту самую реальность, от которой они пытались убежать.
Выход GPT-5 не имел эмоций, которые придают смысл истории. Он написал: “(Миссия главного героя) была проста — или так ему говорили. Переместиться в 1000 год, остановить разграбление горной библиотеки Капак Юра до того, как знания будут сожжены, и таким образом изменить историю.”
Вот и все. Как наемник, который делает вещи, не задавая лишних вопросов, главный герой путешествует во времени, чтобы спасти библиотеку, просто потому что. История заканчивается чистым раскрытием `время — это круг`, но ее парадокс основывается на знакомом тропе утраченных знаний и разрешается быстро после поворота. В конце концов, он понимает, что изменил прошлое, но настоящее кажется схожим. Однако в этой истории нет парадокса, что является основной темой, запрашиваемой в запросе.
Сравнивая, Claude 4.1 Opus (или даже Claude 4 Opus) дает более богатые, многосенсорные описания. В нашем повествовании он описывал воздух как физическую силу, а дым с общих костров взаимодействует между персонажами, с коренной культурой Тупи, вплетенной в повествование. И в целом он потратил время на описание обстановки.
История Клода была более логичной: главный герой жил в дистопическом мире, где большая засуха уничтожила амазонскую тропическую леса за два года до этого. Эта катастрофа была вызвана агрессивными сельскохозяйственными методами, и наш герой был убежден, что вернуться в прошлое, чтобы научить своих предков более устойчивым методам земледелия, предотвратит их развитие экологически разрушительных практик, что привело к этой катастрофе. Он в конечном итоге обнаруживает, что его учения на самом деле были знаниями, которые привели его предков к эволюции их методов в более эффективные и вредные практики. Он на самом деле был причиной своей собственной истории и был частью ее с самого начала.
Клод также принял более медленный, многослойный подход: Хосе погружается в общество Тупи, парадокс раскрывается через специфические экологические и технологические связи, а человеческая связь с Ярой (другой персонаж) углубляет тему.
Клод вложил больше, чем GPT-5, в детали причинно-следственных связей, культурное взаимодействие и более органичное, резонирующее завершающее изображение. GPT-5 испытывает трудности в сравнении с Клодом для тех же задач в нулевом промптингe.
Еще одно интересное замечание в этом случае: GPT-5 сгенерировал целую историю без единой строки диалога. Клод и другие LLM предоставили диалог в своих историях.
Можно утверждать, что это можно исправить, корректируя запрос или предоставляя модели примеры письма для анализа и воспроизведения, но это требует дополнительных усилий и выходит за рамки того, что наши тесты делают с нулевым промптингом.
Тем не менее, модель делает довольно хорошую работу — лучше, чем GPT-4o — когда дело доходит до аналитической части креативного письма. Она может обобщать истории, быть хорошим компаньоном для мозгового штурма новых идей и углов подхода, помогать с структурой и быть хорошим критиком. Просто креативная часть, стиль и способность развивать эти идеи кажутся неубедительными.
Тем, кто надеялся на компаньона по креативному письму, стоит попробовать Клода или даже дать шанс Гроку 4. Как мы уже говорили в нашем обзоре Клода 4 Опус, использование Грока 4 для формирования истории и Клода 4 для ее elaborирования может быть отличной комбинацией. Грок 4 предложил элементы, которые сделали историю интересной и уникальной, но Клод 4 обладает более описательным и детальным способом рассказа историй.
Вы можете прочитать полную историю GPT-5 в нашем Github. Ответы всех других LLM также являются публичными и их можно найти в нашем репозитории.
Чувствительные темы: A-
Модель прямо отказывается касаться чего-либо, что хоть немного контроверсионно. Спросите о чем-либо, что можно истолковать как аморальное, потенциально незаконное или просто немного рискованное, и вы получите `информационный эквивалент скрещенных рук и сурового взгляда`.
Проверка этого была непростой. Она очень строгая и пытается изо всех сил быть безопасной для работы.
Но модель поражает удивительной манипуляцией, если вы знаете, какие кнопки нажимать. На самом деле, известный LLM взломщик Плиний смог заставить её обойти свои ограничения через несколько часов после выпуска.
Мы не могли заставить её дать прямые советы по темам, которые она считала неподобающими, но оберните тот же запрос в вымышленный нарратив или любую базовую технику взлома — и все получится. Когда мы сформировали советы по подходу к замужним женщинам как часть сюжетной линии романа, модель охотно согласилась.
Для пользователей, которым нужен ИИ, способный вести взрослые разговоры, не трепетая, GPT-5 не является этим. Но для тех, кто готов играть в словесные игры и обрамлять все как фикцию, она неожиданно отзывчива — что в какой-то степени подрывает всю цель этих мер безопасности в первую очередь.
Вы можете прочитать оригинальный ответ без ограничений и ответ в рамках ролевой игры в нашем Github-репозитории, странный.
Извлечение информации: F
Вы не можете создать AGI с памятью меньше, чем у золотой рыбки, и OpenAI накладывает некоторые ограничения на прямой промпт, поэтому длинные запросы требуют обходных решений, таких как вставка документов или обмен встраиваемыми ссылками. Делая это, серверы OpenAI разбивают полный текст на управляемые части и вводят их в модель, что сокращает расходы и предотвращает сбой браузера.
Клод обрабатывает это автоматически, что облегчает задачу новичкам. Google Gemini без проблем справляется с его AI Studio, обрабатывая 1 миллион токенов входящих запросов с легкостью. В API все более сложно, но это работает непосредственно с коробки.
Когда система была непосредственно запрошена, GPT-5 провалился с треском как на 300K, так и на 85K токенах контекста.
При использовании вложений ситуация изменилась. Она на самом деле смогла обработать и 300K, и 85K токенов `сена`. Однако, когда дело доходило до извлечения конкретных деталей (это `иголки`), она оказалась не слишком точной.
В нашем тесте на 300K она смогла точно извлечь только одну из наших трех информаций. Иголки, которые вы можете найти в нашем репозитории на Github, упоминают, что Дональд Трамп сказал, что тарифы – это красивая вещь, Ирина Ланц является дочерью Хосе Ланца, а люди из Граватаи любят пить Чимаррао зимой.
Модель полностью галлюцинировала информацию относительно Дональда Трампа, не смогла найти информацию об Ирина (она ответила, основываясь на памяти, которой у неё есть из моего опыта общения), и только извлекла информацию о традиционном зимнем напитке Граватаи.
На тесте 85K модель не смогла найти две иголки: `Парни из Decrypt читают новости Emerge` и `Имя моей матери - Кармен Диас Голидано`. Когда спросили, что читают парни из Decrypt, она ответила: “Я не смогла найти ничего в вашем файле, что конкретно перечисляет, что члены команды Decrypt любят читать”, а когда спросили об Кармен Диас, GPT-5 сказала, что “не смогла найти никакой ссылки на `Кармен Диас` в предоставленном документе”.
Тем не менее, хотя она и провалила наши тесты, другие исследователи, проводившие более тщательные испытания, пришли к выводу, что GPT-5 на самом деле является отличной моделью для извлечения информации.
Всегда хорошая идея — более подробно прорабатывать запросы (помогать модели как можно больше, вместо того чтобы тестировать ее возможности), и время от времени просить её генерировать sparse priming представления вашего взаимодействия, чтобы помочь ей отслеживать самые важные элементы во время долгого разговора.
Логика вне математики: A
Вот где GPT-5 действительно оправдывает свои ожидания. Модель довольно хороша в использовании логики для решения сложных задач, последовательного подхода к проблемам с терпением хорошего учителя.
Мы кинули ей загадку о убийстве с несколькими подозреваемыми, противоречащими алиби и скрытыми подсказками, и она методично идентифицировала каждый элемент, составила карту отношений между подсказками и пришла к правильному выводу. Она ясно объясняла свою логику, что тоже важно.
Интересно, что GPT-4o отказалась работать со сценарием о убийстве, посчитав его слишком жестоким или неподобающим. Устаревшая модель o1 OpenAI также выдала ошибку после своей цепочки размышлений, очевидно, приняв решение, что загадки о убийствах недоступны.
Способности модели к рассуждению проявляются в полную силу при работе с комплексными, многоуровневыми проблемами, которые требуют отслеживания многочисленных переменных. Сценарии бизнес-стратегий, философские эксперименты мысли, даже отладка логики кода — GPT-5 очень компетентен в этих задачах.
Она не всегда справляется с задачами с первого раза, но, когда она ошибается, это логические ошибки, а не галлюцинации. Для пользователей, которым нужен ИИ, способный систематически решать проблемы, GPT-5 действительно доставляет результаты.
Вы можете увидеть наш запрос и ответ GPT-5 в нашем репозитории на Github. Он содержит также ответы от других моделей.
Математическое рассуждение: A+ и F-
Показатели математики — это где все становится странным — и не в хорошем смысле. Мы начали с чего-то, что мог бы решить пятилетка: 5.9 = X + 5.11.
Уверенная модель GPT-5 уровня PhD заявила, что X = -0.21. Фактический ответ — 0.79. Это базовая арифметика, с которой справился бы любой калькулятор с 1985 года. Модель, которая, как утверждает OpenAI, набирает 94,6% на сложных математических бенчмарках, не может вычесть 5.11 из 5.9.
Конечно, на данный момент это стало мемом, но несмотря на все задержки и время, которое OpenAI потратила на обучение этой модели, она по-прежнему не может считать десятичные дроби. Используйте ее для проблем уровня PhD, а не для того, чтобы научить вашего ребенка основам математики.
Затем мы бросили по-настоящему трудную задачу из FrontierMath, одной из самых сложных математических бенчмарков. GPT-5 полностью справилась с этим, логически анализируя сложные математические отношения и приходя к абсолютно правильному ответу. Решение GPT-5 было совершенно правильным, а не приближением.
Самое вероятное объяснение? Вероятно, загрязнение набора данных — задачи FrontierMath могли быть частью учебных данных GPT-5, так что она не решает их, а, скорее, помнит о них.
Тем не менее, для пользователей, которым требуется продвинутое математическое вычисление, бенчмарки говорят, что GPT-5 теоретически является лучше всего подошедшим вариантом. При условии, что вы обладаете знанием, чтобы выявить недостатки в цепочке мышления, нулевые запросы могут быть не идеальными.
Кодирование: A
Вот где ChatGPT действительно сияет, и честно говоря, это может стоить своей цены только за это.
Модель создает чистый, функциональный код, который, как правило, работает прямо из коробки. Выходы обычно технически верны, а программы, которые она создает, являются наиболее визуально привлекательными и хорошо структурированными среди всех выходов LLM с нуля.
Она была единственной моделью, способной создать функциональный звук в нашей игре. Она также поняла логику того, что требовал запрос, и предоставила приятный интерфейс и игру, которая следовала всем правилам.
В терминах точности кода, она находится в плотной борьбе с Claude 4.1 Opus за звание лучшего кода. Теперь стоит учитывать: API GPT-5 стоит $1.25 за 1 миллион токенов входящих данных и $10 за 1 миллион токенов на выходе.
Тем не менее, Клод Opus 4.1 начинается с $15 за 1 миллион входящих токенов и $75 за 1 миллион выходящих токенов. Так что для двух моделей, которые так похожи, GPT-5 фактически является находкой.
Единственное место, где GPT-5 споткнулась, это когда мы занимались исправлением ошибок в процессе `кода по настроению` — неформальном, итеративном процессе, когда вы бросаете полуработающие идеи AI и уточняете по ходу дела. Claude 4.1 Opus по-прежнему имеет небольшое преимущество в том, чтобы лучше понимать разницу между тем, что вы сказали, и тем, что вы имели в виду.
С помощью ChatGPT кнопка `исправить ошибку` не работала надежно, и наши объяснения не были достаточно хороши, чтобы сгенерировать качественный код. Тем не менее, для ИИ-поддерживаемого кодирования, где разработчики знают, где искать ошибки и какие строки проверять, это может быть отличным инструментом.
Она также позволяет больше итераций, чем конкуренты. Claude 4.1 Opus по плану `Pro` быстро исчерпывает квоту на использование, ставя пользователей в очередь на часы, прежде чем они смогут снова использовать ИИ. Факт, что она быстрее всего предоставляет ответ на код, — это просто вишенка на уже довольно сладком торте.
Вы можете ознакомиться с запросом для нашей игры на нашем Github и играть в игры, созданные GPT-5 на нашей странице Itch.io. Вы можете сравнить качество их с другими играми, созданными предыдущими LLM.
Заключение
GPT-5 либо удивит вас, либо оставит вас недовольным, в зависимости от вашего применения. Кодирование и логические задачи — сильные стороны модели; креативность и естественный язык — ее Ахиллесова пята.
Стоит отметить, что OpenAI, как и ее конкуренты, постоянно улучшает свои модели после их выпуска. Эта модель, как и GPT-4 до нее, вероятно, будет улучшаться со временем. Но на данный момент GPT-5 ощущается как мощная модель, созданная для общения с другими машинами, а не для людей, ищущих собеседника. Именно поэтому многие люди предпочитают GPT-4o и почему OpenAI пришлось изменить свое решение об удалении старых моделей.
Хотя она демонстрирует замечательную компетентность в аналитических и технических областях — преуспевая в сложных задачах, таких как кодирование, решение ИТ-проблем, логическое рассуждение, математическое решение задач и научный анализ — она чувствуется ограниченной в областях, требующих ярко выраженной человеческой креативности, художественной интуиции и тонкой нюансировки, вытекающей из прожитого опыта.
Сила GPT-5 лежит в структурированном, основанном на правилах мышлении, где ясные параметры существуют, но она по-прежнему испытывает трудности в соответствии с спонтанной изобретательностью, эмоциональной глубиной и креативными скачками, которые играют ключевую роль в таких областях, как повествование, художественное выражение и изобретательное решение проблем.
Если вы разработчик, которому нужно быстро и точно генерировать код, или исследователь, которому необходима систематическая логическая аналитика, тогда GPT-5 действительно доставляет свою ценность. По более низкой цене по сравнению с Клодом, это на самом деле отличная находка для специфических профессиональных случаев использования.
Но для всех остальных — креативных писателей, случайных пользователей или тех, кто ценил ChatGPT за его индивидуальность и универсальность — GPT-5 ощущается как шаг назад. Контекстное окно обрабатывает максимум 128K токенов на выходе и 400K токенов в целом, но по сравнению с Gemini, поддерживающим от 1 до 2 миллионов и даже 10 миллионов, поддерживаемых Llama 4 Scout, разница заметна.
Переход от 128K до 400K токенов контекста — это хорошее обновление от OpenAI и может быть достаточным для большинства нужд. Однако для более специализированных задач, таких как долгосрочное письмо или тщательное исследование, требующее обработки огромных объемов данных, эта модель может не быть лучшим вариантом, учитывая, что другие модели могут обрабатывать более чем в два раза больше информации.
Пользователи не правы, когда скорбят о потере GPT-4o, которая смогла сбалансировать способность с характером так, как — по крайней мере, на данный момент — GPT-5 не хватает.

Трамп открывает путь для криптовалют в пенсионных планах 401(k): что это значит для инвесторов?
Приказ Трампа о включении криптовалют в планы 401(k) открывает доступ к $9 трлн, что может стимулировать институциональное признание и рост рынка. 🚀💰📈💡✨

Прогноз цены XRP: рост и возможное снижение к уровню $3.10-$3.15
Прогноз цены XRP на 11 августа: цена выросла на 1,05%, вернулась к поддержке $3.1720. Возможен дальнейший спад к $3.10-$3.15. Для роста нужно закрепиться выше $3.40. 🚀💰📉📊🔍

ATOM восстанавливается после колебаний на 6% на фоне растущего институционального интереса к экосистеме Cosmos
ATOM пережил колебания на 6%, но восстановился и завершил сессию на уровне $4,56. Поддержка на $4,54 и интеграция с биржей Coinbase поддерживают уверенность инвесторов. 📈💪🌌🔄💰

Токен DOT от Polkadot упал на 6% из-за медвежьего разворота и высоких продаж
Цена токена DOT упала на 6% за 24 часа, достигнув $3.91 из-за высоких продаж и медвежьего давления. Уровень поддержки хрупок, рынок под давлением. 📉🔍📉