Обзор Claude 4: Ограничения и достижения новой модели ИИ от Anthropic

Обзор Claude 4: Ограничения и достижения новой модели ИИ от Anthropic

3

Обзор Claude 4 от Anthropic: творческий гений, trapped by old limitations

Компания Anthropic из Сан-Франциско только что представила четвертое поколение своих моделей ИИ Claude, и результаты... сложные. Пока Google продвигает контекстные окна до миллиона токенов, а OpenAI создает мультимодальные системы, которые видят, слышат и говорят, Anthropic осталась с ограничением в 200 000 токенов и текстовым форматом. Теперь она выглядит одной из немногих среди крупных компаний в области ИИ.

Время выхода кажется преднамеренным — на этой неделе Google также анонсировал Gemini, а OpenAI представил нового кодировщика на основе своей модели Codex. Ответ Claude? Гибридные модели, которые переключаются между режимами рассуждения и нерсуждения в зависимости от поставленных задач — предоставляя то, что OpenAI ожидает, когда они выпустят GPT-5.

Однако вот что стоит серьезно учесть пользователям API: Anthropic берет высокую цену за это обновление. Программа-чатбот, тем не менее, остается на уровне $20 с Claude Max по цене $200 в месяц, с лимитами использования в 20 раз выше.

Мы протестировали новые модели в сферах творческого письма, кодирования, математики и рассуждений. Результаты рассказывают интересную историю с незначительными улучшениями в некоторых областях, неожиданными улучшениями в других и ясным сдвигом приоритетов Anthropic от общего использования к функциям, ориентированным на разработчиков.

Вот как обе модели Claude Sonnet 4 и Claude Opus 4 показали себя в наших различных тестах. (Вы можете ознакомиться с результатами, включая наши подсказки, в нашем репозитории на Github.)

Творческое письмо

Способности к творческому письму определяют, могут ли модели ИИ создавать увлекательные повествования, поддерживать последовательный тон и естественно интегрировать фактические элементы. Эти навыки важны для создателей контента, маркетологов и для всех, кому нужна помощь ИИ в рассказах или убедительном письме.

На данный момент нет модели, способной превзойти Claude в данном субъективном тесте (не считая Longwriter, конечно). Поэтому нет смысла сравнивать Claude с третьими сторонами. Для этой задачи мы решили сопоставить Sonnet и Opus.

Мы попросили модели написать короткий рассказ о человеке, который путешествует во времени, чтобы предотвратить катастрофу, но в конечном итоге понимает, что его действия из прошлого на самом деле стали частью событий, приведших к будущему. Подсказка добавила некоторые детали для учета и предоставила моделям достаточно свободы и креативности для создания истории по их усмотрению.

Claude Sonnet 4 создал яркую прозу с лучшими атмосферными деталями и психологической нюансировкой. Модель разработала погружающие описания и предоставила убедительный сюжет, хотя концовка не совсем соответствовала запросу — но она вписывалась в нарратив и ожиданный результат.

В целом, построение нарратива Sonnet сбалансировало действие, интроспекцию и философские инсайты о исторической неизбежности.

Оценка: 9/10 — определенно лучше, чем Claude 3.7 Sonnet

Claude Opus 4 основал свою спекулятивную фантастику на достоверных исторических контекстах, ссылаясь на мировоззрения коренных народов и предколониальное общество Тупи с тщательным вниманием к культурным ограничениям. Модель естественным образом интегрировала исходный материал и предложила более длинный рассказ, чем Sonnet, хотя не смогла достичь его поэтического великолепия, к сожалению.

Также проявилась интересная особенность: повествование началось гораздо более ярко и погружающе, чем у Sonnet, но где-то посередине оно устремилось к резкому повороту сюжета, что сделало весь результат скучным и предсказуемым.

Оценка: 8/10

Sonnet 4 является победителем в творческом письме, хотя разница осталась незначительной. Писатели, будьте осторожны: в отличие от предыдущих моделей, похоже, что Anthropic не придает приоритета улучшениям в творческом письме, сосредоточив усилия разработки в других областях.

Все истории доступныздесь.

Кодирование

Оценка программирования измеряет, может ли ИИ генерировать функциональное, легко поддерживаемое программное обеспечение, следуя лучшим практикам. Эта способность влияет на разработчиков, использующих ИИ для генерации кода, отладки и архитектурных решений.

Gemini 2.5 Pro считается королем AI-поддерживаемого программирования, поэтому мы протестировали его против Claude Opus 4 с расширенным мышлением.

Мы использовать инструкции без предварительных примеров для игры — робота, который должен избегать журналистов на своем пути, чтобы слиться с компьютером и достичь AGI — и использовали одну дополнительную итерацию для исправления ошибок и уточнения различных аспектов игры.

Claude Opus создал игру с видом сверху с продвинутыми механиками, включая динамические звуковые волны, состояния расследования AI и окклюзии зрительных конусов. Реализация включала богатые элементы игрового процесса: журналисты реагировали на звуки через флаги heardSound, препятствия блокировали расчеты линии видимости, а процедурная генерация создавалала уникальные уровни для каждой игры.

Оценка: 8/10

Gemini от Google произвел платформер с боковым скроллингом с более чистой архитектурой, используя классы ES6 и именованные константы.

Игра не была функциональной после двух итераций, но реализация эффективно разделяла задачи: level.init() обрабатывал генерацию рельефа, класс Journalist инкапсулировал логику патрулирования, а константы, такие как PLAYER_JUMP_POWER, упрощали настройку. Хотя игровой процесс оставался проще, чем у Claude, поддерживаемая структура и последовательные стандарты кодирования получили особенно высокие оценки за читаемость и поддерживаемость.

Решение: победил Claude: он предложил функциональность игрового процесса, которую пользователи будут предпочитать.

Тем не менее, разработчики могут предпочесть Gemini, несмотря на все это, так как он создал более чистый код, который можно улучшить проще.

Наша подсказка и коды доступныздесь. И вы можетекликнуть здесь, чтобы поиграть в игру, созданную с помощью Claude.

Математическое рассуждение

Решение математических задач тестирует способность моделей ИИ справляться со сложными вычислениями, демонстрировать шаги рассуждения и приходить к правильным ответам. Это важно для образовательных приложений, научных исследований и любых областей, требующих точного вычислительного мышления.

Мы сравнили Claude и последнюю модель рассуждений от OpenAI, o3, спросив модели решить задачу, которая появилась на бенчмарке FrontierMath — специально разработанном, чтобы быть сложным для моделей:

«Постройте многочлен степени 19 p(x) ∈ C[x], такой что X := {p(x) = p(y)} ⊂ P1 × P1 имеет как минимум 3 (но не все линейные) неприводимые компоненты над C. Выберите p(x) как нечетный, моноидальный, с действительными коэффициентами и линейным коэффициентом -19 и вычислите p(19).»

Claude Opus 4 продемонстрировал свой полный процесс рассуждений при решении сложных математических задач. Прозрачность позволила оценщикам проследить логические пути и определить, где произошли ошибки в расчетах. Несмотря на то, что модель показала всю работу, она не смогла добиться идеальной точности.

Модель o3 от OpenAI достигла 100% точности на аналогичных математических задачах, став первой моделью, которая полностью решила тестовые задачи. Однако o3 обрезал свою демонстрацию рассуждений, показывая только конечные ответы без промежуточных этапов. Этот подход не позволил провести анализ ошибок и затруднил пользователям проверку логики или изучение процесса решения.

Вердикт: модель OpenAI o3 выиграла категорию математического рассуждения благодаря идеальной точности, хотя прозрачный подход Claude предложил образовательные преимущества. Например, исследователи могут легче обнаруживать ошибки, анализируя полный путь мышления, вместо того чтобы полностью доверять модели или решать задачу вручную для подтверждения результатов.

Вы можете ознакомиться с цепочкой мыслей Claude 4здесь.

Нерасчетное рассуждение и коммуникация

Для этой оценки мы хотели протестировать способности моделей понимать сложности, создавать тонкие сообщения и сбалансировать интересы. Эти навыки имеют важное значение для бизнес-стратегий, связи с общественностью и любой ситуации, требующей сложного человеческого общения.

Мы предоставили Claude, Grok и ChatGPT инструкции для создания единой стратегии коммуникации, которая одновременно соответствует пяти различным группам заинтересованных сторон в критической ситуации в крупном медицинском центре. Каждая группа имеет совершенно разные перспективы, эмоциональные состояния, потребности в информации и предпочтения в коммуникации.

Claude продемонстрировал выдающееся стратегическое мышление через трехстороннюю коммуникационную структуру для кризиса с программным обеспечением-вымогателем в больнице: «Первое — безопасность пациента, активный ответ и крепкое будущее». Ответ включал конкретные выделения ресурсов в размере 2,3 миллиона долларов на экстренное финансирование, детализированные сроки для каждой группы заинтересованных сторон и культурно чувствительные адаптации для многоязычных групп. Индивидуальные опасения членов правления получили персонализированное внимание при сохранении целостности сообщения. Модель предложила хороший набор вводных заявлений, чтобы получить представление о том, как подходить к каждой аудитории.

ChatGPT также хорошо справился с этой задачей, но не на том же уровне детализации и практичности. При предоставлении четких основных принципов GPT4.1 больше полагался на вариации тональности, чем на субстантивную адаптацию содержания. Ответы были объемными и детализированными, предвосхищая вопросы и настроения, и как наши действия могут повлиять на адресатов. Тем не менее, ему не хватало конкретных выделений ресурсов, детализированных результатов и других деталей, которые предоставил Claude.

Вердикт: победил Claude

Вы можете ознакомиться с результатами и цепью мыслей для каждой моделиздесь.

Игла в стоге сена

Способности извлечения контекста определяют, насколько эффективно модели ИИ могут находить конкретную информацию в длинных документах или беседах. Этот навык имеет решающее значение для юридических исследований, анализа документов, обзоров академической литературы и любой сценария, требующего точного извлечения информации из больших объемов текста.

Мы протестировали способность Claude находить конкретную информацию, зарытую в усиливающемся контексте, используя стандартную методологию «игла в стоге сена». Эта оценка заключалась в том, чтобы поместить целенаправленный кусок информации в различные позиции внутри документов различной длины и измерить точность извлечения.

Claude Sonnet 4 и Opus 4 успешно идентифицировали иглу, когда она была встроена в стог из 85 000 токенов. Модели продемонстрировали надежные способности извлечения по различным позициям в этом диапазоне контекста, поддерживая точность как в начале, так и в середине или конце документа. Качество ответов оставалось последовательным, модель предоставила точные цитаты и соответствующий контекст вокруг извлеченной информации.

Однако производительность моделей столкнулась с жестким ограничением при попытке обработать тест стога из 200 000 токенов. Они не смогли завершить эту оценку, так как размер документа превышал их максимальную емкость контекстного окна в 200 000 токенов. Это значительное ограничение по сравнению с конкурентами, такими как Gemini от Google, которые обрабатывают контекстные окна, превышающие один миллион токенов, и модели OpenAI с значительно большими вычислительными возможностями.

Это ограничение имеет практические последствия для пользователей, работающих с обширной документацией. Юридические профессионалы, анализирующие длинные контракты, исследователи, работающие с обширными академическими отчетами, или аналитики, рассматривающие подробные финансовые отчеты, могут столкнуться с проблемами из-за ограничений контекста Claude. Неспособность обработать полный тест из 200 000 токенов предполагает, что реальные документы, приближающиеся к этому размеру, могут вызвать обрезку или потребовать ручного сегментирования.

Вердикт: Gemini — лучшая модель для задач с длинным контекстом.

Вы можете проверить как иглу, так и стог сеназдесь.

Заключение

Claude 4 замечателен и лучше, чем когда-либо — но он не для всех.

Пользователи, которым нужны его креативность и возможности кодирования, будут очень довольны. Его понимание человеческой динамики также делает его идеальным для бизнес-стратегов, профессионалов в области коммуникаций и всех, кто нуждается в сложном анализе многосторонних сценариев. Прозрачный процесс рассуждений модели также приносит пользу педагогам и исследователям, которым необходимо понять пути принятия решений ИИ.

Тем не менее, новички, желающие полного опыта ИИ, могут найти чатбот немного скучным. Он не генерирует видео, нельзя с ним разговаривать, а интерфейс менее «отшлифован», чем в Gemini или ChatGPT.

Ограничение контекстного окна в 200 000 токенов влияет на пользователей Claude, обрабатывающих длинные документы или поддерживающих протяженные разговоры, и также реализует очень строгую квоту, которая может повлиять на пользователей, ожидающих долгих сессий.

На наш взгляд, это твердая «да» для творческих писателей и кодеров с настроением. Другим типам пользователей может потребоваться некоторое внимание, чтобы сравнить плюсы и минусы с альтернативами.

Отредактировано Эндрю Хейвордом

XRP: Восстановление после медвежьей ловушки и потенциал роста до $3.0
XRP: Восстановление после медвежьей ловушки и потенциал роста до $3.0
XRP ощутил волатильность: цена упала с $2.44 до $2.29, вызывая панические продажи. Однако быки возвращаются, поддерживая рост. Объем торгов увеличился, помогая восстановлению к $2.35. 🚀📈💰
Просмотреть
Целестия (TIA) продолжает падение: возрастание риска и нестабильность цен на фоне слабой уверенности инвесторов
Целестия (TIA) продолжает падение: возрастание риска и нестабильность цен на фоне слабой уверенности инвесторов
Целестия (TIA) продолжает падение, торгуясь на $2.54 с критической поддержкой на $2.53. Индикаторы показывают неуверенность инвесторов. Прорыв вверх маловероятен. 🔽💔📉
Просмотреть
Грядущий Золотой Крест BONK: Возможен ли 77% рост цены на рынке криптовалют?
Грядущий Золотой Крест BONK: Возможен ли 77% рост цены на рынке криптовалют?
Альткойн BONK показывает рост и может достичь цены $0.00003769 при преодолении сопротивления. Оптимизм инвесторов поддерживает ожидаемый бычий импульс. 🐂📈💰
Просмотреть
Догекоин: Устойчивость на фоне экономических неопределенностей и технический анализ последних трендов
Догекоин: Устойчивость на фоне экономических неопределенностей и технический анализ последних трендов
Догекоин опустился ниже $0.23, но нашел поддержку благодаря покупательскому интересу. Технический анализ показывает медвежий канал и уровни сопротивления и поддержки. 📉💰🚀
Просмотреть