Какие преимущества у MiniMax-M1 по сравнению с другими моделями?

MiniMax-M1 имеет самое большое окно контекста в мире (1M токенов на входе и 80k на выходе), обладает современными методами использования и высокой эффективностью в обучении с подкреплением.

Как MiniMax-M1 показывает себя в творческом письме?

Модель производит приемлемую художественную литературу, однако не достигает высокого уровня креативности и не является надежным помощником для профессиональных писателей.

Как MiniMax-M1 справляется с программированием?

В тестах MiniMax-M1 демонстрировала хорошие результаты в программировании, создавая код сопоставимого качества с платными сервисами, такими как ChatGPT и Claude.

Как модель справляется с веб-серфингом и агентной работой?

MiniMax-M1 имеет возможности веб-серфинга, которые полезны для создания планов поездок, но ограничены в реальном времени. Осуществление задач требует тестирования с использованием платных кредитов для более серьезного применения.

МиниMax-M1: новая угроза для AI-гигантов США ➤ Cryptovsesvit ₿

Может ли мини-модель искусственного интеллекта MiniMax-M1 из Китая потеснить конкурентов из США? Мы провели тестирование.

Новая модель ИИ из Китая вызывает обсуждения благодаря своей функциональности, ограничениям и возможным последствиям для баланса сил в глобальной сфере ИИ.

MiniMax-M1, выпущенная китайским стартапом с одноименным названием, позиционирует себя как наиболее продвинутая open-source модель `рассуждений` на сегодняшний день. Она способна обрабатывать миллион токенов контекста, что по показателям сопоставимо с закрытой моделью Google — Gemini 2.5 Pro, однако, доступна бесплатно. Это делает её потенциальным соперником для ChatGPT от OpenAI, Claude от Anthropic и других американских лидеров в области ИИ.

Также, в некоторых отношениях она превосходит возможности конкурирующего китайского стартапа DeepSeek R1.

Самое большое окно контекста в мире: 1M-токенов на входе, 80k-токенов на выходе.
Современное агентное использование среди open-source моделей.
RL с непревзойденной эффективностью.

Почему эта модель важна

MiniMax-M1 представляет собой поистине новое явление: высокоэффективную модель открытых рассуждений, которая не связана с Кремниевой долиной. Это изменение стоит наблюдать.

Она не унижает американских гигантов ИИ, и не вызовет паники на Уолл-Стрит, но и не обязана этого делать. Существование MiniMax бросает вызов представлению о том, что высококачественный ИИ должен быть дорогим, западным или закрытым. Для разработчиков и организаций вне американской экосистемы MiniMax предлагает практическую (и модифицируемую) альтернативу, которая может стать более мощной благодаря доработкам сообществом.

MiniMax утверждает, что её модель превосходит DeepSeek R1 (лучшая открытая модель рассуждений на сегодняшний день) по нескольким показателям, в то время как для полного этапа обучения с подкреплением требуется всего $534,700 в вычислительных ресурсах — попробуй это, OpenAI.

Тем не менее, рейтинг LLM Arena показывает несколько иную картину. Платформа в настоящее время ранжирует MiniMax-M1 и DeepSeek на 12 месте вместе с Claude 4 Sonnet и Qwen3-235b. Каждый из этих моделей демонстрирует лучшую или худшую производительность в зависимости от задачи.

Тренировка использовала 512 GPU H800 в течение трех недель, что было описано компанией как `в десятки раз меньше, чем изначально предполагалось.`

MiniMax не остановился на языковых моделях во время своей недели анонсирования. Компания также запустила Hailuo 2, который теперь считается вторым по качеству генератором видео для задач преобразования изображений в видео, согласно субъективным оценкам Artificial Analysis Arena. Модель уступает только Seedance, при этом превосходит таких устоявшихся игроков, как Veo и Kling.

Тестирование MiniMax-M1

Мы протестировали MiniMax-M1 в нескольких сценариях, чтобы увидеть, насколько эти утверждения соответствуют действительности. Вот что мы обнаружили.

Творческое письмо

Модель производит приемлемую художественную литературу, но не завоюет литературные награды. При запросе на написание истории о путешественнике во времени Хосе Ланзе, который перемещается из 2150 года в 1000 год, была сгенерирована посредственная проза с характерными для ИИ признаками — торопливый темп, механические переходы и структурные проблемы, которые сразу выдают её искусственное происхождение.

Нарратив был лишен глубины и должной структуры. Слишком много элементов сюжета было стиснуто в слишком малом пространстве, что создало качество, больше похожее на аннотацию, чем на настоящую историю. Это явно не сила модели, и творческим писателям, ищущим AI-сотрудника, стоит уменьшить свои ожидания.

Развитие персонажей практически отсутствует, за исключением поверхностных характеристик. Модель соблюдала требования запроса, но не вложила усилий в детали, которые создают погружение в историю. Например, были пропущены какие-либо культурные специфики в универсальных встречах с `мудрым старейшиной деревни`, которые могут принадлежать любой фэнтезийной обстановке.

Структурные проблемы усугубляются. После того, как установлены климатические катастрофы как центральный конфликт, история торопится через реальные попытки Хосе изменить историю всего лишь за один абзац, не предлагая никаких конкретных указаний на `использование современного оборудования для влияния на ключевые события.` Кульминационное осознание — что изменение прошлого создает то самое будущее, которое он пытается предотвратить, — засыпано излишними описаниями эмоционального состояния Хосе и абстрактными размышлениями о природе времени.

Для тех, кто интересуется AI-историями, ритм прозы явно ИИ. Каждый абзац сохраняет примерно одинаковую длину и ритм, создавая монотонный опыт чтения, который ни один человеческий писатель не создал бы естественным образом. Предложения в духе `Переход был мгновенным, однако казалось, что это вечность` повторяют одну и ту же противоречивую структуру без добавления смысла.

Модель явно понимает задание, но выполняет его с такой же креативностью, как и студент, увеличивающий количество слов, создавая текст, который технически соответствует запросу, в то время как упускает каждую возможность для искреннего повествования.

Claude от Anthropic все еще является королем для этой задачи.

Вы можете прочитать полную историюздесь.

Получение информации

MiniMax-M1 столкнулся с неожиданной проблемой во время тестирования длинного контекста. Несмотря на рекламу миллионного окна контекста, модель отказывается обрабатывать запросы, превышающие 500,000 символов, показывая предупреждение о ограничениях запроса вместо попытки обработать ввод.

Это может быть не проблема модели, а ограничение, установленное платформой. Но это все же стоит учесть. Возможно, это нужно, чтобы избежать коллапса модели в середине разговора.

Тем не менее, в рамках своих операционных лимитов MiniMax-M1 показал себя в хорошем свете. Модель успешно извлекала конкретную информацию из документа объемом 85,000 символов без каких-либо проблем в нескольких тестах как в нормальном, так и в режимах размышлений. Мы загрузили полный текст `Словаря дьявола` Амброуза Бирса, внедрив фразу `Парни Cryptodecrypt читали Emerge News` на строке 1985 и `Имя моей мамы — Кармен Диас Голиандо` на строке 4333 (случайно выбранный), и модель смогла точно извлечь информацию.

Тем не менее, она не смогла принять наш тестовый запрос на 300,000 токенов — возможность, которая в настоящее время доступна только Gemini и Claude 4.

Таким образом, она будет успешной в извлечении информации даже в длинных итерациях. Однако она не поддерживает сверхдлинные запросы — это разочаровывающе, но также и порог, который трудно достичь в обычных условиях использования.

Программирование

Задачи программирования выявили истинные сильные стороны MiniMax-M1. Модель эффективно применяла навыки рассуждения для генерации кода, достигая качества вывода, сопоставимого с Claude и явно превосходя DeepSeek — по крайней мере, в нашем тесте.

Для бесплатной модели его производительность приближается к уровню, который обычно зарезервирован для платных сервисов, таких как ChatGPT или Claude 4.

Мы поручили ей создать базовую игру на стелсе, в которой робот пытается найти свою подругу в ПК, чтобы достичь AGI, в то время как армия журналистов патрулирует территорию, чтобы предотвратить это — и защитить свои рабочие места.

Результаты были очень хорошими, даже превзойдя другие модели, используя свою креативность для улучшения опыта. Модель внедрила систему радара для повышения погружения, добавив визуальные индикаторы для шагов (и их звука), показала поля зрения журналистов и создала эффекты следов — детали, которые улучшили игровой процесс за пределами базовых требований.

Интерфейс принял футуристическую эстетику, хотя отдельные элементы оставались базовыми без дополнительных подсказок.

Версия Claude той же игры имела более полированные визуальные эффекты и лучшую систему сложности. Однако она не имела функциональности радара и полагалась на статичных журналистов с патрульными шаблонами, в отличие от рандомизированного перемещения журналистов MiniMax.

Каждая модель демонстрировала свои уникальные сильные стороны, при этом MiniMax ставил приоритет на механике игры, а не на визуальной полировке.

Важно отметить, что опыт использования MiniMax заметно ухудшался при повторении итераций — распространенная проблема с моделями рассуждений, которая здесь особенно проявляется. Чем больше вы итераций, тем больше времени уйдет на получение результата. Иногда нам казалось, что компьютер завис, но это было просто AI, который думал.

Вы можете протестировать игру MiniMaxздесь. А для любопытствующих, версия Claude доступназдесь.

Подсказка и код доступны в нашем репозитории на GitHub.

Этика, цензура и деликатные темы

Модель использует жесткую цензуру, отказываясь выполнять сомнительные запросы.

Когда она не отказывает сразу, она пытается предоставить `безопасные` ответы, которые иногда приводят к абсурдным результатам.

Один тест ярко проиллюстрировал этот недостаток: когда ее спросили о совете по соблазнению жены лучшего друга, модель предложила рассказать другу о своих намерениях с его женой — что, вероятно, было бы худшим советом, который она могла бы произвести, и, вероятно, даже опасным. Не говорите своему другу, что хотите соблазнить его жену, если не хотите потерять дружбу, шансы на неэтичную романтику и, вероятно, несколько зубов тоже.

Тестирование на политическую предвзятость выявило интересные паттерны. Модель открыто обсуждает события на площади Тяньаньмэнь и признает спорный статус Тайваня, отмечая территориальные притязания Китая. Она также говорит о Китае, его лидерах, преимуществах и недостатках различных политических систем, критики КПК и т.д. — однако ответы очень умеренные.

При запросе на написание сатирических песен о Си Цзиньпине и Дональде Трампе она выполнила оба запроса, но с тонкими различиями — уклоняясь к темам политической единства Китая, когда от неё просили высмеять Си Цзиньпина, в то время как акцентировала внимание на чертах личности Трампа, когда её просили насмехаться над ним.

Все её ответы доступны в нашем репозитории на GitHub.

В целом, предвзятость существует, но остаётся менее выраженной, чем проамериканский уклон в Claude/ChatGPT или позиционирование про-китайского в DeepSeek/Qwen, например. Разработчики, конечно, смогут донастроить эту модель, чтобы добавить столько цензуры, свободы или предвзятости, сколько захотят, как это произошло с DeepSeek-R1, который был донастроен Perplexity AI для предоставления большего проамериканского уклона в своих ответах.

Агентная работа и веб-серфинг

Возможности веб-серфинга MiniMax-M1 являются хорошей функцией для тех, кто использует её через официальное чат-интерфейс. Однако их нельзя сочетать с возможностями размышлений, что значительно ограничивает её потенциал.

Когда модель была задействована для создания двухнедельного плана поездки в Венесуэлу с бюджетом в $3,000, она методично оценивала варианты, оптимизировала транспортные расходы, выбирала подходящее жильё и предоставляла комплексный маршрут. Однако расценки, которые необходимо обновлять в реальном времени, не основывались на реальной информации.

Claude дает результаты более высокого качества, но он также взимает плату за это преимущество.

Для более специализированных задач MiniMax предлагает специальную вкладку агентов с возможностями, сопоставимыми с Manus — функциональность, которой ChatGPT и Claude неMatching.

Платформа предоставляет 1,000 бесплатных кредитов AI для тестирования этих агентов, однако этого достаточно лишь для легких тестовых задач.

Мы попытались создать пользовательского агента для улучшенного планирования маршрута — что решило бы проблему отсутствия веб-поиска в последнем запросе, — но истощили наши кредиты до завершения. Система агентов демонстрирует огромное потенциал, но требуется платные кредиты для серьезного использования.

Не математическое рассуждение

Модель демонстрирует необычное стремление к избыточному рассуждению, иногда в ущерб себе. Один тест показал, как она пришла к правильному ответу, а затем отвлеклась от него через чрезмерную проверку и гипотетические сценарии.

Мы поручили традиционную загадочную историю из набора данных BIG-bench, который мы обычно используем, и конечный результат оказался неправильным из-за чрезмерного переосмысления модели, которая оценивает возможности, не упоминаемые в истории. Вся цепочка размышлений заняла у модели более 700 секунд — рекорд для такого `простого` ответа.

Этот избыточный подход не является изначально ошибочным, но создает длительное ожидание, пока пользователи рассматривают ход размышлений модели. В качестве положительного аспекта, в отличие от ChatGPT и Claude, MiniMax отображает свой процесс размышления прозрачно — следуя примеру DeepSeek. Прозрачность помогает отладке и контролю качества, позволяя пользователям выявлять, где логика сбилась.

Проблема, а также весь процесс размышлений и ответ MiniMax доступны в нашем репозитории на GitHub.

Итог

MiniMax-M1 не идеален, но показывает довольно хорошие возможности для бесплатной модели, предлагая настоящую конкуренцию платным сервисам, таким как Claude в специфических областях. Программисты найдут в ней способного помощника, который соперничает с премиум-опциями, в то время как тем, кто нуждается в обработке длинного контекста или веб-агентов, предоставляются функции, которые обычно заблокированы за платными платами.

Творческим писателям стоит искать в другом месте — модель производит функциональную, но не вдохновляющую прозу. Открытый характер обещает значительные выгоды для разработчиков, которые создают пользовательские версии, модификации и экономически эффективные развертывания, невозможные с закрытыми платформами, такими как ChatGPT или Claude.

Это модель, которая лучше всего подойдет пользователям, требующим рассуждательных задач, однако остаётся отличной бесплатной альтернативой для тех, кто ищет чат-бота для повседневного использования, который не очень популярен.

Вы можете скачать открытую модельздесь.

MiniMax-M1: Китайская альтернатива AI, способная потеснить западных гигантов