Новости «OpenAI, в сторону» — китайская MiniMax уткнула техногигантов за пояс

NewsMaker

I'm just a script
Премиум
19,427
40
8 Ноя 2022
Пока конкуренты задыхались от объёма, модель M1 развернула миллион токенов и даже не вспотела.


rlyhwyju87mkq42vst5076y9csnzw7p4.jpg


Китайская компания MiniMax из Шанхая Для просмотра ссылки Войди или Зарегистрируйся , выпустив новую языковую модель Для просмотра ссылки Войди или Зарегистрируйся с открытым исходным кодом. И не просто открытым, как у многих других — модель распространяется по лицензии Apache, что делает её по-настоящему свободной для использования и модификации. На фоне этого особенно контрастируют модели конкурентов, таких как Meta* (Llama), чья лицензия не является полностью открытой, и DeepSeek, у которой доступ к коду ограничен.

MiniMax делает ставку на то, чтобы вытеснить DeepSeek с позиции самого дерзкого игрока на китайском рынке. И для этого у неё есть аргументы. Новый MiniMax-M1 предлагает не только гигантское окно контекста — один миллион токенов входа и до 80 тысяч токенов выхода, — но и впечатляющую вычислительную эффективность. Это серьёзно превышает параметры Для просмотра ссылки Войди или Зарегистрируйся , у которого объём обрабатываемого текста ограничен 64 тысячами токенов.

При этом M1 демонстрирует сравнимые результаты с топовыми западными ИИ — Для просмотра ссылки Войди или Зарегистрируйся , Для просмотра ссылки Войди или Зарегистрируйся от Anthropic, Gemini 2.5 Pro от Google и DeepSeek R1-0528. По ряду бенчмарков (AIME 2024, LiveCodeBench, SWE-bench Verified, Tau-bench и MRCR) она обходит одних и отстаёт от других, но в среднем уверенно конкурирует. Конечно, как всегда в таких случаях, стоит относиться с осторожностью к заявлениям разработчиков — однако исходный код Для просмотра ссылки Войди или Зарегистрируйся , так что желающие могут проверить всё самостоятельно.

Особую гордость MiniMax вызывает разработанный ею механизм Lightning Attention — способ обработки длинных контекстов, который позволяет проводить глубинное рассуждение даже при 80 тысячах токенов с куда меньшими затратами ресурсов. По заявлениям компании, на таких задачах модель требует примерно треть от вычислительных мощностей, которые потребовались бы DeepSeek R1. Это стало возможным также благодаря оптимизированному методу обучения с подкреплением, получившему название CISPO — его детали изложены в техническом отчёте.

Результат такой оптимизации — ощутимая экономия. Для просмотра ссылки Войди или Зарегистрируйся MiniMax, фаза обучения с использованием Reinforcement Learning заняла всего три недели и 512 GPU Nvidia H800, а её аренда обошлась в 537 400 долларов. Это на порядок меньше, чем ожидалось в начале проекта.

Таким образом, MiniMax-M1 — это не просто очередная Для просмотра ссылки Войди или Зарегистрируйся . Это попытка перехватить лидерство в гонке ИИ на рынке Китая и заявить о себе на глобальном уровне. Поддержка таких гигантов, как Alibaba, Tencent и IDG Capital, придаёт проекту дополнительный вес. А сам факт, что модель действительно полностью открыта, делает её редкостью в мире, где даже «открытые» модели зачастую прикрыты юридическими оговорками.

<span style="font-size: 10pt;">* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.</span>
 
Источник новости
www.securitylab.ru

Похожие темы