6 月 17 日,在官网和开源平台 GitHub 上,上海国产 AI 独角兽 MiniMax 抛出全球首个开源大规模混合架构推理模型——MiniMax-M1。该模型在权威评测榜单已位列全球开源模型第二。M1 发布当天,MiniMax 创始人兼 CEO 闫俊杰在朋友圈写下:第一次感觉到大山不是不能翻越。
闫俊杰在朋友圈写下:第一次感觉到大山不是不能翻越
M1 之后的 4 个工作日,MiniMax 又连续发布视频生成模型 Hailuo 02、通用智能体 MiniMax Agent、视频创作智能体 Hailuo Video Agent,以及音色设计工具 Voice Design,保持日更且个个有声响。
MiniMax 究竟啥来头?梳理其脉络可发现,它在 ChatGPT 爆红前就已投身 AGI(通用人工智能),并且是国内率先放弃大模型主流稠密架构和传统注意力机制的创业公司。不跟随,是其成长的典型特征。
实力
M1 甫一登场,即在权威评测榜单中位列全球开源模型第二,仅次于 5 月 28 日发布的 DeepSeek-R1-0528。不过从细分项来看,M1 在长文本处理、工具调用等方面形成碾压级优势。
MiniMax-M1 在权威评测榜单中位列全球开源模型第二
比如,M1 支持 100 万 token(模型输入、输出基本单位) 的上下文输入,足以一次性容纳 《三体》 英文原著,能力是 DeepSeek 同类模型的 8 倍,可媲美谷歌最新闭源模型 Gemini2.5Pro。
而在输出长度上,M1 的 8 万 token 高于 Gemini2.5Pro 的 6.4 万 token,对于需生成长篇技术文档、小说剧本等场景,这一优势极具含金量。
M1 在保持性能的同时,其性价比让友商有些坐不住了。在用 8 万 Token 深度推理时,M1 所需算力仅为 DeepSeek 的 30%。M1 在强化学习阶段,成本仅 53.5 万美元。此成本,比 MiniMax 自己预估的少了一个数量级,更别提跟其他友商相比了。
文本大模型 M1 只是开胃菜。MiniMax 的视频生成大模型 Hailuo 02,直接叫板谷歌第三代视频生成模型 Veo3。
体操、杂技等复杂运动,一直被作为 AI 视频模型的图灵测试。但过往 AI 视频里,常出现运动主体肢体错乱 (如三条腿)、五官扭曲等 「翻车」 状况。
与谷歌 Veo3 相比,Hailuo 02 实现了对物理世界规律的极致理解。
同为跳马,Hailuo 02 实现了对物理世界规律的极致理解,可见谷歌 Veo3 生成视频出现肢体错乱扭曲不符逻辑
Hailuo 02 实现了对物理世界规律的极致理解。以 「一只猫在奥运会从 10 米高跳板上进行跳水表演,翻腾旋转,动作优美」 为提示词,让谷歌 Veo3 和 Hailuo 02 各自生成视频。前者的视频中,猫咪翻转动作含糊,几乎直扑入水;后者则在空中完整翻转三周半后优雅入水,动作全程均符合逻辑。
谷歌 Veo3 和 Hailuo 02 各自生成 「猫跳水」 视频对比,谷歌 Veo3 视频中猫直接入水,Hailuo 02 视频中的猫在空中完整翻转三周半后入水,动作全程符合逻辑。
Hailuo 02 生成的 「猫跳水」 视频在 Instagram 发布后一周内,即获 3 亿现象级流量。一夜之间,长颈鹿、羊、河马等动物都 「学会」 了跳水、打乒乓等,「动物奥运会」 这一 AI 视频新品类被 Hailuo 02 开创出来。
长颈鹿也 「学会」 了跳水
打磨
殊不知,为锤炼 Hailuo 02,MiniMax 打造了一支导演、编剧、美术复合团队班底,与技术团队一同打磨。
MiniMax AI 艺术总监郑晓东坦言,他天天跟算法工程师们开会,跟听天书一般。但他依旧理直气壮地提要求:一要有电影质感,把大片最高审美带给用户;二要挑战高动态、超复杂、大幅度动作;三是结果导向,AI 生成的片段切入电影或短剧的比例,第一步要达到 5%。
「我就代表用户提意见。如果不能将高动态美学的能力给到用户,还不如不做。」 郑晓东从未质疑过自己要求的合理性。
过去一年,AI 视频技术团队经历了无数抓狂时刻。明明架构、算法不断优化,效果却背道而驰。
但唯有高质量的数据、创新的算法,以及死抠每一道训练环节以避免 「差之毫厘,谬以千里」,最终成就了 Hailuo 02 的一鸣惊人。
MiniMax 要把大片审美带给用户
关键在于,AI 视频生成领域曾陷入效果、效率、成本的 「不可能三角」,即追求极致生成效果,往往拖慢效率,且需要海量的计算资源、高昂的训推成本。Hailuo 02 却以创新的 NCR 架构,在将模型参数和训练数据量分别提升 3 倍和 4 倍的同时,效率还实现了 2.5 倍的飞跃。
郑晓东认为,团队敢讲真话、有自己的原则和坚持、一切只为模型效果负责,这些尤为关键。「这可能也是 MiniMax 数十人的视频团队,却比大厂数百人队伍还扛打的秘诀。」
记者采访时,MiniMax 公司多名员工提及 「做好模型本身」。他们说,闫俊杰反复强调:好模型的本质是技术驱动,而模型是产品出现的驱动力。
言下之意,技术好、模型好,自有产品力。此条逻辑似已经被证明——MiniMax 视频生成应用 Hailuo AI,去年下半年起持续霸榜全球第一,力压海外的 Sora、Runway 等产品。同时,MiniMax 开放平台快速成长,已有全球超过 5 万名企业客户和开发者注册,Hailuo AI 已帮助来自 200 个国家和地区的创作者生成了超过 3.7 亿个视频。
Hailuo 02 官方价格显著低于 Runway、可灵等国内外同行,实现行业底价。
逆行
从某种意义上说,MiniMax 如今的主场时刻,是用 「逆行」 换来的。
去年以来,迫于内部成本与外部竞争,国内外大模型公司多在加速收敛。如去年 7 月时,美国前六的 AI 创业公司只剩 OpenAI 和 Anthropic,若加上面临被收购的 xAI 公司,最多 2.5 个。
而国内,百模大战很快收缩为个位数竞争,曾经的大模型 「六小虎」,不少转而押注行业落地。
MiniMax 成了为数不多仍在坚持基座模型研发的创业公司。
MiniMax 的沉着,在于迷雾中的清醒与果敢。
2023 年下半年,国内同行多坚信大模型稠密架构,MiniMax 却率先投入资源研究 MoE 架构。MoE 架构将模型分成多个专家子网络,视情动态激活 「专家」 进行计算,以节省计算开销。早在去年初,MiniMax 就已上线国内首个基于 MoE 架构的大模型,而今年初爆火的 DeepSeek-R1 使用的就是 MoE 架构。如今,MoE 几乎取代稠密架构,成为行业主流。
此次 M1 的成功不仅在于沿用 MoE 架构,核心秘笈还在于使用了线性注意力机制。模型传统的注意力机制中,token 长度与算力消耗呈平方关系,token 增长百倍,算力消耗就增长万倍。线性注意力机制是在 token 长度增加后,努力让算力消耗呈线性增长。事实上,该理论 2019 年就有海外学者提出,但敢于投时间、人力、算力资源验证其可行性,并最终用于大规模商业化部署的,全球范围仅 MiniMax 一家。
另外,MiniMax 还创造了一种名为 CISPO 的强化学习方法,可更好保留长推理链条中的转折点。MoE、线性注意力、CISPO,共同构成模型高效能、低成本的基石。
不过,大模型发展是一场长跑,其决赛季远未到来。面对平均每三个月就能带来 「行业一震」,MiniMax 保持敬畏,其目标始终就一个——留在牌桌上。
去年世界人工智能大会上,闫俊杰在接受记者采访时谈及 「生存」。他认为,技术上能快速进步、商业上能较好循环,唯有符合这两点的公司才能留下来。他还补充道:「在等待市场出现千万级乃至亿级 AI 应用过程中,大模型公司该做的,就是具备每年提升 10 倍的能力。我们成立迄今,正是按这个速度来的。」
另据记者了解,MiniMax 与上海人工智能实验室书生·浦语大模型,以及商汤、阶跃星辰等四大基座模型,共同构成大模型 「上海队」。如商汤今年 4 月全新升级 「日日新 SenseNova V6」,推理能力对标 OpenAI o1,数据分析能力大幅领先 GPT-4o,其体系还涵盖国内首个支持 10 分钟中长视频深度解析的大模型。又如成立才 2 年多的阶跃星辰,已累计发布 22 款自研基座模型,其中多模态模型占比超 7 成,也因此在行业内被称为 「多模态卷王」。
上海还在去年底印发 《关于人工智能 「模塑申城」 的实施方案》,力争到 2025 年底建成世界级人工智能产业生态,建设 3 至 5 个大模型创新加速孵化器,建成一批上下游协同的赋能中心和垂直模型训练场。