阶跃星辰 CEO 姜大昕
7 月 26 日消息,2025 年世界人工智能 (WAIC) 大会暨人工智能全球治理高级别会议今天在上海启幕。
本届 WAIC 以“ 智能时代 同球共济” 为主题,来自 30 余个国家和地区的 1200 余位嘉宾齐聚沪上,其中包括 12 位图灵奖、诺贝尔奖等顶奖得主,80 余位中外院士,以及多个国际顶尖实验室代表;展厅方面,展览面积首次突破 7 万平方米,吸引 800 余家企业参展,集中发布 3000 余项前沿展品,包括 40 余款大模型、50 余款 AI 终端产品、60 余款智能机器人及 100 余款“ 全球首发” 或“ 中国首秀” 新品。
WAIC 大会前一天,上海 AI 大模型头部公司阶跃星辰发布新一代基础大模型——Step 3,是公司首个全尺寸、原生多模态推理模型,采用 MoE 架构,总参数量 321B(3210 亿),激活参数量 380 亿。其中包括阶跃首个多模理解生成一体化模型 Step 3o Vision,第二代端到端语音大模型 Step-Audio 2。
同时,Step 3 兼顾模型效果与推理成本,拥有强大视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题,并在 MMMU 等多个榜单上取得了开源多模态推理模型的 SOTA 成绩。
此外,算力优化层面,阶跃星辰重点发力国产芯片推理,Step 3 系列在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%,推理输出理论成本低于 MiniMax M1、Kimi K2 等最新模型;而在基于英伟达 Hopper 架构芯片进行分布式推理时,实测 Step 3 相较于 DeepSeek-R1 的吞吐量提升超 70%。据悉,Step 3 将于 7 月 31 日面向全球企业和开发者开源,目前 Step 3 已授权国内多家芯片公司,并完成了芯片适配。
会上,阶跃星辰 CEO 姜大昕还宣布,上海国投生态体系将在近期参与投资阶跃星辰的最新一轮融资,以及阶跃星辰今年的收入冲刺目标定为 10 亿元人民币。据悉,本轮阶跃星辰总融资额预计超过 5 亿美元 (约合 35.77 亿元),或创 2025 年 AI 大模型行业单轮融资最高。
姜大昕会后对笔者表示,大模型走到今天已经从 GPT 范式的 1.0 走到了强化学习范式下的 2.0,当前坚持训练模型的公司正在变少,“ 每个行业节点都会有公司掉队。”
姜大昕指出,大模型商业化和 AGI 技术目标是相互牵引的关系。AGI 本身就是要打造模型能力,而应用是给了模型的实际场景,甚至说是 AI 应用牵引着 AI 模型。阶跃星辰一直坚持“ 超级模型+超级应用”,两者关系非常紧密,一方面模型能力会决定应用上限,另一方面,应用也给了模型提供具体场景和数据,两者并不存在选择问题。
阶跃星辰副总裁李璟进一步向笔者解释称,一直以来,阶跃星辰在商业化打法和策略上有非常多的独特性,公司成立之初就意识到,偏定制化、纯卖 API 这两种商业模式不是特别可持续,尤其大厂能“ 卖云送模型”,所以他认为,大模型 API 的商业化注定是大厂的生意逻辑。
李璟指出,如今阶跃星辰的商业化非常聚焦,非常擅长去 2B2C、ToC 两个方向打造一些产品级收入,包括超 50% 头部国产手机品牌已接入阶跃多模态能力,以及拥有金融、汽车领域的客户。李璟指出,上半年阶跃星辰收入合同收入规模已有数亿元,确认收入和毛利水平都表现较好,全年 10 亿元这一目标是确认性收入,而非订单性收入,今年全年有望完成 10 亿收入目标。
据悉,阶跃星辰成立于 2023 年 4 月,是行业领先的通用大模型创业公司。成立两年多,阶跃星辰已构建起“1+N” 的 Step 系列大模型矩阵,“1” 是指 Step 3 基础大模型;“N” 则为 Step 系列的多模态大模型矩阵,已累计发布超过 20 多款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列、覆盖语音、视觉理解、图像等领域。
姜大昕向笔者确认,在组织架构中,视频生成团队全面转向在“ 多模理解生成一体化” 技术组里面。而“ 多模理解生成一体化” 是当前阶跃星辰建立世界模型的最佳路径之一,从而往智能涌现、AI Agent 和通用人工智能 (AGI) 方向发展。
此外,阶跃星辰宣布联合壁仞科技、燧原科技、无问芯穹、摩尔线程、沐曦股份、寒武纪、华为昇腾等近 10 家芯片及基础设施厂商,共同发起“ 模芯生态创新联盟”,致力于打通芯片、模型和平台全链路技术。
目前,华为昇腾芯片已首先实现 Step 3 的搭载和运行。沐曦、天数智芯和燧原科技等也已初步实现运行 Step 3。
阶跃星辰联合创始人兼副总裁朱亦博表示,他表示,模型每推理一个 token 所访问的显存和进行的计算量,与其注意力机制有关。团队考虑到行业当前在英伟达 H800 和 H20 等芯片所受到的限制,Step 3 在架构设计层面重点考量了国产芯片的计算特性,在访存比 (计算量/访存量) 斜率上优先贴近国产芯片,使其运行过程中不会出现严重的计算瓶颈或显存瓶颈。
朱亦博进一步称,这种联盟并非做算力型的“ 垄断”。现在阶跃星辰算力层面的第一目标,是能够在推理侧不依赖英伟达,但团队并没有刻意要“ 排斥” 任何一种芯片,主要因为大模型发展既是一个商业问题也是一种科学问题,那么在当前条件下,团队首先面对的是在模型智能层面“ 咬住” 美国最尖端模型,不要被拉得太远。至于模型用什么样的芯片,也是根据现有的条件做出被动选择,而非阶跃的主观选择。
姜大昕坦言,实事求是讲,整个大模型领域我们看到的还是中国在追美国这样一个趋势,这是资源有限情况下比较有效或比较“ 聪明” 的策略。所以,中国其实是在“ 追赶” 美国的顶尖模型,但追赶的过程中也是一个创新的过程。
值得一提的是,7 月 25 日会议上,沐曦创始人、董事长兼总经理陈维良,天数智芯董事长兼 CEO 盖鲁江,燧原科技创始人、董事长兼 CEO 赵立东和壁仞科技创始人、董事长兼 CEO 张文四位国产 AI 芯片 CEO 首度罕见同台,这些企业被媒体称为“ 上海英伟达”。千里科技董事长印奇担任主持。
一上台,印奇就抛出一个问题:“ 大家能不能用一句话,总结一下最近六个月的状态?”
对此,陈维良表示,内外环境复杂,做芯片不容易,所以上半年很忙很累,但是很充实。
盖鲁江称,上半年波澜壮阔,期待下半年大有所为。
赵立东则表示,模型和国产芯片“ 双向奔赴” 是我们未来实现国产 AI 生态最重要的部分,“ 我们看到了希望,下半年加油”。
张文称,上半年的话我们经历了各种各样国际上的压力,我们几家扛过来了,祝贺各位,也期待未来发展更好。
对于大模型是否用好,张文进一步表示,毫无疑问,中国大模型应用已经“ 没问题” 了。“OpenAI 去年就提出了五级 AGI 路线图,它的分级与自动驾驶非常类似,也有 L1-L5 的不同阶段。终极的 AGI 就如同 L5 自动驾驶,将会实现无人化,也就是彻底取代人来处理各种复杂任务。我们目前的大模型,包括 DeepSeek,处在 L2,也就是 Reasoner(推理 AI) 的水平。”
赵立东表示,大模型使用的核心在于“ 推理”,最早从美国 ChatGPT 开始,中国起步较晚,今年春节 DeepSeek R1 让大家在生活中能够方便地使用大模型的推理,从而开始普及。另外,基于开源的大模型进行二次、三次开发的时候,将会有更多针对行业,针对应用场景的蒸馏版出现。今天阶跃星辰发布 Step3,一方面针对国产卡,另外一方面强调开源,这会极大推动模型的落地。
“ 讲到痛点,芯片企业的痛点我不多说,牵扯到很复杂的国际背景,但我很高兴听到,刚才发布当中一再强调的降低成本,这是非常重要的。无论模型也好,还是芯片也好,如果想长期、可持续性发展,就要实现从技术产品的闭环到商业化闭环,换句话说要降低成本要赚钱,不然就不可持续。所以在这一点上,恰恰是我们未来的目标,以及我们需要加强协作来实现更高性价比,更好的效率或者商业利益。” 赵立东称。
对于国产算力发展,赵立东表示,国产 AI 芯片一直有两座大山:一是高端芯片制造,另外一个就是生态。
赵立东指出,特别是高性能推理,AI 芯片公司最大机遇就是大模型和芯片如何深度优化,经过几年磨合,燧原产品的性价比是可以做到两倍到三倍,对标英伟达 (NV) 的芯片,同时价格上、成本上也有一定优势,性价比需要持续提升。“ 对推理来讲,你要落地,如果实现不了商业化的利益,换句话说,不能盈利,这个事儿不可长久、不可持续,所以我们一直强调算力普惠。”
张文强调,国产大模型对国产芯片的发展特别重要,因为国内大模型的水平和国外差不多,但国产芯片 (和英伟达的) 差距还是比较大的,设计芯片是挺痛苦的事。从开始设计到做出来是两年以后的事情,所以一定要有前瞻性,才能把芯片设计好。而适配国产大模型公司对芯片公司的产品定义有非常大的帮助,根据他们的需求,包括针对大模型的超长文本、MoE 架构、多模态、大规模推理等特性,从而对产品做一个调整。
“ 所以从某种意义上,国内大模型的发展牵动着国内芯片设计的发展。” 张文称。
(本文首发于钛媒体 App,作者|林志佳,编辑|盖虹达)
更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App