优必选 Walker 机器人展示
中国机器人行业真的热爆了。
「人,实在是太多了。」 这是今年世界机器人大会上,几乎每个人见面的第一句开场白。30 多度高温下,很多大人带着孩子去展区看,这证明着中国对于机器人赛道,尤其是人形机器人和具身智能赛道关注度显著增加。
首先,机器人企业规模增长较快。笔者从企查查方面了解到,截至今年 8 月 12 日,中国现存机器人相关企业有 95.8 万家,接近 100 万家。其中,2024 年注册量为 19.32 万家,同比增长 4.59%;而 2025 年前 7 个月,机器人相关企业的注册量已达 15.28 万家,同比增长 43.81%,大幅超过去年全年新增企业增速。
从地域分布来看,华东地区机器人相关企业占全国的 39.64%。产业链方面,中国人形机器人整机平台超过 160 家,占据全球 50% 以上;核心零部件供应链企业逾 600 家。
其次,融资端火热。今年 1-7 月,具身智能和机器人领域投资事件数超过 200 起,融资总额已超过 240 亿元,远超过 2024 年全年总和。预计 2025 年全年,中国人形机器人市场规模将超过 82 亿元,占全球的 50% 以上。
最后,市场前景广阔,中国正逐步成为全球人形机器人市场焦点。据花旗预测,到 2050 年,全球人形机器人市场规模将增长至 7 万亿美元 (约合人民币 50 万亿元),届时世界上将有近 6.5 亿台人形机器人,其中有 50% 以上产品将来自中国市场。
然而,与大模型赛道类似,具身智能和人形机器人处于行业发展的早期阶段,仍存在很多 「非共识」 争论。
8 月 9 日,宇树科技创始人、CEO 王兴兴在演讲中表示,目前机器人本体硬件技术层面是完全够用的,更大的问题在于量产、工程化层面问题。而软件层面,机器人的最大挑战还是具身智能、AI 完全不够用,具身智能模型架构不够好,也不够统一,这是限制当前人形机器人大规模应用的最大一个问题。
王兴兴还指出,具身智能模型的数据的关注度太高,但模型本身关注度更少。而且,只是 RL(强化学习)+VLA 模型还是不够的,世界模型是他眼中有望更快收敛的技术路径。
对此,2025 世界机器人大会期间,笔者与多家人形机器人和具身智能公司创始人交流,寻求行业一些真实的现状和看法。
一、具身智能的未来到底是 RL+VLA,还是世界模型?
简单来说,VLA(Vision-Language-Action,视觉-语言-动作模型) 是一种多模态人工智能框架,旨在通过融合视觉感知、语言理解和动作控制,实现从环境观察到行为决策的端到端闭环系统。VLA 属于具身智能 (Embodied AI) 的延伸,主要应用于自动驾驶和机器人领域。而利用 RL(强化学习) 技术,希望未来 VLA 通过多模态融合与端到端学习,推动智能系统在复杂物理环境中的自主决策能力,但当前行业还很难实现性能较强的机器人端到端 VLA 模型。
王兴兴认为,对于人形机器人的商业化来说,成本和硬件其实并不是关键性的问题,无论是 10 万还是 100 万,还是有很多场景能用起来的。而最大的问题目前其实还是整个具身智能模型不够泛用性,实用性还是有更大的提升,这是当下最棘手的问题了。
王兴兴指出,基于 VLA 模型的机器人现在跳舞、打拳效果很不错。可问题在于,如果要训练机器人跳全新的舞蹈,每次有新的动作都要从头开始训练。VLA 模型是一个相对比较傻瓜式的架构,仅 RL(强化学习)+VLA 模型还是不够的,整个行业里还没有人做得很好,强化学习的 Scaling Law 还没有出现,这是非常值得研究的方向。
王兴兴称,目前模型架构不统一,大家进展没有那么快,宇树曾用视频生成模型作为 「世界模型」,来驱动并对齐机械臂的项目,这个尝试取得了一定效果,但视频生成模型训练规模极大,考虑到公司算力和投入,难以进行大规模训练。而且这类模型的泛用性还不能完全满足预期,因此后来基本没有继续使用。
他指出,最近谷歌 DeepMind 发布视频生成/世界模型 Genie3,其物理对齐效果非常好,并且他们公开尝试把视频生成模型作为世界模型,直接用于机械臂和通用智能。这让他认为这个方向非常值得重新探索。
「目前,对齐工作仍非常复杂且具有挑战性。这个方向无论是对机器人应用,还是纯视频生成技术本身,都是非常主流且值得投入的。即便不用于机器人,视频生成技术也会持续被大公司加大投入、不断优化。」 宇树认为,世界模型路线发展起来可能比 VLA 模型更快,收敛概率更大,但可能还有很多问题,其中一个很大的问题就是,视频生成模型太关注质量,对 GPU 的消耗有点大。但是对机器人干活来说,某种意义上并不需要很高精度的视频生成质量,只要能驱动机器人干活就行了。
星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇对笔者表示,VLA 被认为是一个更广泛的概念,只要机器人用到视觉感知、语言、行为动作,我们都认为是一个 VLA 模型。因此,从整个意义上来说,世界模型是 VLA 技术的一个路径。
「我们认为,下一个范式的 VLA,更倾向于说更广义上的 VLA 模型,不局限于某一个 VLA 模型架构,只要是端到端的模型,它能够跟人进行语言交互、视觉感知,可以在物理世界里面干活,它就是一个 VLA 的模型。只不过,世界模型会在现有狭义 VLA 模型范式上进一步通过技术 (包括 RL 强化学习等),改进它的精细化操作、泛化、认知能力等。」 陈建宇称。
对于为何难以实现端到端 VLA,陈建宇表示,主要有两点:一是世界模型需要融入到生成式模型当中,实现对未来的预测、认知和生成式行为;二是 RL,即 VLA 的强化学习、运动控制模型,提升机器人的通用泛化能力,这将成为通用范式。
穹彻智能联合创始人、上海交通大学人工智能学院副院长卢策吾
穹彻智能联合创始人、上海交通大学人工智能学院副院长卢策吾对笔者表示,VLA 本质是模仿学习,类似概率模型,有很大的不确定性,做起来会面临很大限制,需要加各种各样的技术,包括强化学习、世界模型等。
在卢策吾看来,追求机器人的泛化性就是消除世界存在的巨大不确定性,而要想提升泛化性,还需要在数据收集方式、可以提高鲁棒性的模型,以及世界模型等方面发力。
「我不是很喜欢说哪种路线一定是对的,哪种是不对的。一个好的具身智能企业应该做到所有路线都非常强,知道好处坏处,然后用科学的方法进行很好地融合,但也有自己的特点。」 卢策吾表示,未来至于是否叫 VLA,其实无所谓了。
国家地方共建人形机器人创新中心首席科学家江磊表示,他与阿里、华为等企业交流之后体会到:「我们是找不到一个很好的身体」。
江磊认为,今天行业确实还用不上全参数模型,机器人的大脑、小脑、肢体需要深度协同;王兴兴质疑 VLA 并尝试用视频生成驱动机器人任务,他承认 「感知-认知-决策-执行的闭环尚未闭合」,呼吁重构 VLA 模型,寻求新的解决范式,而强化学习跟模仿学习都需要进入 Scaling law 法则,让机器人足够泛化和聪明。
江磊以 OPEN VLA 为例,这是一个基于 Llama2 语言模型基础上的 7B 参数的开源 VLA,参数规模并不算大。即使是目前被认为最强的通用机器人控制 VLA 模型π0,也无法有效运用全参数的大语言模型 (LLM),同时对数据提出更高要求。 「为什么人形机器人用不上全参数模型?」 江磊的解决思路是,业界需要积极探索云端与终端 (端侧) 的算力协同分配,构建完整的 「云网一端」 的部署架构。
会后交流时,江磊对笔者表示,VLA 有点像过去运动视觉的大模型版,需要不断推动产生一个动作,但完全没有泛化性,而是通过运动层次的轨迹跟踪解决问题,因此,下一步,我们要用强化学习解决力控问题,比如手要干活、带水、摩擦力不够的时候,机器人怎么去更好地抓取,然后有反馈。除了强化学习,还要做模仿学习,实现大脑、小脑、肢体的协同,这是现在我们要面对的挑战。
值得一提的是,就在 8 月 11 日,星海图发布了首个 VLA 模型——星海图 G0,以及星海图开放世界数据集。包含了 500 个小时的机器人与物理世界交互的数据,包括了 50 个不同场景、150 个真实世界的任务。把数据采集机器人部署到了真实的开放世界中进行数据采集,包括一系列家庭生活服务的场景,采集员通过遥操作的方式控制机器人,让机器人去完成复杂的、长程的、日常的任务。
星海图首席科学家赵行表示,随着计算的提升,AI 才实现了真正的进展,而星海图公司目标是训练 VLA 模型。
赵行称,团队发现,跨本体预训练的效果远不如单本体预训练的效果。这就意味着,机器人模型的智能模型,其能力与本体有着密切的联系,所以,我们需要对我们想要使用的智能本体以上的数据进行收集,这也说明了,事实上,具身智能是一个从模型到数据,再到机器人本体的整个链条,想要做好,不是一家公司就能做到的。
星海图联合创始人许华哲认为,团队现阶段采用的是一个分层系统,上层是负责高阶任务拆解的 VLM,下层是负责执行具体动作的 VLA。VLM 将一个抽象指令 (如 「铺床」) 拆解成具体的子任务 (如 「拉左边被角」),然后交由 VLA 来理解和执行。这种双系统的优势在于效率更高,并且对复杂场景的推理能力更强。但分层与端到端最终是异曲同工的。行业的终极形态应该是一个统一的端到端模型,但其内部会自然形成功能上的分化,我们现在的分层系统,是通往最终统一模型的必经之路。
当然,这里面也有非 VLA 和非世界模型的。众擎机器人创始人赵同阳在演讲中表示,具身智能的核心在于操作能力。缺乏这一能力,机器人将不具备实际生产力价值。
而智元不仅布局 VLA 和开源数据集路线,还布局世界模型。智元合伙人、智元机器人研究院执行院长、具身业务部总裁姚卯青表示,行业首个真正面向真实世界双臂机器人的世界模型开源平台 「Genie Envisioner」(以下简称 GE),融合了预测、控制、评测三大核心能力,为机器人从 「看见」 到 「行动」 提供了端到端、一体化的解决方案。
「人类与机器人一样。如果你能够做到在脑海里,在世界模型里面去做一个精准的推演,那它离真正能够上手,中间的距离就能被大大缩短。我们依托于这个世界模型,也是让一部分机器人先想象起来,不是让它在梦中去数电子羊,而是真正以动作生成的方式去预见未来,预见它将被执行动作之后的环境变化。」 姚卯青强调,具身智能其实应该是一个机器人+AI,而不是 AI+机器人,更多还是要结合硬件和本体,模型基本是围绕着本体设计才能进化和迭代。
江磊强调,目前技术还未完全收敛,各种路线都存在属于正常现象。你会发现,人形机器人这一块,有很多种选择,但是大部分的厂商都把它开源了,这对人形机器人来说很重要,等它成熟了,我们就可以坐下来,商量一下下一步该怎么做,让技术不断地更新。
二、更关注数据,还是更关注模型?
王兴兴表示,人们过于关注具身智能的数据,但对模型本身的关注度较少。在他看来,数据并非具身智能的唯一瓶颈。
「在具身机器人领域,反而大家可以发现,很多情况下你有了数据,但这个数据用不起来,你采了数据干嘛用。所以很多情况下,大家对模型的关注目前是相对有点少,反而对数据关注有点太高了。」 王兴兴称,目前来说具身智能机器人模型架构都不够好,也不够统一。
在王兴兴看来,到现在为止,大模型或具身智能还是不太够用。具身智能机器人的 ChatGPT 时刻,最快在 1-3 年实现,最慢也在未来 3-5 年间能够落地。
星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇
对于数据和模型目前孰重孰轻,陈建宇表示,相比数据瓶颈,现阶段大家应该更关注模型。
「未来迭代模型需要的数据绝对数量肯定越来越大,但我强调的是数据利用效率,在同样的情况下,只需要更少的数据,让数据利用效率更高,但数据量仍需要很大,因为现在数据量还是不够。」 陈建宇称,大家关注数据,其实更上层是模型,如果只关注一个的话,应该先关注模型。
陈建宇强调,在一些真实工业场景中,目前智能机器人已经达到人类 70% 的效率,明年能达到 90% 左右。未来是软件和硬件的打磨阶段和过程,也是发挥端到端模型的优势——能实时反馈、实时控制。「假以时日,我相信 (机器人) 能达到人类的水平。」
自变量机器人创始人兼 CEO 王潜表示,数据依然是当前具身智能模型发展的重要瓶颈之一,应当关注。
王潜指出,要达到 ChatGPT 水平,关键首先是 Scaling Law 可以持续发挥作用,这也是大家已经确定的,然后需要足够多的数据、足够大的具身模型,同时模型架构和训练方法等方面还需要持续向前演进。预计需要 3-5 年时间周期,机器人模型才会达到类似 ChatGPT 的水平。
自变量机器人创始人兼 CEO 王潜
「机器人模型与语言模型不同,应用场景复杂,会有一个比较平滑的过渡过程,它不会像自动驾驶技术发展一样有一个突变的过程,因此也不会有因此带来的大的商业上的波折。」 王潜指出,目前数据收集的质量控制是非常困难的事情,整体采集管理和收集上来的数据是否有用,是一个有待验证的问题。
王潜进一步称,公司的大模型技术路线是统一端到端的架构,第一是追求性能,只有端到端的模型,才能在整体感知、决策、控制链条上,完成统一的处理,突破现有机器人系统性能的上限;第二是拥抱 Scaling law;第三,只有端到端其实才能通向真正的通用性。
江磊强调,世界上最大的机器人数据集来自中国,再往下所有的模型从业者数量中国最多。「我们很有信心,在制造业优势跟数据优势的情况下,能够把原创技术的具身智能模型打造出来,这是我们一个重大历史机遇。」
三、应该重视真机数据,还是仿真/合成数据?
目前,超过 90% 的具身智能和人形机器人企业,都偏向于真机数据训练出机器人 「大脑」 以及交互系统,只有银河通用、跨维智能、光轮智能等部分企业还坚持合成数据 (Sim2Real,从仿真到现实) 这条路线。
北京大学助理教授、银河通用创始人及首席技术官王鹤
北京大学助理教授、银河通用创始人及首席技术官、智源学者王鹤表示,合成数据是推动具身智能快速落地的关键。「目前,真实世界数据仅占我们训练数据的 1%,其余 99% 均为合成数据。」
王鹤表示,银河通用将自研机器人模型、大量物体与材质资产输入合成管线,经英伟达引擎完成仿真验证与物理渲染,生成全球首个百亿级抓取操作大数据集,以及全球首个百亿级柔性物体操作大数据集。这些数据使银河通用的模型在真实环境中具备极高的鲁棒性与泛化能力。
王鹤强调,长期看,真实数据固然重要,但在具身智能发展的初期阶段,合成数据是推动产业发展的关键数据资产,真实数据则用于补充和完成 「最后一公里」 的训练。
跨维智能方面对笔者表示,相对于用英伟达引擎,跨维智能属于从头开始自研合成数据和 VLA 模型。以自研 DexVerse 具身智能引擎为底座,构建了从仿真训练到现实部署的端到端闭环体系。通过 「海量数据生成+高效仿真」 技术,机器人载体 W1 Pro 可在虚拟环境中完成多场景任务训练,直接实现真机部署与应用切换,彻底颠覆传统机器人依赖真实数据采集的低效模式。未来,跨维智能将持续通过物理引擎、大模型、传感器三位一体架构,构建更加可泛化的智能基座,赋能 W1 Pro 深入家庭、商业等多元化场景。
但赵行却认为,真机数据是最重要的,是打破具身智能天花板能力的关键技术,而且要进入真实的世界里去采集数据。「我不希望我们的机器人像赛车场里的赛车一样不停地绕圈,而希望我们的车走到真实的道路上、公开的道路上去面对、应对真实的交通和驾驶场景,我们也希望机器人到真实的家庭里去看一看、走一走、做一做、干一干,最后把数据收集回来,训练我们的具身基础模型。」
卢策吾对笔者表示,对于合成数据、真机数据比例问题,这不应该是人类去决定的,而应该是一套有效的机制决定。比如,穹彻大脑对于仿真和真实系统,最后以结果导向,而非人类拍板决定。
「我们发现,非持续性动作如以抓为中心,仿真做得其实挺好的,然而,一旦到了擦桌子、刮胡子这些复杂操作的时候,仿真和真实效果 Gap 很大,它更加依赖于真实数据,那么究竟是多少?这东西是由模型自动计算和判断出来的。」 卢策吾称。
总结来看,仿真数据对于一些简单动作就可以了,但长期看,真机数据依然很重要,而且需要大量的数据采集训练才可以最终实现机器人叠衣服、擦桌子、递送咖啡等交互动作,实现更聪明的大脑,以及下身更灵活的运动控制等。
非共识本身即共识
除了上述三个问题,目前还有很多 「非共识」 话题,其中之一就是,人形机器人到底应该是跳舞、打拳、踢足球等游玩观赏,还是要 「进厂打工」 或是逐步进入家庭,为社会产生更大价值。
加速进化创始人、CEO 程昊表示,机器人世界杯 (RoboCup) 的愿景是,(机器人)2050 年踢赢人类世界杯冠军。而加速进化本身的愿景是 「人形机器人能像个人计算机一样简单可靠实用」。
无论是踢赢世界杯,还是看着机器人踢球,似乎都很难说,机器人对于家庭和社会产生更大的价值。
王兴兴表示,对于宇树科技来说,终极目标是让人形机器人进厂干活,包括在家务场景中能够端茶倒水或洗衣做饭。不过,目前让机器人去家里干活还不太现实。在终极目标还未实现之前,他们希望以跳舞或参加格斗比赛这类偏娱乐的方式展示人形机器人的运动能力。
卢策吾指出,踢足球和大脑操作交互之间的技术重合度并不大。人形机器人现在要从表演式,慢慢进入 「干活」 状态,这个是大家的共识。
另外,人形机器人当中,到底是软件定义硬件,还是硬件定义未来;数据飞轮的规模达到多大,1 万小时是门槛还是幻想等,这些话题目前依然处于 「非共识」 讨论阶段。
但是,非共识本身即共识。国内具身智能模型、数据、算力的发展仍处于早期阶段,技术路线还未完全收敛。如今,行业的唯一共识在于,人形机器人最终还是要从工业、商业,走进泛化性需求高的家庭环境当中。
王兴兴在会上预测,人形机器人行业已经走到 「ChatGPT 时刻」 的前夜,最快 1-2 年就能迎来这一时刻。而未来 2-5 年智能机器人技术的重心,是统一、端到端智能机器人大模型,更低成本、更高寿命的硬件,超大批量地制造,以及低成本、大规模算力。
王鹤表示,人形机器人每三年产值乘 10,未来十年,人形机器人市场规模会超过 1000 亿级。「所以在未来 10 年,我们将看到的是一个能够超越当前所有工业机器人的人形机器人市场。再往后 10 年,可能是超越汽车手机这个市场量的万亿市场,所以不能低估它,但也没有大家想得那么快。」
然而,行业普遍认为,接下来国内人形机器人和具身智能赛道将发生 「淘汰赛」。有分析称,未来大浪淘沙的量产阶段,可能 80% 的人形机器人公司无法 「跨越」,可能会死掉。(本文首发于钛媒体 App,作者|林志佳,编辑|盖虹达)