《科创板日报》9 月 26 日讯 (编辑 宋子乔) 当地时间 9 月 25 日,谷歌 DeepMind 专为机器人打造的 AI 模型系列 Gemini Robotics 更新,其研发团队推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,它们协同工作,构成了机器人的 「执行和决策系统」。
「我们正在推动物理代理 (an era of physical agents) 时代的到来——使机器人能够感知、计划、思考、使用工具并采取行动,以更好地解决复杂的多步骤任务,新模型是里程碑式成就,标志着我们在解决物理世界中的通用人工智能 (AGI) 问题上迈出了重要的一步。」DeepMind 表示,新模型加持的机器人可以主动了解周围环境,以通用方式完成复杂的多步骤任务。
据介绍,Gemini Robotics 1.5 是谷歌目前性能最强的视觉-语言-动作 (VLA) 模型,能够将视觉信息和指令转化为机器人执行任务的运动指令。该模型在采取行动之前会进行思考,并展示其思考过程,可帮助机器人更清晰地评估和完成复杂任务。另外,该模型能将从一个机器人学到的动作迁移到另一个机器人,即帮助机器人相互 「学习」,从而无需针对每类机器人专门定制模型,可大大提高机器人的泛用性和学习能力;
Gemini Robotics-ER 1.5 是谷歌性能最强的视觉语言模型 (VLM),擅长在物理环境中进行规划和做出逻辑决策,拥有先进的空间理解能力,能够以自然语言进行交互,预估机器人的成功率和进度,并且能够原生调用谷歌搜索等工具、创建详细的多步骤计划来完成任务。
具体操作上,机器人首先利用升级后的 Gemini Robotics-ER 1.5 模型理解其所处环境,并像人类一样使用谷歌搜索查找信息。随后,Gemini Robotics-ER 1.5 会将搜索结果转化为自然语言指令,再交给 Gemini Robotics 1.5 模型,让机器人结合视觉和语言理解能力完成每一步操作。
该图展示了谷歌的具身推理模型 Gemini Robotics-ER 1.5 和视觉-语言-动作模型 Gemini Robotics 1.5 如何在物理世界中执行复杂任务
谷歌近年来积极投身打造 「机器人界的 Android 系统」。与早年自研机器人本体不同,谷歌现在希望通过提供强大的 AI 模型,让不同的机器人制造商采购,类似于安卓系统在手机行业的模式。据 the verge 报道,谷歌 DeepMind 机器人部门负责人卡罗琳娜•帕拉达 (Carolina Parada) 曾表示,其 AI 模型研发重点在于,使机器人能够在物理世界中采取行动之前 「提前思考多个步骤」。
这种聚焦于 AI 模型的战略出发点与黄仁勋提出的物理 AI 理念类似。在机器人身上实现物理 AI,可以理解为,机器人能够感知、理解现实世界,在此基础上与人进行交互并执行复杂的操作任务。
AI 模型作为机器人的 「脑子」,在此过程中至关重要。8 月 25 日,英伟达推出新一代专为物理 AI 和机器人开发者设计的计算平台 Jetson Thor。英伟达表示,这款全新的机器人计算机将成为科研与工业领域机器人系统的 「大脑」。
《科创板日报》 此前报道过,当前估值第一的机器人初创公司 Figure 自主研发了端到端机器人 AI 模型 Helix,该模型可让机器人直接将视觉语言模型中捕获的丰富语义知识转化为动作;Dyna Robotics 日前接受了英伟达等的投资,该公司目前正研发用于帮助机器人在现实场景中学习和提升能力的 AI 模型,其 CEO Lindon Gao 表示,Dyna 不会为机器人编写任务指令,而是让它们通过从环境中获取的数据输入逐渐学习,「我们的最终目标是解锁物理 AGI」……
这些科技巨头、明星初创公司的动作预示着机器人行业发展必然趋势——以自研 AI 模型打通 AGI 之路。
中金公司日前发布研报称,未来仅有少数具备全栈能力的机器人企业,有望进一步突破至 「具身智能」 层级。该机构认为机器人大模型是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径。当前行业主要基于大语言模型、自动驾驶大模型及多模态大模型探索的发展方向,产业重心已转向 「小脑+大脑」 系统研发,而不同企业在研发与商业化路径上存在差异。只有极少部分具备全栈技术能力、资源整合优势与长期主义战略的企业,未来将通过收敛技术路径,最终定义 「具身智能」 的核心标准,进一步突破至 「具身智能」 层级。
华泰证券也表示,本轮具身智能热潮起于大模型的技术突破,大模型决定了人形机器人泛化能力的天花板,是现阶段商业化的核心壁垒之一。当前众多科技大厂入局赛道,如谷歌、OpenAl、Meta、英伟达等均在布局大脑,国内大厂虽然布局稍晚,但已有成型产品,如华为、百度、科大讯飞等,同时涌现出一批优秀初创公司,试图打造机器人 「通用大脑」,以及 Figure Al 为代表的全球头部人形机器人创企开始自研基础大模型。这会加速行业进入淘汰赛,不具备一定 AI 能力的本体厂或被挤压生存空间。