财联社 8 月 12 日讯 (编辑 史正丞)在当地时间周一揭幕的行业顶级会议 SIGGRAPH(国际计算机协会计算机图形学和交互技术特别兴趣小组年度会议) 上,「全球股王」 英伟达推出一系列面向机器人开发者的世界模型、应用库和基础设施。
其中,最引人关注的是参数量只有 70 亿的开源物理 AI 应用和机器人视觉推理模型 Cosmos Reason。
英伟达介绍称,自从 OpenAI 多年前发布 CLIP 模型以来,视觉语言模型已经改变了计算机视觉任务,例如物体与模式的识别等。然而,此前的模型无法解决多步骤任务,也难以应对模糊或新颖的现实体验。
凭借记忆和理解能力,Cosmos Reason 能够使机器人和 AI 具身代理 「像人类一样推理」,并在真实世界中采取行动。
在英伟达给出的案例中,运行视觉推理模型的机器人手臂,成功根据 「面包+烤面包机」 的场景,推断出最合理的下一步动作是将面包放进烤面包机进行烘烤,并将思考逻辑转化成机器手臂的操作指令。
(来源:英伟达)
这项功能叫做 「机器人规划与推理」。Cosmos Reason 能够作为机器人的 「大脑」,负责有意识、条理化的决策。视觉推理模型能够解释环境,并在面对复杂指令时将其分解为任务并利用常识执行。
除此之外,这个模型还能用于一系列 AI 应用。例如自动化对大规模、多样化训练数据集进行整理、标注,也能从海量视频数据中提取有价值的信息并进行归因分析。
目前这个模型已经投入商业化运营。英伟达披露,公司内部的机器人和自动驾驶团队正使用这个模型进行数据整理与过滤、标注以及 VLA(视觉语言动作) 后训练。优步 (Uber)也在使用该模型为自动驾驶训练数据进行标注与生成说明。
除此之外,麦格纳国际正在使用该模型开发全自动即时配送解决方案 City Delivery,用来帮助车辆更快适应新城市环境。VAST Data、Milestone Systems 也在交通监控自动化、视觉检测等领域应用该模型。
除了 Cosmos Reason,英伟达也在 Cosmos 世界模型中新增了 Cosmos Transfer-2,用来加速从 3D 仿真等场景生成合成数据,以及一个经过蒸馏、更为注重速度优化的 Cosmos Transfers 版本。
英伟达也在周一更新了 Omniverse 软件开发工具包,并公布了新的神经重建库。其中包括一种渲染技术库,允许开发者使用传感器数据在三维中模拟现实世界。
这一系列发布标志着 AI 芯片巨头正在加码进军机器人领域,试图将其培养成 AI 数据中心之外的下一个重要应用场景。