「50 个技术赛道,50 家创业公司」 是一档聚焦前沿科技领域创新力量的深度探索栏目。我们以全球视野扫描新兴技术趋势,每期深入一个细分技术赛道,挖掘最具颠覆潜力的创业公司。呈现技术的商业价值,展示创新者的先锋姿态。
本文为第五篇。
在人工智能飞速演进的当下,数据的价值变得愈发关键。以大模型和具身智能为代表的新一代 AI 系统,正逼近传统数据采集方式的极限。
MIT 等机构预测,若按当前速度发展,人类生成的真实数据 (尤其是高质量文本数据) 将在 2-8 年内被消耗殆尽,到 2026 年可能用完互联网可用文本数据,而具身智能更是对数据呈指数的级膨胀需求,达到了 EB(1EB = 1024PB) 级别。
面对“ 数据荒” 的危机,合成数据 (Synthetic Data) 被视为打破瓶颈的关键钥匙,也成为业界共识的解决方案。英伟达科学家 Jim Fan 曾指出,未来 AI 模型的训练数据,将有望由合成数据提供万亿级 token 支持。
合成数据 (Synthetic Data) 是一种模仿真实世界数据的非人工创建的数据,它是由基于生成式人工智能技术的计算算法和模拟创建而成。早在 1993 年,著名统计学家 Donald Rubin 就在论文中提出了合成数据的概念。近年来,随着 ChatGPT 的火爆和生成式人工智能技术的发展,合成数据概念受到越来越多的关注。
相比传统的真实数据采集方式,合成数据的优势不仅在于成本低、效率高,还包括无需标注、更强泛化性等特性。
Gartner 预测,到 2030 年合成数据将成为 AI 模型的主要训练来源,市场规模预计超过 86 亿美元。其应用场景广泛,涵盖自动驾驶、医疗健康、金融、零售等多个领域,在提升模型性能、保护隐私、系统测试等方面发挥着重要作用。
全球科技巨头已纷纷布局:英伟达推出 Omniverse Replicator 生成高精度 3D 仿真数据,并收购合成数据公司 Gretel;微软开源 Synthetic Data Showcase 工具,服务于医疗和金融场景;Meta 则通过 Llama 3 自生成数据优化代码生成能力。
在国内,一批新兴合成数据企业也正在崛起。2023 年,专注具身智能的合成数据公司—— 光轮智能应运而生。公司首创将生成式 AI 与仿真技术结合,用以构建大规模、可交互、高保真的训练场景,重塑自动驾驶与具身智能的数据体系。
团队成员来自英伟达、Cruise 等全球领先企业,具备 AI、仿真、合成数据工程化落地等多领域交叉背景。目前,已服务例如英伟达、DeepMind、Figure、银河、智元多家国际头部客户以及全球高校实验室。
值得一提的是,成立短短两年多时间,光轮智能已完成五轮融资,投资方包括北京市人工智能产业基金、经纬创投、奇绩创坛、辰韬资本等。
近期,我们对话了光轮智能技术生态负责人甘宇飞,围绕“ 合成数据如何驱动具身智能” 和“ 行业技术挑战” 展开深度探讨。
以下为创投家与甘宇飞对话全文,略有删减:
创投家:目前合成数据在机器人、自动驾驶等领域的使用占比如何?哪些场景会用到比较多的合成数据?
甘宇飞:在自动驾驶领域,合成数据的使用比例大约在 30% 至 40% 之间,而在具身智能领域,合成数据这一比例则将超过 90%。
具身智能中的数据采集成本很高,需要搭建实景环境、部署机器人并进行日常维护,效率低。而合成数据可以通过仿真的方式快速构建多样化场景,成本更低、效率更高。
目前合成数据在具身智能的不同阶段,包括预训练、后训练、评测目前都有很大的数据缺口,具身智能产品研发的全生命周期都需要用到大量的合成数据。
创投家:生成式 AI 与仿真技术的结合对合成数据行业的有哪些促进作用?未来 3-5 年的技术演进方向可能是什么?
甘宇飞:AI 图像生成和仿真技术各有优劣。生成式 AI 擅长视觉逼真度,但在空间尺度和物理约束方面缺乏精确控制;仿真技术则强调物理一致性,但在真实感和生成效率上逊色一些。
将两者融合,是我们认为最具前景的发展方向。例如,神经渲染技术正逐步成熟,它结合 AI 视觉生成与仿真建模能力,能够直接输出具备真实感和物理精度的 3D 场景与资产。
此外,未来的合成数据应当更“ 真实”,更“ 极端”,更“ 高效”—— 能模拟现实中罕见却关键的长尾事件,帮助 AI 模型提升鲁棒性。
创投家:为什么纯 AI 生成的合成数据不可行?
甘宇飞:因为纯 AI 生成数据可能会让模型“ 自我循环崩溃”。这在早期研究中就已被证实,比如 GPT 会在多轮纯合成训练下崩溃、自动驾驶模型在纯合成数据训练后会采取危险而积极的驾驶风格。当模型用自身生成的数据不断训练自己时,误差会逐步放大,数据分布也会偏离现实,最终导致模型性能下降甚至崩溃。
要想保持模型的稳定性与现实对齐,必须引入人类示范或真实世界的“ 锚点”,让 AI 理解世界的本质。这是合成数据构建中不可缺少的一环。比如特斯拉会利用五星司机的数据迭代自驾算法,ChatGPT 会找各个领域专家来做 RLHF(人类反馈强化学习),而在具身领域,光轮使用人类专家的示范动作来作为合成数据的来源。
创投家:合成数据的 “ 真实性” 如何量化评估?当前行业在视觉 - 物理一致性等方面的技术难度和挑战是什么?
甘宇飞:我们将真实性评估分为三层:
首先是量化检查,通过自动化工具逐项检测物体属性是否符合真实世界,例如瓶子的颜色、重量、材质、贴纸、旋盖方向等。
其次是主观判别,借助判别模型评估合成数据是否足够逼真,目标是让模型“ 分不清” 真假。
最后是效用验证,最核心的一步是实战验证,看合成数据是否真正提升了模型效果。例如在长尾场景中的识别准确率是否提升,是否有效支持客户业务目标。
创投家:具身领域的合成数据相比自驾领域的合成数据有什么不同的地方?
甘宇飞:具身智能是更复杂的“ 多任务交互系统”,其对数据的需求远超自动驾驶。
主要体现在四个方面:
首先是数据量级更大,自动驾驶数据为 PB 级,而具身智能则需要 EB 级数据。例如在家务场景中,机器人需处理叠被、洗碗、开门等复杂交互,任务维度和场景复杂度远高于自动驾驶。
其次是交互维度更丰富,尤其是物理交互,自动驾驶追求“ 无交互”,即尽量避免碰撞。而具身智能必须主动与世界互动,例如抓取易碎玻璃或柔软衣物,这对合成数据的物理属性要求极高。
然后是适配难度更大,自动驾驶车辆相对标准化,而具身机器人千姿百态,从人形机器人到机械臂,形态与关节结构各异,数据生成必须因机而异。
最后是数据积累的阶段不同,不同于自动驾驶,具身智能仍处于起步阶段,尚未形成大规模真实数据积累,因此合成数据在这一阶段扮演着更关键的角色。
创投家:具身场景中真实数据与合成数据的最佳实践占比分别是多少?实际提升效果如何?
甘宇飞:根据我们的实践经验与行业研究,当前真实数据与合成数据的最佳组合比例大致为 1:10,当然,这一比例也会根据具体应用场景而动态调整。
更重要的是,在引入合成数据后,模型性能通常能实现显著提升。比如在物体检测、交互识别等任务中,合成数据的加入可带来平均 30% 左右的性能增益。这不仅体现在精度上,更体现在模型对复杂环境的泛化能力上。
简而言之,合成数据正在成为构建高效具身智能模型的关键加速器。
创投家:行业里面有纯真实和纯合成的路线之争,你们如何看待?
甘宇飞:在真实项目中,其实并不存在所谓的“ 路线之争”—— 效果优先,永远是技术决策的第一准则。
实践中,混合使用真实与合成数据已被证明是最优解。例如在英伟达最新开源的人形机器人基座模型 GR00T N1 中,采用“ 混合训练”(co-training) 的策略,其性能明显优于纯真实或纯合成方案。其中光轮为此提供了大量合成数据资产,我们也将持续为其后续 Nx 系列模型提供数据支持,并与行业共享我们的经验。
真正能落地的方案,往往都是多种技术手段协同演进的结果。在光轮,我们采用的是“ 混合训练策略”—— 根据模型训练阶段和任务需求灵活调整真实与合成数据比例,实现效率与效果的最佳平衡。
创投家:相对于其他的提供数据解决方案的企业,光轮智能在技术上的差异化优势是什么?
甘宇飞:我们坚持从“ 物理真实感” 出发打造合成数据。高精度物理仿真能力是光轮的核心优势。我们提供的数字资产具备重量、质地、触感、逻辑交互等物理属性,能够真实还原机器人在现实中的动作反馈。
其次,强调人类示范数据的价值。只有让模型看到人类如何完成任务,它才能更深刻地理解意图、策略和行为逻辑,从而构建更强的认知能力。
为了提升数据的使用效率和模型的效果,我们认为还应该高度重视数据的泛化性。通过对仿真环境中的多维度控制,我们能主动生成覆盖不同情境、角度和复杂度的任务数据,从而解决具身智能中的“real2real gap” 问题,也就是“ 真实世界中数据之间的鸿沟”。
创投家:目前光轮智能的主要客户群体是哪些?能否分享 1-2 个典型案例。
甘宇飞:我们的客户包括众多国内外顶级机构,如英伟达、DeepMind、Figure AI 以及多家一流高校实验室。
例如,在英伟达开源人形机器人模型 GR00T N1 项目中,我们为其提供了全套合成数据支持,包括遥操作行为数据、仿真场景与交互资产,帮助其在复杂物理交互任务中的模型训练。
在国内,我们为智元提供了具备高保真物理属性的仿真资产,智元在此基础上构建并发布了公开数据集 Agibot Digital World,为行业提供了高质量的具身智能训练资源。
其他客户还包括字节跳动、银河等,只要需要使用高质量物理交互数据的公司基本上都是我们的客户。
创投家:光轮最近在对外场合强调 real2real gap,这是什么意思,怎么理解?
甘宇飞:在和客户实际合作中我们发现,很多时候场景之间的分布差异即 real2real gap 很大,而这点是经常不被重视的。
我们认为需要考虑到数据之间的 real2real gap,这点在真实数据中很难通过靠摆拍采集来解决,最好的办法就是利用仿真技术,快速泛化场景从而通过合成数据解决这一问题。结合数据生产效率、数据泛化性等维度看,当下合成数据就是具身智能的最优选择。
创投家:目前光轮智能的仿真资产和场景覆盖到了哪些场景?哪些场景是客户比较关注的?
甘宇飞:我们的仿真场景涵盖了居家、商超、工业、实验室、农业、水域等多个场景,且注重地域多样性的还原。
以居家场景为例,国内厨房通常面积较小、家电紧凑,而海外家庭厨房则宽敞、设备种类多样 (如双开门冰箱、咖啡机、旋钮式微波炉等)。
这种高度定制化的仿真能力,使我们在跨国公司和不同地区的客户中获得了良好口碑。
创投家:目前仿真合成数据领域还有哪些挑战是亟待解决的?你们目前进展如何?
甘宇飞:目前最大的挑战,是整个行业仍处在早期发展阶段,尤其在数据标准化与关键技术攻坚方面。
首先,数据标准的缺失限制了行业协同效率。光轮基于多年业务积累,制定并推广了一套标准数据格式,正在被越来越多客户采纳。
其次是技术层面,柔体仿真与触觉仿真是目前重点攻坚方向。例如,机器人在叠衣服或穿针引线这类细致任务中,对柔性物体的模拟与触觉反馈提出极高要求。这不仅涉及到软件仿真,还需要硬件协同。
目前我们已在这两个方向持续投入,力求在真实还原复杂交互场景的同时,提升模型训练的上限与稳定性。
(本文首发于钛媒体 App,作者|郭虹妘,编辑|陶天宇)
更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App