这个时代,每个人都在说“机器人”是未来,是潜在机会市场。但实际上,机器人本身不是个新东西——比如它在工业自动化领域早就应用了。只不过传统机器人开发范式,是从感知到驱动执行,对每个问题建模并寻求合适的数学求解方法。
而这波“机器人”热潮的关键是“具身智能”,或者说是由“Physical AI”所驱动。相较过去传统机器人的主要差异,就在于AI:藉由LLM大语言模型、LVM视觉大模型,乃至VLAM视觉语言动作大模型,来解决问题。
在我们看来,除了智能程度更高,具身智能更多着眼于对机器人能力的泛化及普适。为什么人形机器人现在那么火?并不在于人们希望机器人长得和人类相似,而在于从商业逻辑角度来看,人形机器人是为数不多能够以一种形态,覆盖海量的、多样化场景的机器人类型。
今年Computex主题演讲中,黄仁勋(NVIDIA CEO)说过这样一段话:“人形机器人令人惊叹之处,并不仅在于它能做什么,而更在于它相当通用(versatile)。”“技术需要规模化(scale)。绝大部分已有的机器人系统,到目前为止,量都还太少。量少的系统很难做到技术的规模化,并最终走得够远、够快。”所以“人形机器人,很可能会成为下一代万亿美金规模的行业”。
实际上,我们认为并不单纯是人形机器人,现在常谈论的“具身智能”都着眼于让机器人具备规模化效应,以期让机器人在高速发展的基础上,同时实现成本的降低,适配到更多行业和市场。不过即便是有AI助力,具身智能要达到这种程度的发展也并不是那么简单——比如过去一年,我们在诸多行业会议、厂商采访中听到最多的:机器人训练模型“缺数据”...
这也成为具身智能机器人市场化程度较低的原因之一。或许在机器人、具身智能的发展之路上,还需要一些别的东西。
3台计算机中的第二台,究竟是做什么用的?
对NVIDIA打造机器人生态熟悉的读者,过去1-2年应该能在各种场合听到NVIDIA有关“3台计算机”的阐释。电子工程专辑在过去1年多的文章里也已经有过反复提及。
简单来说,一台计算机用于AI学习——尤其包括前不久我们针对Computex报道中提到的“老黄的AI电脑帝国”;一台计算机则作为模拟引擎存在——AI能够在虚拟环境中学习,如何成为合格的机器人;还有一台就是机器人本体了,或者相关于已有模型的部署。
在NVIDIA的定义中,physical AI的构建就需要这样3台计算机:当然physical AI不仅是机器人,汽车、医疗设备等也都可以是基于physical AI技术的。如果具体到NVIDIA的产品,那么第一台计算机显然以DGX为代表,用于AI模型的预训练或后训练;
第二台计算机则负责去跑Omniverse + Cosmos,用于对physical AI模型做训练、测试、验证的模拟仿真;第三台计算机,可以是Jetson——比如前不久我们才刚刚试用过作为机器人大脑的Jetson Orin Nano,这一步是将蒸馏之后的模型部署到现实世界的机器人体内。
这是个听起来还挺符合直觉的解决方案,不过这里有个问题:为什么我们需要第二台计算机,而不是像常见的数字AI那样,就是AI模型的开发与训练+部署与推理。去年的ROSCon上,我们和NVIDIA的工程师简单对谈,对方告诉我们第二台计算机能有效降低开发成本,且强调这是“3台计算机”的一大价值。
我们过去对于这一问题的解释是:对于机器人这种高成本,操作失误甚至可能具备危险性的设备而言,如果是在现实中直接训练、试错,则成本会变得不可控;所以转而借助Omniverse这样的虚拟世界去做训练,显得更加实际和有效。不过这番解释可能还是低估了第二台计算机的价值的。
今年GTC期间的预沟通会上,NVIDIA Omniverse与模拟技术副总裁Rev Lebaredian说了这样一番话,让我们加深了对于NVIDIA提出3台计算机解决方案的理解:
他特别提到,现在很多我们在短视频里头看到的机器人那么厉害,实际当应用于生产时,真正的问题往往在于能力的“泛化(或通用化,generalizing)”,即从原本机器人只能以某种设定做某个特定的工作,走向它也能够在不同环境下、做其他相似的工作负载。
“但因为(传统)机器人智能是有限的,它们通常基于传统规则技术做编程,并非鲁棒的系统。”“所以此间缺失的一块拼图,就是能够给予它们通用智能的技术。它们因此能够在不同的情况下实现通用化。这原本就是Transformer、LLM(大语言模型)所能达成的。”
在Rev看来,生成式AI是实现机器人智能泛化、通用智能的基础技术,“现在最大的挑战也就变成了,这样的技术需要海量的数据示例”——机器人大脑的训练需要喂进大量的数据。那么“为此,我们认为唯一的解决方案就是模拟出足够准确的现实世界,我们也就有了无穷的数据源,用以构建这样的机器人大脑”。
所以当代构建机器人的最大挑战,逐渐转向了“模拟仿真”技术,也就是3台计算机中第二台计算机在尝试解决的问题。
Omniverse与Cosmos的互补
这是个相当符合现代叙事的逻辑解释:就像航天领域,为什么人们常说SpaceX星舰相较同类航天产品,在技术上的绝对领先,就在于其打破了火箭研发传统流程,据说在10年前就已经开始把主要注意力放在仿真技术上,实现了火箭迭代速度的大幅加速,同时还降低了火箭研发的成本。
这也更像是曾经的热门词汇“元宇宙”虽然媒体热度已大不如前,但它似乎正以另外一种更为脚踏实地、服务于行业市场的方式大步向前。所以ROSCon上,NVIDIA的工程师才说,“藉由仿真技术,只需要一台工作站,用我们的GPU和软件,很快就有相应的数据,能够快速验证算法。这就是NVIDIA AI + Omniverse解决问题的价值了。”
Omniverse前两年还被我们描述为英伟达的元宇宙。现在虽然在市场宣传上不大提“元宇宙”了,但它依然是那个构建现实世界数字孪生(digital twin)的虚拟实现——且在诸多尚存的元宇宙里,是对现实世界模拟仿真做得最好的那波。除了已知在协同设计、工业数字孪生等领域发光发热,它的下个杀手级应用显然是机器人。
不过在Omniverse之外,从去年下半年到今年上半年,NVIDIA在主推的是一个叫Cosmos的东西。今年GTC的主题演讲中,黄仁勋说Omniverse是physical AI的操作系统,而Cosmos则是理解物理世界的生成式AI模型。“用Omniverse来训练(condition)Cosmos,用Cosmos生成不计其数的(虚拟)环境,构建的数据是基于现实、受控的(grounded)。”
简单来说,Omniverse是物理级精准的虚拟环境,而Cosmos是基于此的模型。NVIDIA宣传说这是全球首个“世界基础模型(world foundation model)”,或者世界基础模型开发平台。今年CES的报道中,我们已经详细介绍过Cosmos。GTC上又发布了几个新的Cosmos模型,分别是Cosmos Predict、Cosmos Transfer、Cosmos Reason。
Cosmos Predict模型能够基于多模态输入来“生成未来”:比如说给它起始帧和结束帧,Cosmos Predict就能生成此间视频序列的所有帧——这就是个填补Physical AI所需数据空缺的典型示例。而Cosmos Reason“深度理解物理交互”,开发者可以将这些模型用于数据标注和创建,或者可以对Cosmos Reason模型做后训练,将其蒸馏为VLAM模型或规划模型(Planner model)。
还有个Cosmos Transfer更具代表性,它能够基于视频输入来进行“世界转换”——Rev解释说,Omniverse作为基础,基于经典模拟仿真算法为Cosmos Transfer提供生成真实环境的支持;通常“最后一公里的模拟仿真(last mile of simulation)”成本高昂、难度巨大,而Cosmos Transfer能够以低成本做到这一点,基于用户输入来生成多样化的合成数据。
这里我们尝试对Omniverse与Cosmos的关系,以及Cosmos究竟是什么的问题再做个注解。Rev在媒体问答环节给出的解释更加全面:传统的模拟仿真算法,基于人类对物理定律的理解,将其做成算法。“过去这些年,我们开始用AI来做模拟仿真。我们基于现实世界发生的事、观察到的例子来训练AI,让AI基于这些观察来抽象出物理定律。”“Cosmos则是做成这件事的一大步。”
“(AI技术)发展到一定阶段,我们就会得到对应的世界基础模型——可从不同角度,去完整地理解物理定律,包括牛顿力学、流体力学、电磁学等等各种模态,最终合为一个大模型。”Rev表示,“只不过我们还没发展到那个程度,还没有一个模型能理解这一切的。”“我们本身已经知道了不少物理学的相关等式,但做计算相当难;在某些场景下可能更难——创建这样的世界,初始条件就去做这样的模拟,将输入喂给模拟器,得到真实的(realistic)输出。”
所以“我们将Omniverse和Cosmos做了结合,利用Cosmos的能力,借助世界基础模型,把它叠加在Omniverse已有的传统模拟仿真技术之上(layering it on top of the classical simulation techniques that we already have available in Omniverse),或者说将其与Omniverse框架内的其他模拟器做结合。”
“Omniverse里面已经做了不少基础级别的模拟,比如在城市环境里模拟汽车行驶。我们从中能获得不少信息,有关于模拟当下的世界状态。将其输入到Cosmos里面,做最后一公里的模拟工作(last mile of simulation),令其做到photoreal,看起来更加的物理级精准。”
“因为如果要完全在传统模拟环境下做成这件事,需要海量的投入——可能构建物理环境、感觉就5%-10%的东西,却要人类投入100倍的工作。所以,我们选择用Cosmos接过基础级别的模拟。而且还能通过快速更改一些提示词,将一种模拟转为不同的变体(variation),转为上万、百万量级的数据。”
“可变的包括材料、光照、时间、天气等等,只需要改一改提示词就行,而不需要在传统模拟器里头做大量工作。”
围绕3台计算机生态的添砖加瓦
我们常规认知中,现在的机器人开发很流行运动模仿学习,也就是通过遥操作——比如VR眼镜、手柄等,由人去做动作,让机器人去模仿学习。这的确是具身智能开发的重要构成环节。但它仍然很难解决“缺数据”的问题。
黄仁勋在Computex主题演讲中的解释相当明了:“人类的演示很难做到规模化(scalable),提供的数据有限。开发者可以用Cosmos世界基础模型来放大(amplify)数据。”“放大数据”在我们看来就是在缺数据时代,第二台计算机尝试针对最大痛点之一的解决方案。
这里藉由Computex上发布的Isaac GR00T-Dreams再强化一下,流程中模拟仿真技术的重要性。关注NVIDIA机器人生态的读者应该知道,Isaac GR00T是NVIDIA的人形机器人开发平台;今年GTC上,NVIDIA还发布了开源的Isaac GR00T N1,这是个通用基础模型,就是基于合成数据,来生成、学习与模拟仿真。
后续更新的Isaac GR00T N1.5据说在6月份Computex期间就已经达到了6000次的下载量——具体的模型也可以认为是NVIDIA对于上述流程的身体力行了。
而Computex上发布的Isaac GR00T-Dreams是个Blueprint(Blueprint在NVIDIA的定义中是参考工作流,即开发者可参考的定制化参考应用,用于加速生成式AI应用开发)。GR00T-Dreams是建基于Cosmos的一个Blueprint,用于大规模合成轨迹数据生成。
其大致流程是这样的:首先有了遥操作记录人的演示,开发者基于此做Cosmos模型的fine-tune。开发者给模型输入图像或者新的指令,来生成未来世界状态的所谓Dreams(梦境)——此过程不再需要通过遥操作抓取新的数据。在生成大量Dreams之后,Cosmos对每个Dream做质量的推理(reason)和评估,选择其中最好的用于训练。
不过由于Dreams本质上还只是2D像素,而机器人学习的应该是动作。所以GR00T-Dreams Blueprint会把2D的Dream视频,生成为3D动作轨迹,也就能用来训练机器人模型了。
只需要最少的手动遥操作捕捉,就能让机器人去学习不同的新动作。换句话说Cosmos和对应的Blueprint旨在借助模拟仿真和AI技术,来解决机器人开发“缺数据”的挑战。如此,我们对Cosmos、NVIDIA为什么要做Cosmos,以及Omniverse和第二台计算机在这其中扮演何种角色,也有了更为具象的理解。
当然依托“缺数据”来理解第二台计算机,也只是一个角度。在NVIDIA机器人开发、相关第二台计算机的生态,除了模拟仿真框架、AI模型、Blueprint还有其他不少关键组成部分和持续不断的技术迭代。
比如说数据:GTC上NVIDIA发布了开源的Physical AI数据集,其中包括有300小时的室内多摄像头追踪数据、2000小时的自动驾驶数据、1250份OpenUSD资产,以及320K的人形机器人与机械臂动作轨迹数据——这些数据也相继发布在了Hugging Face平台上,据说NVIDIA后续还准备为该生态提供更多的数据。
NVIDIA本身就在用Isaac GR00T用于合成动作生成的Blueprint生成数据,Rev说GR00T N1研究团队用该Bluerpint,150张L40 GPU,11个小时,就生成了780k合成轨迹数据...相当于人类遥操作演示6500个小时的数据,即100个人每天操作12小时持续一周——这对“缺数据”痛点的解决还是相当具象化的吧。
另外近期,生态内还有个热点开源技术值得一提:Newton——也是NVIDIA在GTC上发布的开源物理引擎,由NVIDIA Warp加速。Computex上的演示视频,是个小机器人走在沙地里,机器人的每走一步都带动了地面上大量沙粒的自然运动。黄仁勋说,Newton未来会成为机器人学习的关键。
因为机器人学习所在的虚拟世界本身需要遵守物理定律,“大部分物理引擎并不具备以高准确度,处理刚体和柔体的能力。”所以NVIDIA在7月份开源了Newton。Newton是由Disney Research、NVIDIA和谷歌DeepMind合作打造的。Rev说,DeepMind将Newton融入到下一个版本的MuJoCo中,性能提升了70倍;而Disney Research则是该项目的首个采用者和贡献者。
走向生产的扩展与未来
最后再谈个和机器人相关的Blueprint发布,也能体现NVIDIA在机器人领域的布局还是更前瞻的。GTC期间NVIDIA宣布了针对工业机器人集群模拟的Mega Omniverse Blueprint。Mega是以工业数字孪生的方式测试机器人集群的Blueprint,目前已经进入到早期预览阶段。
面向机器人应用时,Mega主要相关于机器人集群大规模模拟。Rev举例说“我们期望确保工厂或仓库中的机器人在OTA升级的时候,不会停止工作,或者做出什么不正确的行为”,“唯一避免停机风险的合理测试方案,就是做模拟。”
所以很显然Mega也是基于Omniverse的,“可以模拟每个单独的机器人,或者机器人之间的交互、所有机器人的感知等,是大规模模拟,规模化协作;是机器人在这个世界里,大脑感知、控制与制动的紧密闭环(tight loop)。”
前期已经开始采用该方案的企业诸如KION集团的Dematic,用于其仓库管理;Accenture、梅赛德斯奔驰、Schaeffler、Agility Robotics、现代汽车(Hyundai Motor Group)等也都开始用Mega做机器人部署的准备工作。
过去一年当NVIDIA更频繁地宣称AI是未来基础设施——地位等同第二次科技革命的电和第三次科技革命的互联网与信息,而NVIDIA自己则是提供AI基础设施的工厂之时,当老黄说NVIDIA不仅是一家科技企业,还是一家关键基础设施企业之时,大部分人对这话的理解应该还是在于AI服务器或数据中心,作为token生成的基础设施;
显然NVIDIA于AI基础设施的布局是包含了机器人的,毕竟AI的发展路径正从Generative AI/Agentic AI走向Physical AI。“我们构建起了三大类AI基础设施。”黄仁勋在主题演讲总结中说,“针对云的AI基础设施、针对企业的AI基础设施,和针对机器人的AI基础设施。”
NVIDIA不想错过任何一个AI技术突破或阶段。就像黄仁勋在财报中说的,机器人即将迎来下一个ChatGPT时刻。而在该时刻到来之前,NVIDIA已经做好了大量准备工作,而且仍然是以构建完整闭环生态的方式。