从AlphaGo、MineCLIP,到Voyager、Eureka、Groot,从具身化(Embodiment)和技能(Skill),从单一形态到多形态,英伟达在“具身智能”和 AI 智能体方面进行了多年的布局研究,希望能在 AI 通用体方面有所成果。
目前,英伟达拥有多模态具身智能系统Nvidia VIMA,其能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学——这也标志着 AI 能力的显著进步。
“我相信,训练这种基础智能体的过程将和 ChatGPT 非常相似。所有的语言任务都可以被归类为文本输入和输出,无论是写诗、翻译,还是做数学。训练 ChatGPT 就是在大量的文本数据上进行扩大。同样的,基础智能体会接受一个实体化提示词和指令提示词作为输入,然后输出行动指令。我们只需在大量环境中大规模扩大它。
基础智能体是 GearLab 的下一章。昨天,老黄在他的主题演讲中宣布了我们路线图上的一项重要倡议,即 Groot 项目。我们的目标是为人形机器人构建一个基础模型。为什么要选择人形呢?因为这是最通用的形式。我们所生活的世界是为了适应人类和人类的习惯而形成的。理论上,我们在日常生活中可以做到的所有事情,都可以在足够先进的人形机器人硬件上实现。因此,我非常兴奋能与全球多家领先的人形机器人公司合作,使得 Groot 能够在不同的实体之间进行迁移。在一个更高的层面上,Groot 可以接受包括语言、视频和示范等多模态指令,并在模拟以及真实世界中开发技能。”Jim Fan表示。

Jim Fan指出,如今Groot项目的目标,是为最通用的人形机器人打造基础模型,通过海量环境训练获得通用性,并与各种基础设施共建生态。而且,未来新的人形机器人不仅会搭载Jensen Thor芯片,并有望在边缘计算设备上驱动Groot。
“Groot 是在 OSPO 上诞生的,这是一个新的计算调度系统,用于在 DGX 上提升模型的规模,以及在 OVX 上进行模拟。我们在 Isaac 实验室为人形机器人运行了许多不同的环境,期望模型能适应各种技能和环境,并能在模拟与真实的场景间无缝迁移,以便我们可以大规模扩展训练,利用 GPU 加速的模拟环境。”Jim Fan在演讲中指出。
Jim Fan强调,GEAR 实验室是一项以使命为驱动的研究。“通用 AI 之路任重道远,GEAR 实验室正朝着这一使命不懈努力。”
(本文首发钛媒体App,作者|林志佳)