Figure 01视频被质疑“注水”?看看创始人怎么说 Figure 01视频被质疑“注水”?看看创始人怎么说
admin
2024-03-15 18:52:50
0

2023年3月,一家仅创立几个月的机器人公司号称要推出“世界上第一个商业上可行的通用人形机器人”,并放出了几张PPT。

接下来的一年中,这家名为Figure的公司经历了——被质疑“碰瓷波士顿动力”——创纪录地迈出人形机器人“动态双足行走”第一步——半个硅谷科技圈下注, 融资高达6.75 亿美元,估值猛涨至26亿美元。

本周三,仅在B轮融资完成后的13天,这位“当红炸子鸡”放出了Figure 01的最新视频。

虽然只用到了一个“端到端”神经网络,但Figure 01却可以在你想要食物时,贴心地递上苹果而不是盘子;还能一边回答你的问题,一边对物品进行分类——将垃圾收拾进框子里、将杯子和盘子归置放在沥水架上。而且!它甚至能回答你餐具沥干水分的大致时间。


有人说,Figure只用了1年时间,就走完了波士顿动力20多年的路。于是,压力给到了波士顿动力,让我们回到实验室,再扒一些女团舞吧(bushi)。


话说回来,Figure 01的最新视频有没有一丝丝“注水”的可能性?难道传说中“世界上第一个具身智能”机器人真的来了?!

Figure创始人Brett Adcock特意在X上强调,视频是以1.0倍速度拍摄并连续拍摄的,机器人是在完全自主的情况下进行的行为,没有远程操作。

言外之意就是“无剪辑,无加速,一镜到底”。

然而,适道和一些相关领域投资人交流时,获得了另一条思路:有没有一种可能——Figure 01的完美表现是“试”出来的。

例如在测试阶段,当你说“我饿了”并指向“苹果和碗”,Figure 01会递给你碗;当你指着“梨子和盘子”,Figure 01会递给你盘子。可能试了一大通后,得出面对“苹果和盘子”组合,Figure 01的表现是最好的。

但在适道看来,与其说这是“注水”,不如说这正是Figure神速进化的技术秘籍——“端到端”技术黑盒。

01 Figure进步神速的秘籍——“端到端”神经网络

根据Brett Adcock的说法,Figure 01主要通过“端到端”神经网络来与人类进行对话。大致流程为:OpenAI的LLM提供“大脑”——视觉推理和语言理解 ;Figure神经网络提供“小脑”——做出一系列快速、低级、灵巧的机器人动作。

Figure机器人操作高级AI工程师Corey Lynch进一步解释:“这些神经网络以每秒 10 帧的速率接收机器人内置图像,并能生成每秒200次的24自由度动作(包括腕部姿势和手指关节角度)”

何为“端到端”?

“端到端”(End-to-End)是深度学习中的概念,指一个AI模型,只要输入原始数据,就能输出最终结果,有点像马斯克遵循的“第一性原理”。

举个简单的例子,两个同龄小孩,一个生活在城市,一个从小长在河边。城市小孩想学游泳,需要找教练,进行一系列抱水、换气、划水、蹬腿的分解动作,才能系统性地掌握蛙泳技能;而在河边长大的小孩,看了大人们游泳的姿势,就去下河摸索,经历了呛水、训练、强化,也学会了游泳,而且游得像鱼一样娴熟。

如果你要问这个小孩经历了哪些针对性训练,都有什么训练模块,他一定答不出所以然。但从结果来讲,他不仅泳技超群,甚至学习时间还可能更少。

“端到端”的原理跟这个例子有点类似。

例如,想让机器人变成“咖啡师”,如果通过传统编程,虽然看起来“透明”“可解释”,但代码非常复杂,灵活性也很差。

而Figure 01的卓越表现证明了,通过这种“不可解释”的“端到端”神经网络(输入视频、输出行动轨迹),机器人能够在数小时训练后就能get新技能。

在1月5日的视频,Figure 01展示了自己出色的“学霸”能力,只需观看10小时的人类煮咖啡录像,就能学会人类的动作和手势,并通过模仿这些动作,成为一名real咖啡师。


而“端到端”也正在成为机器人训练的主流路子。例如,1X EVE 、Digit同样是通过“端到端”学习新技能。

由此不难得出,虽然目前Figure 01展示的只是做咖啡、物品分类,但理论上,只要获取到人类的数据,进行“端到端”地训练,它就能掌握更多技能。

我们再回到被“质疑”的“苹果和盘子组合”——即便Figure 01的完美表现是“试出来”的,但随着“端到端”训练量加大,“试错”会越来越少,成功率越来越高,最终Figure 01或许真能轻松拿捏家务,说不定还会在你喊饿时包出一顿饺子。

这一切正如创始人Brett Adcock所言:机器人就像我的孩子们一样,在他们学习做某件事的过程中,尽管可能失败了很多次,但他们一旦掌握了就不会忘记,然后他们会不断积累新的技能。

02 创始人:人形机器人成本会低于一台廉价电动汽车

Figure的创始人Brett Adcock年仅38岁,但Figure已经是他创立的第三家科技公司。在去年10月的一次访谈中,Brett 分享了 Figure 01的设计过程,以及他对于通用人形机器人领域的预测。

Brett 认为人形机器人研发一定是软硬件一体的过程,LLM 为机器人提供了强大的大脑,是软件层面的重要补足,而硬件角度,几乎没有成熟的供应链可供使用,因此,Brett要求团队在设计产品的同时就要考虑到机器人重量、计算处理、现实环境等细节。


适道也对访谈进行了原文编译和节选,请配合食用。

1、简单介绍一下 Figure,你们的使命和目标是什么?

Brett:Figure 是一家 AI机器人公司,专注于设计自动通用人形机器人(Autonomous General-purpose Humanoids)。自动通用人形机器人是指具备自主能力,能够自动执行多种任务,并且在外观和行为上类似于人类的机器人。我们的目标是在长期能够部署和人类数量一样多的人形机器人,让体力劳动成为一种选择而非必然。

我们的远期计划是在全球部署 100 亿个人形机器人。未来 1-2 年内,我们的重点将放在开发具有里程碑意义的产品上,希望在未来一两年内,能向公众展示大量人形机器人产品的研发成果,包括 AI 系统、低级控制(Low-Level Control)等,最终展示能在日常生活中发挥作用的机器人。

2、如果能成功降低制造成本、提高生产量,一个功能完善的人形机器人制作成本能降低多少?

Brett:如果我们回顾消费品或汽车行业的发展历史时,可以看到产品的价格与生产量之间存在强相关。根据经验曲线(Experience Curve),每当生产数量翻倍,产品的价格或成本就可能下降 20%或 30%。因此,我们可以认为价格取决于生产量。


这个原理同样适用于人形机器人的生产。目前,一个人形机器人大约有 1000 个零件,重量约为 150 磅(68 公斤)。相比之下,一个电动汽车可能有大约 1 万个零件,重量可能在 4000-5000 磅(1800-2250 公斤)之间。

从长期来看,一个人形机器人的成本应该低于一台廉价电动汽车。这主要取决于机器人的执行器、电机组件、传感器的成本以及计算成本。

3、你们打算训自己的模型,还是集成其他模型?

Brett:要让人形机器人从工厂走进家庭,关键在于语言,所以 LLM 或视觉语言模型对我们的业务帮助很大。我们要让机器人能够从语义层面理解世界,做到理解和回应用户的需求和指令,恰好 LLM 可以做到这点。

因此,我们会逐步将视觉语言模型加入机器人的研发过程,从高层次的行为角度来帮助人形机器人理解人类在说什么,让它能与人类进行对话,同时推断和理解人们在说什么以做出回应。

我们很可能不会自己训模型,但我们可以在机器人系统上训练视觉语言模型,关联传感器数据。

打造一个正确的 AI 数据引擎对我们来说非常重要,它能确保我们对机器人产生的数据进行准确的训练,对神经网络进行正确的训练,以便未来能够有效地部署和使用。这也是驱动我们尽快让产品进入市场的动力,我们希望将更多的机器人投放市场,收集数据,从而让我们未来的机器人队伍将变得更加智能、学会更多技能。

4、为什么需要软硬件一体开发?

Brett:如果算上做控制系统(control)、中间件(middleware)和自主决策与行动能力(autonomy)的人,我们的软件占比会比硬件稍微多一些,因为硬件团队的员工只有 15 个左右,软件规模要明显大一些。

长远来看,软件会成为公司最大的业务板块。Figure 作为一家专注于 AI 的公司,以后会有一个庞大的 autonomy 团队,并且研发出关键的 AI 数据引擎。

但硬件方面也同样重要。如果我们真的想做出实现高性能、高可靠性、高安全性和低成本的人形机器人,就需要开发自己的执行器、电子设备、电池和几乎所有软件,因为这些都没有现成的解决方案。

长时间从事软件开发再进入硬件领域是真的很困难,研发硬件需要经过一个漫长的迭代周期,这也是我们受挫的主要因素。

5、人形机器人的潜在大市场在哪里?何时出现?

Brett:我们计划先在未来十几年内持续扩大在商业劳动力市场的规模。我们关注的领域包括医疗保健、房地产、建筑和零售等,我相信这些领域都有巨大的市场潜力。

另外,还有一些市场尚未应用人形机器人,比如房地产。科技房地产公司开发的在线平台可以使用人形机器人来代替人类经纪人提供服务。人们可以通过访问网站预约看房,然后由人形机器人打开门迎接他们,在一个虚拟的房屋中全程介绍。这是一个价值数万亿美元的市场,但科技公司迄今为止还未涉足,因为目前房地产领域的工作仍然过于依赖人力。

此外,还有许多行业的工作可以通过远程操作或其他技术来完成,人形机器人可以为这些行业带来新的发展机会。

6、人形机器人会让人们失去工作吗?

Brett:我的观点是在接下来的 10-20 年里,机器人业务的发展将与自动驾驶汽车的发展路径类似。就像自动驾驶汽车,高速公路的测试视频会比城市街道的更早公开,是因为城市街道有更高的安全要求和更多的不确定性。

同样,人形机器人也会首先解决相对容易的问题,比如在预知环境和任务的情况下搬运货物。这类任务就像在高速公路上驾驶,相对简单易行。然而,更复杂的任务,例如在家中烹饪或照顾老年人,就像在城市街道上驾驶,更具挑战性。

尽管大家对人形机器人的期望往往集中在复杂任务的解决上,比如谷歌的机器人做垃圾分类,丰田研究院在杂货店等场景的研究,但这些都是非常困难的挑战。

我很高兴有这些研究,但从商业角度出发,我们的首要任务应该是解决那些简单但必要的问题,然后逐渐将 AI 数据引擎应用到更复杂的任务中。

所以 ,Figure 和其他研究团队关注的事情恰恰相反。我们的目标是在仓储制造领域应用人形机器人,这个领域的劳动力短缺问题最为严重。全球约一半的 GDP 来自劳动力,我们正在面对全球范围内的劳动力短缺问题。随着婴儿潮一代的退休和生育率的下降,这个问题将越来越严重。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...