跟科幻片一样!OpenAI只用13天给机器人加上了GPT,从此无比“接近人类” 跟科幻片一样!OpenAI只用13天给机器人加上了GPT,从此无比“接近人类”
admin
2024-03-14 13:42:31
0


火遍硅谷、OpenAI重金押注的人形机器人Figure 01,现在会看会听,能和人类自由对话了。

当地时间3月13日早晨,初创公司Figure AI在X放出这段最新demo。

效果十分炸裂,总共展示了以下几组行为:

1.首先询问机器人能看见什么,Figure 01清晰描述了一切,包括视角正中的红苹果、放有杯碟的沥水架、以及站在面前的工作人员和他搭在桌上的右手。

2.接着工作人员问,“可以给我点吃的吗?”

Figure 01把苹果拿起递过去,并按照要求,一边清理工作人员刚倾倒在桌面的纸团,一边解释刚刚的行为:“我给了你苹果,因为我觉得这是桌上唯一能吃的东西。”然后自然而然地把收好在篮子里的纸团给回工作人员。

3.“根据现在所见,你面前的碟子应该到哪儿去?”Figure 01思考片刻做出判断:杯碟应该归置进晾晒架,而后按指令放好。

4.最后一步,让它自己评价任务完成的怎么样。Figure 01自信地回答道:“我觉得我做得很不错!苹果找到了新主人,垃圾清理了,桌面上的东西各归各位。”

这里的Figure 01是3月9日更新版本,由OpenAI技术加持。从两周前双方宣布合作,决定共同开发下一代人形机器人AI模型,推进机器人学习边界,到现在面前这个科技感满满的“人形GPT”仅仅用了13天。

而且据Figure AI创始人Bratt Adcock称,所有这些行为都没有经过远程操作,而是通过机器人的自我学习而来。并且以正常的1.0倍速连续拍摄,没有加速、没有剪辑,所见即所得。可以感受到视频中Figure 01的速度已经快要接近人类。


具体来看,此次Figure 01体现出的炸裂能力有:

1. 识别周围环境,准确描述视觉体验。视频开头它说看到桌上的苹果和面前站着的人类。

2. 推理和决策下一步行动。例如“桌子上的盘子和杯子很可能需要放在沥水架上”。

3. 将模棱两可的请求翻译成一些与上下文相关的行为。比如将对方说的“我饿了,有没有吃的”转换成“递给这个人一个苹果”的行动。

4. 用语言解释推理过程,比如“苹果是这里唯一能吃的”。

5. 反思自己的记忆做出判断,即在视频最后回顾了全套行为,并且基于常识进行评价。

那这一切又是怎么完美实现的呢?

领导该项目的高级AI工程师Corey Lynch发文解释了背后原理。

他表示,Figure 01正是通过与OpenAI提供的大模型连接起来,才被赋予了这些天秀的“有趣新功能”。

他们将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本,在处理整个对话历史、包括过去的图像后做出语言回应,这些回应再通过文本转语音最终传递给人类。


所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像,交给大模型处理,大模型推理预测下一步行为,将像素映射到200Hz、24个自由度的动作(包括手腕姿势和手指关节角度),直接输出结果。整个过程依靠端到端的机器人控制,而无需经过中间过程的编码。

更新后的Figure 01优越之处还在于,接入的OpenAI大模型能理解历史对话,为机器人提供了强大的短期记忆。从而理解上下文语义,做出准确的判断和执行。

比如demo里甄别过杯子盘子应该放回沥水架后,工作人员下达指令:“Can you put them there?” 这其中代指的“它们”和“那儿”是很模糊的。但是经过预训练的模型通过分析对话历史记录,就能促使Figure 01迅速形成答案并输出动作:1)将杯子放在沥水架上2)将盘子放在沥水架上。

除此以外,机器人基于视觉运动策略学习到的行为执行更快速、反应更灵敏,相比之下有些行为提前手动指定是很难的,比如在任何位置操纵一个可变形的袋子。同时,一个整体的全身控制器能确保Figure 01保持平衡,时刻处于安全稳定的动态中。

除人工智能加持外,Figure 01还垂直整合了由专业工程师设计的所有系统,包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构。

对于此次更新,网友们反应极度热烈。有人说,能做出一个能帮你刷碗打扫屋子的智能机器人已经赢了。


还有人已经想象到了商业化适用场景,“Figure机器人似乎可以成为盲人群体的向导”。


更有网友不留情面地cue波士顿动力“该回实验室给机器人研究点新舞步了”。Figure机器人的智能化之强,也让人感叹和它对视8秒会不会被暴揍。


“13天内如此惊人的成绩,等不及要看接下来会发生什么了!”

而携手Figure AI提供燃料,将其推上神坛的OpenAI,也被网友称为“难以抗衡的合作关系”,建议波士顿动力火速更换合作伙伴。


Figure AI最新估值是13天前的26亿美元,而今两周过去,估值应该是多少?网友:“不可估量”。


Figure AI曾在上月27号宣布,获得来自微软、英伟达、OpenAI以及亚马逊创始人贝佐斯等投资人约6.75亿美元的新一轮融资,成为马斯克“擎天柱”机器人之外最受投资人们追捧的AI人形机器人。

据Figure AI称,他们的目标是造出真正的通用机器人,替代人类执行危险或机械化的工作,并最终实现“行走的AI智能体”,自主执行日常任务。从如今OpenAI入局后这短短两周结果来看,这一目标仿佛变得更近。而OpenAI在人工智能产业中全面撒网加大部署这一步,似乎又走对了。

很多人说闭上眼已经可以把Figure 01在自己身边的体验具象化。机器人不再是实验室里可看不可得的观赏品那天,也许比我们想象的更快到来。现在是2024年的3月,几个月后会前进到哪一步?倒计时开始。


❗️硅星人|AI hacker house系列活动❗️

「AI人格体搭建赛 」首站来袭!

扫描下方二维码报名参赛,丰厚现金大奖等你来拿!

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...