DeepMind首发游戏AI智能体SIMA!只用自然语言就能玩转「山羊模拟器」 deepmind智能控制套件 deepmind游戏
admin
2024-04-01 13:04:56
0


新智元报道

编辑:Mindy

【新智元导读】AI在学会工作之后,终于也能和人一样玩游戏了!DeepMind的SIMA是一个可以感知和理解各种环境的AI代理,能够在多种视频游戏设置中执行任务,未来甚至可能可以与任何虚拟环境进行互动。

谷歌DeepMind在AI和游戏方面有着悠久的历史。

从过去与Atari游戏的密切合作开始,然后发展到AlphaStar系统可以在《星际争霸II》中达到人类大师级水平,到如今,DeepMind从单个游戏转向了通用的、可指导的游戏AI代理。

SIMA,是一个可扩展的、能听从指导的多世界AI代理,这是一个用于3D虚拟环境的通用AI代理。


技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf


想象一下,它完全不需要游戏源代码,也不需要什么特殊的API接口。它只需要两个简单的输入:屏幕上的图像和用户口头提供的简单自然语言指令。然后,SIMA就会像魔术师一样,通过键盘和鼠标控制游戏角色执行这些指令。

这种简单直接的界面,就像是我们人类自己所用的方式,这是一个AI代理首次展示出它能够理解广泛的游戏世界的能力,同时可以按照自然语言的指令在其中执行任务,就像人类一样。


SIMA从视频游戏中学习

SIMA由预先训练好的视觉模型和一个主模型组成,主模型包括一个存储器,可输出键盘和鼠标操作。


它在九款不同的视频游戏上对SIMA进行了训练和测试,例如Hello Games的《无人深空》和Tuxedo Labs的《拆解》。


每款游戏都为SIMA打开了一个新的交互世界,从简单的导航和菜单使用,到挖掘资源、驾驶飞船或制作头盔等一系列技能。

DeepMind团队还使用了四个研究环境,其中包括Unity构建的名为“建造实验室”的新环境。在这个环境中,SIMA需要用建筑块建造雕塑,从而测试其对物体操纵和对物理世界的直观理解能力。

通过从不同游戏世界中学习,SIMA捕捉了语言与游戏行为之间的关系。

例如,它会观察人类玩家的操作,并记录下导致这些游戏行为的指令。这样的训练使得SIMA能够逐渐理解游戏世界中的语言和行为之间的联系。

SIMA的诞生意味着什么

SIMA的诞生并不是为了取得高游戏得分。

对于AI系统来说,即使是学会玩一个视频游戏也是一项技术壮举,但学会在各种游戏设置中遵循指令,可能会为适应任何环境提供更多帮助。

SIMA已经评估了600种基本技能,涵盖了导航、物体交互和菜单使用。它已经可以执行在10秒中内完成的简单任务。

DeepMind希望未来代理能够处理那些需要高级战略规划和多个子任务才能完成的任务,例如“寻找资源并建造营地”。

这对于AI来说是一个重要的目标,因为虽然大型语言模型已经催生了可以捕捉关于世界知识并生成计划的强大系统,但它们目前还缺乏代表人类采取行动的能力。

Jim Fan也对SIMA表达了期许的态度,他补充道,他对于SIMA喜欢的地方包括:

- 这是第一个通过鼠标或键盘进行操作的代理,不需要用语言进行调整

- 适应多种环境,涵盖游戏和3D模拟器

- 拥有强大的数据管道,招募人类玩家以记录行为,以及用语言进行注释

但他也同时指出了一些不足之处,包括环境数量有限;行动时长非常短,只有约10秒;数据管道不够有扩展性等。


跨游戏的泛化和未来

在DeepMind的评估中,SIMA在一组九款3D游戏中表现明显优于仅在每个单独游戏上进行训练的所有专门代理。

更重要的是,SIMA在未见过的游戏上的表现与专门为其进行训练的其他代理相比,平均表现几乎相同。

这种在全新环境中运作的能力突显了SIMA在训练之外的泛化能力。

这是一个令人鼓舞的初步成果,但需要进一步的研究才能让SIMA在已知和未知的游戏中达到与人类相媲美的水平。


结果还表明,SIMA的表现依赖于语言。

在一项控制实验中,当代理没有接受任何语言培训或指令时,它的行为虽然符合逻辑,但缺乏目标性。例如,代理可能会执行一些常见的操作,如收集资源,而不是按照预先指定的路径行动。

SIMA的结果展现的是新的泛化的、由语言驱动的AI代理的潜力。

AI代理的完成态,是达到更加通用、能够帮助虚拟世界和现实世界的人们,理解并安全地执行各种任务。

SIMA只是刚刚开始,我们可以期待在更多的训练环境中继续建立SIMA,并整合更有能力的模型,让它变得更具泛化性和多功能性,而不仅仅局限于游戏。

参考资料:

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...