复旦团队设计交互式群聊模拟器,探究语言在塑造行为中的涌现作用 复旦团队设计交互式群聊模拟器,探究语言在塑造行为中的涌现作用
admin
2024-05-07 16:31:50
0

“让人惊喜的是,我们在‘Agent Group Chat‘这项尤为强调语言交互的研究中,发现了非常多的涌现行为。

身份各异的角色之间能够产生有趣且令人意想不到的场景,包括小老板为推翻 CEO 而偷偷地与公司外的人结盟,哲学家们普遍认同最强大的智能是懂得何时约束自己的观点等。”复旦大学博士研究生顾洲洪表示。

近期,他和所在团队提出了一款名为“Agent Group Chat”的模拟器,能够通过交互式的辩论场景,深入研究语言在塑造人类集体行为中的复杂作用。


图|顾洲洪(来源:顾洲洪)

该模拟器的核心是参与动态对话交互的角色,评估的重点是使智能体(Agent)行为能够与人类的期望保持一致,以及集体行为会在模拟器中出现。

结果表明,如上所说的涌现行为,是很多因素综合作用之后发生的,涵盖有利于广泛信息交流的环境、具有不同特征的人物、高度的理解能力和战略适应性。

据顾洲洪介绍,该成果不但可以促进角色扮演智能体(Role-Play Agent)领域和组织行为学的发展,而且具备较强的应用前景。

首先,该课题组正在计划为 Agent Group Chat 配备一个在线平台,让广大用户可以设置自己的故事、插入自己或他人设定的角色,并观察将不同的角色放在一起,会发生怎样的故事。

其次,在该研究中使用的一些评估方法,也能够为组织行为学或系统学的研究人员提供一个新的研究框架,帮助他们更加深入地理解不同智能体之间的互动如何影响集体行为,以及语言将会给群体行为带来哪些影响,从而进一步探索这些知识该如何在现实世界的组织和系统中获得应用。


图丨Agent Group Chat 交互的图示,描绘了各种场景,包括继承纠纷、法庭辩论、哲学话语和电影选角之争(来源:arXiv)

近日,相关论文以《Agent Group Chat:一个交互式群聊模拟器,可以更好地引发紧急行为》(AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior)为题在预印本平台 arXiv 上发表[1]。

顾洲洪是第一作者,复旦大学肖仰华教授和冯红伟老师担任通讯作者。


图丨相关论文(来源:arXiv)


设计交互式群聊模拟器,让角色之间产生涌现行为

当前,基于大语言模型的角色扮演智能体(LLM-Based Role-Play Agent),是一个崭新的研究领域。因此,它在获得许多学者的关注的同时,也激发了顾洲洪和所在团队的研究兴趣。

起初,该课题组想设计一个能体现智能体之间唇枪舌战的模拟器和智能体结构(Agent Structure)。

“当时我们将目光放在《继承之战》这部电视剧上。剧中有一位总裁,掌控着一家巨型企业。

虽然他的几个儿子都觊觎着这家集团的继承权,但总裁却并不打算放权,也因此展开了一系列明里暗里的合作与竞争行为。我们觉得这些行为很有意思,并幻想如何才能让智能体也自发地做到这样的行为。”顾洲洪说。

基于此,他们最早把研究方向定为,构造一个能够体现智能体之间开放竞争与合作的题目。

然后,他们花费三个月时间,完成整个模拟器和智能体的代码,并把 GPT4 作为智能体核心(Agent Core)运行起来,使它能够发现一定的交互情况。

即便如此,研究人员仍然无法满足于现状。

“我们团队都想做出一些既让自己满意,又能得到同行认可,甚至能被外行喜欢的研究。当时我们觉得《继承之战模拟》这个题目只能算一般有趣,而且也一直在扪心自问这个问题,即‘别人为什么要用我们的研究’?” 顾洲洪说。

在该课题组看来,这一时期的研究存在几个问题。

其一,代码不可复用。这主要是因为这套模拟器和智能体执行的任务过于局限。

其二,结论不可复用。他们虽然发现了许多智能体在自由合作和竞争状态下的规律,但这些结论却不具备普适性。

只要稍微改进一下智能体结构或者换一个大语言模型,结论便很可能不复存在。

考虑到上述问题,研究人员暂停了该研究的发布计划,并做出了两点改进。

首先,将特定的任务替换为通用的群聊,以解决代码难以复用的问题。

其次,提出模拟器评估的范式,让评估结果不会因为某个组件的微小改动,而发生巨大的变化。

最终,他们在原来的代码框架的基础上,进行了大量改进,并写了许多新的故事,譬如法官辩论、哲学家辩论、电影选角等,然后在 Agent Group Chat 中发现了诸多涌现行为。

除了上面已经提到的小老板和哲学家的叙事场景,还包括一位律师用尽一切手段赢得诉讼,以及演员为了能够参演自己选的电影,愿意放弃主角和薪酬进行参演。

另外,在将该成果撰写为论文的过程中,他们也花费了大量精力。

其中,为了量化整个模拟中发生的行为的合理性,他们做了三类评估,分别是针对大语言模型是否可以作为智能体核心的评估;针对单个智能体(Single-Agent)的行为是否正常的评估;和针对多个智能体(Multi-Agent)的集体行为是否具备多样性与混乱性的评估。

具体来说,首先,研究人员要求大语言模型还原自己接收到的信息,以观察它是否能够理解环境,比如询问大语言模型接收到多少个角色描述,或接收到多少条记忆信息。

其次,设置特殊的环境,来观察智能体的行为是否符合人类的预期,比如当一个角色和另一个角色发生争吵后,他们之间的好感度是否会下降。

最后,通过香农熵评估群体行为的混乱程度,并发现熵值降低往往会伴随着更有意义的群体涌现行为出现。


计划开发完整应用,为更多用户提供丰富有趣的体验

谈及整个研究中最为难忘的过程,顾洲洪表示是推翻并重做早期提出的研究方向的那段时光。

当时,他们已经准备好了整个研究的代码、实验和论文草稿,但却不满意于所得出的研究成果。

“我们认为,这项通过构建模拟器和智能体来模拟电视剧《继承之战》,以探究语言博弈的过程的研究,和之前收录于国际表征学习大会上的那些关于智能体狼人杀、智能体阿瓦隆的成果并无区别。”顾洲洪说。

基于此,他们决定勇敢地迈出一大步,用三个月时间推翻并重做了许多内容,不仅打造了一个关于智能体群聊的通用框架,还在《继承之战》之外又设计了好几个故事,并对其中的涌现行为进行了深入分析。

也正是这段经历,帮助他们的 Agent Group Chat 变得既有趣又有意义。

而在接下来,该课题组也打算为该研究开发一套完整的前后端系统,以实现一个完整的应用。

“我们的目的是希望更多人能够参与这款应用,深入体验将不同角色放在一起之后会发生的故事。”顾洲洪说。

另外,他们也期待与更多同行开展合作,通过集结多种多样的技术和创意,来提升该项目的质量,从而为用户提供更加丰富和有趣的体验。

参考资料:

1.Z.,Gu,X.,Zhu,H.,Guo.et al. AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior. arXiv:2403.13433. https://doi.org/10.48550/arXiv.2403.13433

https://github.com/MikeGu721/AgentGroup

运营/排版:何晨龙

01/ 南科大团队实现无扩散的单光子波包,为量子态远距离传输提供理想光形态,或实现更复杂的量子系统

02/ 同济团队开发新型无铂催化剂,每克制备成本不到100元,为制备金属氧化物催化材料提供指导

03/ 西工大团队造出可在超声中存在15分钟以上的声悬浮气泡,可用于地面模拟太空微重力环境

04/ 或将塑料转为小分子化合物,科学家实现聚苯乙烯的可控降解,降解产物分子量低于1000Da

05/ 北大团队发现类病毒颗粒新机制,将发展基于类病毒颗粒的RNA递送体系,助力研发新型疫苗


相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...