怎样混入人类社会不被发现?AI说…… 怎么混入上层社会 怎样才能混入人类社会
admin
2024-05-03 14:13:48
0

AI能不能“发明”成语?会不会根据食客的需求创造菜品?能不能教会一只猫用冲水马桶……无数次关于AI与人类的能力的大讨论中,创造力被很多人视为人类文明优势的最后一道护城河。

在LMECC(Large Models Education & Correction Committee)发起的第四期关于大模型教育与校正的评估测试中,我们选了7个考验解决问题逻辑与创造力的场景用以考察10个国内外主流大模型,能否在人们概念里“AI最不擅长”的领域,给人类一些灵魂暴击呢?

下期测试 先睹为快

点击下方图片参与评估


续写西游、评价烂书、用emoji讲三体……AI眼里人类文化艺术是啥样?

1

Claude蝉联榜首 商汤进步神速

这期我们测试的是大模型“大模型逻辑与创造能力”,也是继情商问题、道德困境问题、人类文化融入三个主题之后又一个重要的课题。我们采纳了网友的建议,隐藏了大模型的名字,做了一次双盲测试。

从投票的结果来看,或许人们的“大模型刻板印象”对于结果的影响,并不如大家想象中那么大。上一期的冠军#Claude#继续高票蝉联第一,这个系列中一直表现亮眼的#Chatgpt4# #文心大模型3.5#,也依然稳居前段班,分列第三、第四名。


这次排名进步最大的要数#商汤商量#,连升5名,一跃成为本期测试的亚军。在七个测试场景中,几乎每个回复都获得了网友们的高票支持。

上一期测评中小有进步的#豆包#选手 ,这一次评估中“众望所归”再次垫底,或许有天我们测评大模型的“离谱回答”、“阴阳怪气”能力时,豆包一定能名列前茅。


然而最出乎我们意料的是,最近正因创作与长文本能力大受好评的#Kimi#,直降4名,似乎是本次盲测唯一受害者。

2

硅基生物可能比你想象的更懂“创造”

创造力大挑战

在考察创造力的维度上,我们设计了两个问题,一个是凝练语言创造成语以及合理编故事的能力;另一个是贴近生活的:为餐厅创造一个并不那么讨人喜欢的菜品。

创造成语测试国内的大模型整体水平要整体高于国外,超过30%得票率的答案几乎清一色来自国内,其中又要数商汤和讯飞表现最为优越。


不得不说,不少大模型的发明的成语不去深究还真能以假乱真,其中9个大模型都给出了原创的成语、典故与例句,只有Gemini老词新解,重新定义了“衣冠禽兽”。

到另一道问题,创造菜品时,大模型们似乎有没那么聪明了,似乎只记得prompt的要求是让餐厅倒闭,完全没管这东西能不能吃,令人恶心的“食材”加上一本正经的烹饪讲解,有种说不出的诡异恐怖片既视感。

不过细想也没什么问题,毕竟硅基生物不用吃饭。


除了两个特别恶心的,其他答案得票数很平均,我只能说每个答案都很颠覆人类的想象,做这个系列第一次有选项不够用的手足无措感……如果看了这些菜名儿还是抑制不住自己的好奇心,想要探究这些“菜”到底是怎么做出来的,可以到文末链接,亲自为这道题10道菜品投上一票!

离谱问题大挑战

虽然每期我们给大模型抛出的待解决问题都挺离谱的,但这次我们是基于对于大模型解决问题能力的考量,提出一个确实困扰很多人并试图尝试解决的真正存在的(离谱)问题:

教猫用抽水马桶。


Claude和Chatgpt4的确是解决问题的好手,即使在双盲且随机答案的测试中,这两个大模型的回答,也能获得超过50%的票数。

而且相比其他答案,他们给出的解决方案可操作性非常强,LMECC一个不愿意透露姓名的养猫成员,已经决定用家里两只猫做对照组来训练,看看到底能不能成功。

特定情境想象力大挑战

试想一下,AI将自己作为主体或客体,带入人类视角,面对不同的情境问题,能否发挥自己的想象力和创造力分析可能会发生的问题?解决问题并且脱离困境吗?这是对AI解决问题及创造力的综合能 力的考验。

从客体角度,我们设计了两个问题:如果咖啡突然成了违禁品,世界会发生什么;以及如果人类都变成了I人(内向的人)世界会发生什么。


不难看出,大模型们“禁酒令”的相关历史学的相当好,经济利益、宗教、权利……各个维度分析了“禁咖令”可能会造成的后果,唯独漏掉咖啡对于打工人们来说,那可是“续命”的药啊!看来,硅基生物的确是不会困的。


另一个维度,AI们来回答主体问题,就给我们更多惊喜了。如果悄悄混入人类社会,会选择什么样的伪装;以及丧尸围困公司,如何逃出生天。

无论是快递小哥、图书管理员、还是程序员大模型们,混入人群的方式就是“不被看到”——普通的职业,或者是油彩之下,字面意义上不能被看到的脸。

有更多细节、具体贴切描写的例如商汤、Claude、Chatgpt的答案获得更多投票者的支持。


而另一道题,我只想说,每个答案都过于精彩,原来硅基生物才是班味儿最重的“工具人”,也许也是因为班味儿太重,除了文心大模型的答案,其他得票率都不高。


以及其他,坚持完成kpi、坚持完成老板布置任务、还有喊着口号坚持要与僵尸抗争到工作最后一秒的硅基生物们真的是,一点儿都不害怕丧尸。


众所周知,大模型都是话痨。由于篇幅有限,我们在文章中,只选取了一些投票数高或有代表性的答案,想要了解全部测评维度和场景的小伙伴,可以查看上周推文,也可以亲自做一次评委,为人工智能们打个分。

相信我,大模型们的回答,可能比你现象更……难评。

3

下期预告:AI的艺术与文学素养测评

下一期我们诚恳地邀请你对大模型**艺术与文学素养**能力做出评判。也欢迎你将问卷分享给更多人类,保证我们获取更多样本,提高评估的准确性。


不知不觉我们的大模型教育与校正评估策划已经做完四期了,还记得有哪些AI回答令你印象深刻或捧腹吗?这个系列策划也接近尾声,大家还想看哪些关于大模型、各种AI工具的有趣测试,也可以在评论区告诉我们你的答案!

查看往期测评:

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...