别再吹AI的数学能力了,有多少实力“擂台”上见 别再吹AI的数学能力了,有多少实力“擂台”上见
admin
2024-03-15 12:49:51
0



以前都是防着 AI 替人类考试,以后可能要防着人类替考 AI 了。

事情是这样的,今天阿里全球数学竞赛搞了个新活儿:这届比赛AI 也能参加。让碳基、硅基生物来个同场较量。

消息一出,相关话题立马登上了知乎热榜。网友们也都立马进入了吃瓜模式, “ GPT-4 总是吹牛性能多强,美国高考、奥赛能考几分,是时候拉出来溜溜。 ”



但话说回来,很多数学竞赛,对普通人来讲都有点太正经了,就算懂点数学,可能连门槛都够不着。

不过差评君也发现,阿里的全球数学竞赛,为了让更多人都参与进来,每年都会变着法得搞新花样。

就算是个数学门外汉,在这个全球性的赛事里,你都能找出不少有意思的东西。

像是前年竞赛,官方让大伙出题,投稿的人上至 83 岁,下至 14 岁,出的题目都贼有趣,比如吃自助冰淇凌的时候,怎么打才能吃出性价比,共享单车锁车的时候,被轮辐挡住的概率是多少。



要是让差评君来出,高低得让各位数学大佬们看看咱后台的数据,算算咱离一亿粉还差有多久。

而去年,他们则公布了一道预选赛的题目: “ 用数学方式讲述你和数学的故事 ” 。

结果炸出了不少脑洞大开的朋友,还有网友用数学讲起了土味情话,整了四个函数图像拼成了 “ LOVE ” 。



如果说前两年,阿里全球数学竞赛还只是在题目上添花样,那今年,它直接在参赛选手的 “ 物种 ” 上下功夫了,新增了个AI 挑战赛。

规矩也和之前一样:没限制。只要报名就能参加,不限个人、企业和高校,现在想临时抱佛脚,把前几年的题目喂给 AI 炼都行。



而且进了前三名的 AI ,照样有奖金拿,分别是 10000 美元、 5000 美元和 2000 美元。

其实最近一年, “ AI 在数学上要超过人类 ” 的论调,差评君是没少听,像是前段时间, DeepMind 还专门发了个做几何学的 AI :AlphaGeometry ,声称水平已经快接近人类数学家。



照这样来看,那 AI 用不了多久,在数学这块儿就能跟围棋一样,分分钟超越人类,横扫数学竞赛。

今天咱也没那么高的要求,就用之前的竞赛题测测大模型,看看 AI 在竞赛题目前到底行不行。

不废话了,直接开测,主角是GPT-4

先给 GPT-4 来个抽盲盒的问题:每个牛奶盒都附赠一个红包,有 “ 虎 ”“ 生 ”“ 威 ” 三种,问平均要买多少瓶牛奶,才能集齐一套 “ 虎虎生威 ” 。答案是 7.33333 盒。



刚开局 GPT-4 就有点让人大跌眼镜,没看懂题目,算起了集齐 “ 虎生威 ” 的盒数。。。



好吧,咱也没奢望 GPT-4 一把就答对。这把我们计划先让它算集齐 “ 虎生威 ” 的盒数,然后再加虎的数量,让它继续算。

这次 GPT-4 倒反应过来了,给了个 7.75 盒的答案,和标准答案还有点接近。



让它给出详细的步骤,没想到 GPT-4 又改主意了,改成了 9.75 盒。。。



后面差评君又搜了下网上给出的参考答案,发现有个专门的方法( 蒙特卡罗方法,阿尔法狗也用了这个方法训练 )去解决这类问题,在提示了之后, GPT-4 果然开窍了。



第一道问题勉强算 GPT-4 过关,第二道题,我还是选了个题目好懂的,属于卡牌游戏那挂,规则和平时玩的抽王八差不多,问的是刚开始手里有多少张牌时,胜率最大



答案先告诉大家,选 B , 32 。这把 GPT-4 没思考几秒就哗哗答题,而且还罕见的给出了俩答案,顺便来了句 “ 你喜欢哪个? ”

这咱还是头一回看到这种情况,不过看了它给出的答案后, emmmm 能都不喜欢吗。五个选项里,它选出了最不像正确答案的那一个:无论咋样,胜率都一样大。。。



于是,差评君试着去从最简单的 n=1 去引导它,这次 GPT-4 倒愿意听引导了,但打脸总是来得飞快,讲到一半又胡说八道,即便后续再纠正,都没能给出正确答案。





除了上面展示的这些案例外,差评君还用各种不同的大模型试了试历年题,心态都快给搞崩了,最后的结果还是老样子,基本上一道题都解不出来

唯一例外的是,这道不需要多少逻辑推理的傅里叶变换问题, GPT-4 不用怎么引导就能搞定。





总结下来,像 GPT-4 、 Gemini 这些大模型,虽然知识储备挺多,但不怎么会用在解题上,像虎虎生威那道,还要咱们对着标准答案去引导。关键是要知道标准答案,谁还会去用 AI 呀。

而且官方也有预感,今年AI 的水平可能还比不上人类选手,但即便如此,阿里还是欢迎 AI 参加这次的数学竞赛,差评君觉得,主要有两方面的原因。

一个是这两年,大家对 AI 的接受度越来越高了。

前年年底的时候,大家还为了 AI 作画夺冠的事儿大吵特吵,转头就 “ 真香 ” 了,各种 AI 作图、 AI 读论文工具用得贼溜。



另一个是, AI 身上的确有人类没有的优势,比如算得快还不会累,而且懂的数学知识也特多,唯一的问题就是创造力差点意思,人有的直觉它也没有。

所以 AI 现在顶多算一个工具,阿里全球数学竞赛新加的这个 AI 赛道,算是一个科普、探索怎么用好 AI 的过程。未来 AI 和人类之间的水平差距肯定会越来越小,等到它超越人类的时候,自然也会激发出人类更多的潜能。

官方也明示了,这次 AI 参赛没啥限制,预选赛主打一个全民、全 AI 参与,选拔是决赛的事儿。可能咱不是个高超的数学家,但说不准在炼 AI 上还有两把刷子。

这里头的 “ 可玩性 ” 也相当高。不仅可以用开源模型 “ 魔改 ” 一版模型去参赛,还可以用国内外成熟的闭源模型,像 GPT-4 、 Gemini 、 Claude 3 、通义千问等等,采用提示词工程的方式,逐步训练打造一个 “ 数学高手 ” 存在般的 AI 。

像去年就出了个17 岁的满分金牌翟晓宇,今年 AI 赛道指不定也能跑出几匹黑马呢。

先别管那么多,报了再说。( 手动狗头 )

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...