全球最强大模型一夜易主，GPT-4被全面超越全球最大的模型 gpt-4是最强的ai大模型吗_热点关注_发的多

全球最强大模型一夜易主，GPT-4被全面超越全球最大的模型 gpt-4是最强的ai大模型吗

admin

2024-03-06 14:37:31

0次

白交西风发自凹非寺
量子位 | 公众号 QbitAI

Anthropic刚刚官宣：Claude 3来了！

作为OpenAI最强竞争选手，此次它发布的新模型家族，以最强版Claude 3 Opus为代表，“已经实现了接近人类的理解能力”——

在推理、数学、编码、多语言理解和视觉方面，全面超越GPT-4在内的所有大模型，直接重新树立行业基准的那种。

浅看一下这份成绩单，就十分扎眼~

几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外，此前就以长下文窗口见长的Claude，此次全系列大模型可提供 200K 上下文窗口，并且接受超过100万Tokens输入。

Gemini 1.5 Pro：嗯？

目前可以免费体验第二强Sonnet，Opus最强版供Claude Pro付费用户使用，但大模型竞技场也可以白嫖。于是乎，网友们已经开始疯玩上了。（Doge）

另外，Opus和Sonnet也开放API访问，开发者可以立即使用。

有人直接艾特奥特曼：好了，你现在可以发布GPT-5了。

不过奥特曼可能还在烦马斯克的诉讼……

最新最强大模型发布

此次Claude 3家族共有三个型号：小杯Haiku、中杯Sonnet以及大杯Opus，成本和性能依次递增。

首先，在性能参数上，Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型：

还有在视觉能力上，它能可以处理各种视觉格式，包括照片、图表、图形和技术图表。

对于这样性能结果，有专业人士表达了自己的看法。

比如爱丁堡大学博士生、中文大模型知识评估基准C - Eval提出者之一符尧就表示，像MMLU / GSM8K / HumanEval这些基准，已经严重饱和：所有模型的表现都相同。

他认为，真正区分模型性能基准的是MATH and GPQA。

另外，在拒绝回答人类问题方面，Claude 3也前进了一大步，拒绝回答的可能性显著降低

在上下文以及记忆能力上，他们用大海捞针（Needle In A Haystack，NIAH）来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率，超过 99% 的准确率。而且在某些情况下，它甚至能识别出 “针 “句似乎是人为插入原文的，从而识别出评估本身的局限性。

还在生物知识、网络相关知识等方面取得了进步，但出于负责任的考虑，仍处于AI安全级别2（ASL-2）。

其次，在响应时间上，Claude 3大幅缩短，做到近乎实时。

官方介绍，即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上，速度比Claude 2和Claude 2.1快2倍，尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高，但速度不减，与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

大杯Opus：比别家模型更智能。适用于复杂的任务自动化、研发和制定策略；中杯Sonnet：比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间；小杯Haiku：比同类模型更快速、实惠。适用于与用户实时互动，以及在简单工作流程中节省成本；

在价格方面，最便宜的小杯定价0.25美元/1M tokens输入，最贵的大杯定价75美元/1M tokens输入

对比GPT-4 Turbo，大杯价格确实高出不少，也能体现AnthropicAI对这款模型非常有信心。

第一手实测反馈

既如此，那就先免费来尝尝鲜~

目前官方页面已经更新，Claude展现了「理解和处理图像」这一功能，包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档，也能准确OCR识别：

底下写着：你正在使用他们第二大智能模型Claude 3 Sonnet。

然鹅，可能是人太多的原因，尝试了几次都显示“Failed”

不过，网友们也已经po出了一些测试效果，比如让Sonnet解谜题。

为其提供一些示例，要求它找出数字之间的关系，比如“1 Dimitris 2 Q 3”，意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9，所以“X”的值应该是6.9：

还有网友发现Sonnet现在也可以读取 ASCII 码了，直呼：这是GPT-4 ++的水平了。

在编程任务上，谁写的代码好先不说，Claude 3至少不会像GPT-4一样偷懒。

还有体验到了Opus的玩家，在线给模型挖坑，可opus硬是完美躲避不上当：

初看这效果，感觉还行。这时候应该艾特OpenAI：GPT-5在哪里？

好了，感兴趣的朋友，可以戳下方链接体验啦~
https://claude.ai/
参考链接：
[1]https://www.anthropic.com/news/claude-3-family
[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1

基准大模型上下文 gpt-4 视频生成模型全球最强大模型易主 GPT-4被超越

上一篇：U20女足亚洲杯-中国首战1-1朝鲜霍悦欣超远吊射破门中国女足u20录像回放 u20女足亚洲杯霍悦欣图片

下一篇：5人破门！枪手本场进球合辑：哈弗茨、小马丁传射，厄德高建功五人场精彩进球 5人制进球集锦

相关内容

热门资讯

linux入门---制作进度条了解缓冲区我们首先来看看下面的操作：我们首先创建了一个文件并在这个文件里面添加了...

C++ 机房预约系统（六）：学... 8、学生模块 8.1 学生子菜单、登录和注销实现步骤：在Student.cpp的...

A.机器学习入门算法（三）：基... 机器学习算法（三）：K近邻(k-nearest neigh...

数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...

有限元三角形单元的等效节点力文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数（Nÿ...

Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库，支持多种数据结构。以下是...

win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...

MySQL基础-多表查询文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...

keil调试专题篇调试的前提是需要连接调试器比如STLINK。然后点击菜单或者快捷图标均可进入调试模式。如果前面...

MATLAB | 全网最详细网... 一篇超超超长，超超超全面网络图绘制教程，本篇基本能讲清楚所有绘制要点&#...

IHome主页 - 让你的浏览... 随着互联网的发展，人们越来越离不开浏览器了。每天上班、学习、娱乐，浏览器...

TCP 协议一、TCP 协议概念 TCP即传输控制协议（Transmission Control ...

营业执照的经营范围有哪些营业执照的经营范围有哪些经营范围是指企业可以从事的生产经营与服务项目，是进行公司注册...

C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题：无法知道当前使用的类型是什...

血压计语音芯片，电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计，测量前至测量结果全程语音播报࿰...

MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...

【2023-Pytorch-检... （肆十二想说的一些话）Yolo这个系列我们已经更新了大概一年的时间，现在基本的流程也走走通了，包含数...

实战项目：保险行业用户分类这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...

记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识，希望对大家有所帮助前段时间接触了Th...

43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...