OpenAI最强竞对发布Claude 3,超过GPT-4,理解能力接近人类 openai强势来袭 openai战胜人类选手
admin
2024-03-05 12:05:14
0



刚刚,被称为“OpenAI最强竞对”的大模型公司 Anthropic 重磅发布了其第三代人工智能(AI)模型 ——Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku

其中,Claude 3 Opu 为 Claude 3 系列模型的最强版本,具有接近人类的理解能力,可以灵巧地处理开放式提示和复杂的任务,根据官方给到的资料,其性能全面超过了 GPT-4。

值得一提的是,Claude 3 系列模型具有与其他领先模型同等的复杂视觉功能,可以处理各种视觉格式,包括照片、图表、图形和技术图表。



Anthropic 在其官方 X 上表示,Claude 3 系列模型“在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准”



据介绍,Claude 3 Opus 和 Claude 3 Sonnet 现已可以通过 API 直接访问。目前,API 也已全面开放,开发人员可立即开始使用这些模型。

另外,Claude 3 Sonnet 还可以供部分地区的用户在网站(http://claude.ai)上免费体验,而 Claude 3 Opus 的使用权限,则只开放给了 Claude Pro 用户。

此外,Anthropic 团队还表示,Claude 3 系列模型解决了之前模型经常出现“不必要的拒绝”的问题。

智能新标准

评测结果显示,Claude 3 Opus 在 AI 系统的大多数常用评估基准上都优于同类产品,包括本科生水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出了接近人类水平的理解力和流畅性,“引领着通用智能的前沿”。

所有 Claude 3 模型在分析和预测、细微内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的能力都得到了提高。

近乎即时的结果

Claude 3 系列模型支持实时客户聊天、自动完成和数据提取任务,在这些任务中,响应是即时和实时的。

其中,Claude 3 Haiku 是市场上同智能类别中速度最快、性价比最高的模型。它可以在三秒内读取 arXiv 上一篇信息和数据密集的研究论文(约 10k token),并附带图表和图形。

在绝大多数工作负载中,Claude 3 Sonnet 的智能水平比 Claude 2 和 Claude 2.1 高出了 2 倍。它在知识检索或销售自动化等要求快速响应的任务中表现出色。Claude 3 Opus 的速度要慢一些,与 Claude 2 和 Claude 2.1 类似,但智能水平更高。

准确性提高

与 Claude 2.1 相比,Claude 3 Opus 在具有挑战性的开放式问题上的准确率(或正确答案)提高了两倍,同时也减少了错误答案。

除了做出更可信的回答外,Claude 3 系列模型为来将启用引用功能,这样就可以通过指出参考资料中的精确句子来验证答案。



200K 上下文窗口和近乎完美的记忆

现在,Claude 3 系列模型可提供 200K 上下文窗口。不过,所有三种型号都能接受超过 100 万个 token 的输入,未来也可能会向需要增强处理能力的特定客户提供这种服务。另外,Claude 3 Opus 实现了接近完美的召回率,准确率超过 99%。



Anthropic 团队表示,为提高模型的安全性和透明度,他们将继续开发诸如宪法人工智能(Constitutional AI)等方法,并对模型进行微调,以减轻新模式可能带来的隐私问题。

虽然与之前的模型相比,Claude 3 系列模型在生物知识、网络相关知识和自主性等关键指标上取得了进步,但根据“负责任扩展政策”( Responsible Scaling Policy),仍处于 AI 安全等级 2(ASL-2)。红队评估结果显示,Claude 3 系列模型目前造成灾难性风险的可能性微乎其微。

更易于使用

Claude 3 系列模型更善于遵循复杂的多步骤指令。它们尤其擅长遵循品牌声音和响应准则,并开发出用户可以信赖的面向客户的体验。此外,Claude 3 系列模型更善于以 JSON 等格式生成流行的结构化输出,从而更易于指导自然语言分类和情感分析等用例。

在官方博客的最后,Anthropic 团队写道:

“在推动 AI 能力发展的同时,我们也同样致力于确保我们的安全防护措施能够跟上性能飞跃的步伐。我们的假设是,站在 AI 发展的前沿是引导其走向积极社会成果的最有效方式。”

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...