零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新 2024国内开源大模型最新排名 中文大模型最新排名出炉
admin
2024-05-14 11:32:11
0

机器之心报道

机器之心编辑部

在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1.5」模型正式开源。

在项目主页可以看到,Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、34B 三个版本,采用 Apache 2.0 许可证。



GitHub 地址:https://github.com/01-ai/Yi-1.5Hugging Face 模型下载地址:https://huggingface.co/01-ai

据了解,Yi-1.5 是 Yi-1.0 的持续预训练版本,使用 500B 个 token 来提高编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整。

刚一发布,就已经有开发者跃跃欲试:



并收获了好评:



与前序模型相比,Yi-1.5 系列模型进一步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。









重磅消息当然不止这一个。

在成立一周年之际,零一万物宣布面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案,Yi API Platform 英文站同步对全球开发者开放试用申请。



Yi 大模型 API 开放平台 (https://platform.lingyiwanwu.com/)

其中,千亿参数规模的 Yi-Large API 具备超强文本生成及推理性能,适用于复杂推理、预测,深度内容创作等场景,每百万 token 的价格是 20 元,是 GPT-4-turbo 的三分之一。



Yi-Large-Turbo API 则根据性能和推理速度、成本,进行了平衡性高精度调优,适用于全场景、高品质的推理及文本生成等场景。Yi-Medium API 优势在于指令遵循能力,适用于常规场景下的聊天、对话、翻译等场景;如果需要超长内容文档相关应用,也可以选用 Yi-Medium-200K API,一次性解读 20 万字不在话下;Yi-Vision API 具备高性能图片理解、分析能力,可服务基于图片的聊天、分析等场景;Yi-Spark API 则聚焦轻量化极速响应,适用于轻量化数学分析、代码生成、文本聊天等场景。

其中特别要提到的是发布会现场正式亮相的千亿参数 Yi-Large 闭源大模型。Yi-Large 面世的同时即正式进军全球 SOTA 顶级大模型之首。可以看到,与 GPT-4、Claude3 Sonnet、Gemini 1.5 Pro 以及 Llama 3-70B-Instruct 等当前顶级模型的较量中,Yi-Large 在绝大多数情况下取得了优势。



同时,在斯坦福大模型排行榜 AlpacaEval 的英语评测中,Yi-Large 达到全球大模型 Win Rate 第一。在中文通用大模型综合性基准 SuperCLUE 的中文语言理解排名中,Yi-Large 一跃成为国产大模型 No. 1。



中文能力方面,SuperCLUE 更新的四月基准表现中,Yi-Large 也位列国产大模型之首,Yi-Large 的综合中英双语能力皆展现了卓越的性能。

在发布会上,李开复还宣布,零一万物已启动下一代 Yi-XLarge MoE 模型训练,将冲击 GPT-5 的性能与创新性。从 MMLU、GPQA、HumanEval、MATH 等权威评测集中,仍在初期训练中的 Yi-XLarge MoE 已经与 Claude-3-Opus、GPT4-0409 等国际厂商的最新旗舰模型互有胜负。



Yi-XLarge 初期训练中评测(2024 年 5 月 12 日)。

至此,零一万物已经建立了「双轨模型策略」。



近期上线的一站式 AI 工作站「万知」(wanzhi.com/ 微信小程序「万知 AI」)则是零一万物基于世界领先的闭源模型 Yi-Large 所做出的「模应一体」生产力应用。



而对于大众和行业最关心的「大模型落地如何产生价值」的命题,李开复指出,国内大模型赛道的竞跑从狂奔到长跑,终局发展将取决于各个选手如何有效达到「TC-PMF」(
Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度)。大模型从训练到服务都很昂贵,算力紧缺是赛道的集体挑战,行业应当共同避免陷入不理性的 ofo 式流血烧钱打法,让大模型能够用健康良性的 ROI 蓄能长跑。

在李开复博士看来,自研 AI Infra 是零一万物必然要走的路,零一万物也自成立起便将 AI Infra 设立为重要方向,着力于实现计算效率的优化。AI Infra(AI Infrastructure 人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施。这也基于一个既定事实,很多大模型公司没有美国大厂的 GPU 数量,因此要采取更务实的战术和战略。

零一万物着力于实现计算效率的优化,经过多方面优化后,零一万物千亿参数模型的训练成本同比降幅达一倍之多。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...