Llama 3 发布,亮点在于 “小” 模型 llama 3原理 llama3部署
admin
2024-04-20 03:19:59
0



重新寻找 Scaling Laws。

文丨贺乾明
编辑丨黄俊杰

像一个人的学习成长一样,每个全新的大模型,都需要从大量的文本中学习 “知识”,才有能力去解决一个个问题。

Google 训练 70 亿参数的 Gemma 开源模型,让它 “看过” 6 万亿 Token(6 万亿个词)的文本。微软投资的 Mistral 训练 73 亿参数模型,“看过” 8 万亿个 Token 的文本。

用如此大规模的数据训练参数不到 100 亿的模型,已经是行业中比较重的方法。按照 DeepMind 研究人员提出的策略,如果考虑性价比,这么大的模型,看 2000 亿 Token 的文本就够了。不少中国一线创业公司的同等规模大模型只用了 1 万亿~2 万亿个 Token 的文本。

Meta 的 CEO 马克·扎克伯格(Mark Zuckerberg)不满足于此,他直接把下一代开源大模型送进了 “县中”,用更多习题拔高能力。Meta 昨夜推出的 Llama 3 系列大模型,80 亿参数模型用了 15 万亿 Token 的训练数据,比 Google 的多学了一倍还不止,是很多小公司产品的十倍。

根据 Meta 公布的数据,在 5 个常用大模型能力评估测试集上,它新发布的 80 亿参数模型和 700 亿参数模型,得分基本都比同级竞争对手高。尤其是 80 亿参数的 Llama 3,各项评测得分大幅超过 Google 和 Mistral 开发的同级别模型,数学、编程能力翻倍。Meta 称它们是目前 “功能最强大的、公开可用的大模型”。



Llama 3 在部分测试数据集上得分超过竞争对手。图片来自 Meta。

Meta 透露,他们还在训练 4050 亿参数的大模型,初步评测得分达到 GPT-4 水平。这则消息帮 Llama 3 获得大量关注。英伟达高级研究经理 Jim Fan 说,Meta 让开源社区得到 GPT-4 级别的大模型会是一个行业分水岭,将改变许多研究工作和创业公司的经营状况。

OpenAI 原资深研究科学家安德烈·卡帕蒂(Andrej Karpathy)认为,80 亿参数的 Llama 3 “会非常受欢迎”,效果接近参数更多的 GPT-3.5,而且需要的算力低、反应快,甚至可以在手机、电脑上本地运行,“希望大家继承这个趋势,训练和发布用更长时间训练更小的模型。”

打破 Scaling Laws:用超出行业预期的数据和算力训练模型

2020 年初,OpenAI 提出大模型的 Scaling Laws,认为在 Transformer 架构中,要提升大模型的效果,需要按照特定比例提高训练大模型的数据量、模型本身的参数以及算力。

这个规律在 OpenAI 随后发布的 GPT-3 中得到验证,他们调整这几个元素的配比,以更低的成本训练出更强的模型。

OpenAI 的接连成功,让 Scaling Laws 成为许多研究者训练大模型的关键指引。按照他们发现的规律,其他训练条件不变,大模型参数每提升 5.3 倍,训练数据量需要提升约 1.9 倍、算力提升 10 倍,是最有性价比的方案。

2022 年,DeepMind 的研究者发布论文,认为这个比例不对,低估了训练数据量的要求。他们认为,算力提高 10 倍,模型参数和训练数据量各提升约 3 倍才更有性价比。DeepMind 的新比例取得更好的效果,成为从业者训练大模型的重要参考。

现在,Meta 又进一步提高训练数据的重要性。根据 Meta 公布的信息,他们训练 80 亿参数的 Llama 3 时,把训练数据提到 15 万亿 Token,是 DeepMind 方案估算的 75 倍,发现模型能力达到 700 亿参数 Llama 2 的水平,大幅超过竞争对手。

Meta 为此付出更多算力——用 H100 训练了 130 万个小时,算力成本预计超过 100 万美元。如果用 5000 张 H100 组成的集群计算,需要不间断训练大概 11 天。而在 Meta 只需要 2 天多,因为它有 2.4 万张 H100 组成的算力集群。而且有两个。

一场小模型竞赛正在进行

根据 Meta 的说法,当前版本的 Llama 3 还没有达到性能极限。“我们一直使用的大语言模型,明显缺乏训练。(训练数据量)可能需要提高 100~1000 倍,甚至更多。” 安德烈·卡帕蒂说。

OpenAI 用 GPT-3.5 和 GPT-4 证明大模型的实力后,许多公司加速追赶的同时,也在研究如何用更低的成本利用大模型。

与传统的软件应用不同,大模型不仅开发起来费钱,运行起来(推理)也会消耗大量算力资源。大模型想要处理用户输入问题,基本要挨个处理文字中的每个字,处理 100 个字的问题,基本就要运行 100 遍大模型。

英伟达把它当作 GPU 销量增长的空间,但对于想用大模型改造业务、创造新商业机会的公司,却是负担。发布 Llama 3 时,Meta 宣布把它整合到旗下每天有数十亿人使用的 Instagram、Facebook 等产品中,如果用参数较大的模型,推理成本根本无法承受。

想要降低成本,最直接的方法是训练参数更小的模型,让用户的手机、电脑直接在本地运行,分担平台的压力。

怎么让更小的模型有更好的效果,成了大模型公司们的竞争点。过去一年,Google 每次发布大模型,都会推出参数较小的模型。Anthropic 发布 Claude 3 系列时也采用类似的做法。不过它们没有详细公布小模型的参数,以及如何让小模型有更好的能力。

根据 The Information 报道,微软选择利用 GPT-4 生成高质量数据,训练更小的模型,以降低部署大模型应用的成本。

Meta 训练 Llama 3 的方法截然不同,但最适合它。为了应对 TikTok 的竞争,Meta 在 2022 年采购了大量 H100,用于训练更强的内容推荐模型,为它奠定算力优势。

为了训练 Llama 3,Meta 动用了两个 2.4 万张 H100 组成的训练集群,今年计划把 H100 数量推到 35 万张——每张 30000 美元。大部分互联网巨头也只有数万张 H100,而且不少还会对外出租。

Meta 接下来大概率会沿着相同的方向,继续做更小的模型。“80 亿参数的模型,对于很多场景来说还不够小。” 扎克伯格接受采访说,“我很想看到一个 10 亿参数,甚至 5 亿参数的模型,看我们能用它做些什么。”

题图来源:视觉中国

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...