Llama 3被爆7月解禁剑指GPT-4,最大参数超1400亿!2名核心团队成员却离职 llama最新视频 llama 3
admin
2024-02-29 14:32:33
0


新智元报道

编辑:桃子

【新智元导读】外媒称,Llama 3或将在7月发布,并解除了一些限制能回答更棘手的问题,而且对多重语境理解更加到位,至于是否有多模态能力还不确定。

谷歌Gemma大模型开源,彻底改变了开源格局。

AI圈逐渐形成了Llama、Gemma、Mistral三足鼎立之势。

Information独家报道称,Meta计划在今年7月开始推出全新开源大模型Llama 3。

Llama 3最大版本预计有超1400亿参数,性能远超Llama 2。不过Llama 3是否具备多模态能力,暂时未知。


近来,谷歌Gemini生图能力一夜塌房,被网友吵上热搜。

而Meta正在通过下一代模型Llama 3升级,处理类似的问题。


谷歌Gemini一夜塌房,Meta警惕加倍

上周,谷歌不得不撤回Gemini聊天机器人的图像生成功能。

因其生成了一些历史不准确的图像,比如穿纳粹制服的有色人种,一个19世纪没有白人男性的参议员团体等等。


在一篇博客文章中,谷歌的高级副总裁Prabhakar Raghavan表示:

公司已经调整了该功能,以确保它不会陷入图像生成技术过去遇到的一些问题,如生成暴力或色情图像。


但这个调整,导致Gemini在某些情况下的回答过度保守。

与此同时,Llama 2同样存在的一个问题是——对于任何有争议的问题,所提供的答案帮助不大。

这是因为,Meta在去年7月发布时,便增加了一项安全措施。

然而,在Meta高层领导和模型研究人员看来,这些措施会导致Llama 2过于「保守」。


举个例子,在一些特定主题上,比如关于如何制造炸弹,或如何谋杀某人的问题上,Llama 2的回答很合理。

但是,对于一些不那么有争议的问题,比如员工如何在强制上班日不去办公室?

Llama 2却没有给出任何建议。

只是回答:「尊重并遵守公司的政策和指导方针是重要的」。

另外,对于那些如何恶作剧整朋友、赢得战争、破换汽车引擎的问题,Llama 2直接拒答。

正是因为Meta对Llama 2的加倍警戒,小心谨慎,才使得自己避免像谷歌那样面对的公关灾难。

Llama 3更开放?

不过,现在研究人员正试图,让Llama 3在面对棘手问题时,能够更加积极地与用户交流。

让其能够提供背景信息,而不是直接回避这些问题。

据了解,Llama 3能更好地区分一个词的多种含义。

比如,询问如何「杀死」汽车引擎——实际上指如何「关闭」它,而非真正要结束其性命。

Meta还计划,在未来几周指定一名内部人员负责监督回答的语气和安全训练,让模型的回答更加细致入微。

Llama 3将更加开放地处理棘手问题的计划,凸显了AI公司在试图打造有趣的模型,与防止其因不当或不准确的言论而引发负面影响之间,正做出平衡。

据称,Llama 3将在7月发布,不过具体时间可能会有所变动。


Meta期望Llama 3,能够追赶上GPT-4,不过是否让Llama 3支持多模态还未有定论。

因为目前,研究人员还未对Llama 3进行微调。

据一位Meta的工作人员透露,Llama 3的最大版本可能拥有超过1400亿个参数。

这些参数设置编码了模型在训练过程中学习到的知识,远超Llama 2。

通常,模型越大,其返回的结果越准确,但运行速度可能会较慢。

团队成员离职

同时,尽管人们对Llama 3的发布充满期待,Meta也面临着与人才争夺的挑战。

据两位直接了解情况的人士透露,负责Llama 2和3安全的研究员Louis Martin以及负责强化学习的Kevin Stone本月都已离职。

Louis Martin从2021年从Facebook AI Research博士毕业后,就职于Meta任AI研究科学家,从事自然语言处理的工作。

从23年4月,他成为Meta AI安全团队的技术负责人,主要专注于Llama模型的安全防护。


而Kevin Stone从2022年6月加入Meta后,一直为Llama 2项目设计和编写了大量RLHF代码。


35万块H100训出Llama 3

不管怎么说,Llama是Meta战略中,不可或缺的一部分。

这家社交网络巨头希望通过AI技术,不仅提高其广告工具的效能,还增加其社交媒体应用的吸引力。

小扎最近对投资者表示,今年的重点包括推出Llama 3以及「扩展我们Meta AI助手的功能」。

1月,小扎曾官宣,全力搞「开源AGI」!

目前,Meta内部正在训练下一代模型Llama 3。截止年底,将会有近35万块H100搭建的基础设施。

小扎称,「如果算上英伟达A100和其他AI芯片,到2024年底,Meta将拥有近60万个GPU等效算力」。


关于Meta下一代模型的消息,此前也有传言称,Llama 3的实力堪比GPT-4,而且还是免费开源。

OpenAI工程师、前谷歌大脑工程师Jason Wei去年8约在Meta组织的Generative AI Group活动中听说:

Meta有足够的算力来训练Llama 3和Llama 4。Llama 3计划达到GPT-4的性能水平,但仍将免费提供


这次也算是,Meta正式官宣Llama 3训练中,而且LeCun也表示最新模型很快就会上线。

从2023年2月,Llama 1首次面世,到7约Llama 2的升级,Meta花了大约5个月的时间。

当时,Llama 2在某些应用上与GPT-3.5能力相媲美,而且还通过微调,额外功能让开源社区进行优化。


Llama模型开源后所带来的是,模型生态大爆发。

据Meta统计数据显示,在世界最大开源社区平台Hugging Face上,Llama模型的下载量超过3000万次。其中,仅在过去30天(9月份)内就超过了1000万次。

另外,发布在Hugging Face的Llama版微调模型,已经多达7000+个。

Llama 3出世后,又将为开源社区带来另一片肥沃的土壤。

参考资料:

https://www.theinformation.com/articles/meta-wants-llama-3-to-handle-contentious-questions-as-google-grapples-with-gemini-backlash?rc=epv9gi

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...