解密中国首个“音乐版Sora” | 中国AIGC产业峰会 2分钟回顾中国aigc产业峰会 首届中国aigc产业峰会
admin
2024-05-01 18:27:00
0

编辑部 发自 AIGC峰会
量子位 | 公众号 QbitAI

文生图、文生音频、文生视频、AI搜索引擎……大模型在多模态的进程可谓是愈演愈烈。

而聚焦在国内,有这么一家公司在AIGC大热潮的前后,单是“首个”就占了四席:

发布中国首个开源文本大模型国内首个对标ChatGPT的双千亿级大模型中国首个AI搜索国内首个在线提供服务的MoE大模型

不卖关子,这家公司正是昆仑万维,并且就在最近,它还解锁了“中国首个音乐SOTA模型——天工音乐大模型”

那么昆仑万维在多模态大模型的道路中是如何演进的?为何能够如此精准的先迈出每一步?

在本次中国AIGC产业峰会上,昆仑万维董事长兼CEO方汉回答了一切。



为了完整体现方汉的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。

话题要点
天工3.0发布,全面超越MoE大模型Grok-1天工3.0在多轮搜索、搜索“研究模式”、智能体方面能力提升中国首个音乐AIGC的SOTA模型

以下为方汉演讲全文:

天工3.0正式发布

我今天的演讲主题是“天工多模态大模型的演进落地”。

大家知道昆仑万维是从2022年12月发布了中国首个开源文本大模型,在2023年4月17日「天工1.0」发布,2023年8月23日发布了国内首个AI搜索产品——天工AI搜索。



在今天,我们发布了「天工3.0」,这是中国首个在音乐AIGC领域达到SOTA的模型,同时我们将开源4000亿参数全球最大规模的MOE大模型,并且开始启动公测。

首先,「天工3.0」目前性能已经全面超越3140亿参数的MOE大模型Grok-1,是全球第一,这两个大模型目前都是开源的。



我们可以看到在MMbench和MMbench-CN这两个测试集中,我们在性能指标上已经全面超越GPT-4V,综合排名全球领先。



「天工3.0」目前在模型技术支持能力上提升超过20%,在数学、推理、代码、文创能力上提升超过30%。

通过专项的Agent训练,可以应付复杂的需求能力,在内容创作能力上全面升级,目前是能搜能写能读能聊能说能画能听能唱,在多模态能力上非常全面。

下面可以看到,「天工3.0」在多轮搜索与综合工具的调用能力上有了大幅提高。

例如,搜索“成都迪斯尼怎么去”大家知道,“成都迪斯尼”是个梗,我们能够准确识别出来“成都迪斯尼”是成都的一个小区,同时,大模型把“成都迪斯尼”的攻略生成出来之后,还会把它总结成一个攻略。

再比如,在问天气怎么样的时候,大模型会把上海的天气以卡片的形式展现给用户,最后生成相对应的图片。



视频地址:

https://mp.weixin.qq.com/s/9_tE4IvcwaeEKuNY8XthLQ

再来看一下 「天工3.0」在搜索能力上的“研究模式”,大家可能知道,学生在阅读文献的时候,需要总结大纲,再自己画脑图。



视频地址:

https://mp.weixin.qq.com/s/9_tE4IvcwaeEKuNY8XthLQ

在以前这类工作非常烦琐,现在我们可以自动对搜索内容进行总结、自动生成大纲、拷贝到PowerPoint,就能自动生成PPT,同时最后再自动生成脑图。这对所有的研究工作者非常有帮助。

下面我们看一下「天工3.0」在智能体方面的进展,大家可以很方便地通过非代码的形式生成智能体,我们看现在生成的智能体在使用之后,可以生成一个关于特斯拉和小米SU7车型对比的表格,而且是多模态的生成,这个非常方便。



视频地址:

https://mp.weixin.qq.com/s/9_tE4IvcwaeEKuNY8XthLQ

首个音乐AIGC的SOTA模型

目前,昆仑万维以AI大模型为底座,已经拥有AI社交、AI游戏、AI搜索、AI大模型、AI音乐、AI视频等六大业务矩阵。

我再给大家分享一下多模态大模型天工SkyMusic,这是目前首个音乐AIGC的SOTA模型。给大家听一下案例,这是庞博(喜剧明星)利用天工AI音乐创作的一首歌曲。



视频地址:

https://mp.weixin.qq.com/s/9_tE4IvcwaeEKuNY8XthLQ

我们天工SkyMusic与SONO V3的版本对比,首先,在人声&BGM音质、人声自然度、发音可懂度等领域都有明显地提升

我们这个技术模型的架构是类似Sora的DiT架构,目前数据集已经将近2000万首音乐,这才能在音乐指标上可以超过SUNO,达到目前的SOTA,也就是技术指标第一。



我们独家优势在于根据示例音源生成音乐的能力,而不是根据标签来生成音乐。

根据示例音源生成音乐的能力可以让很多专业创作者用自己的一段小旋律生成完整的音乐,同时在人声合成方面支持单一语种方案输出能力,目前已经支撑粤语、四川话、北京话、上海话等多个方言。

最后,我们生成更具辨识度的自然人声,大家都知道如何区分每个歌手的人声,在合成上是有比较大的技术难度,我们目前基本上可以根据输入的语音达到更好的克隆。

目前天工SkyMusic音乐创作能力,首先,能够极大降低音乐创作门槛,人人皆可以歌明志。

大家可以看到,今天在我们公测的天工SkyMusic的功能下方,网友们创作的歌曲非常多,创作形式也非常多样。

之前制作一首歌的成本非常昂贵,因为首先要有音乐的基础能力,才能去作曲、才能编曲,还要有乐队帮助你去演奏合成,最后还得有专业的演唱能力,才能完成一首歌的制作。

通过天工SkyMusic,一个人只要花几分钟时间可以完整创作出一首可以发布的歌曲,这样极大降低了音乐创作门槛。让每个人可以创作出自己的歌曲。

同时,极大降低了音乐创作成本,对于全体内容行业来说是一个福音。大家知道,在各行各业使用音乐的地方非常多。

之前都有着比较昂贵的授权费用,在今天可以让各行各业使用的所有通过AI生成,成本可以迅速从几万块钱降到几分钱。

最后,我们也证明了中国研发可以在垂直领域做到全球的SOTA,这也是非常有意义的。大家知道,SOTA这个词是“State of the art”,当前技术指标第一的意思。

OpenAI为什么现在是全球估值最高的大模型企业?

因为在文本大模型以及视频生成大模型方面,它一直是全球的SOTA。对于中国公司来说,能否在垂直领域取得SOTA,也是你的企业能够获得技术红利的一个重要因素。

最后我跟大家分享一下,昆仑万维的使命与目标,是实现通用人工智能,让每个人更好地塑造和表达自我。



为什么我们把这个分成了两段?

实现通用人工智能就是对标AGI,我们坚信通过文本大模型和多模态大模型不断演进,一定会实现通用人工智能;但与此同时,我们也可以通过AIGC能力的不断拓展,让每个人更好地塑造和表达自我。

我们可以看到从文本生成到图像生成,再到音乐生成以及视频生成,AIGC技术的演进能够让全世界创作内容的成本极大降低,从而打破强势文化利用资源来达到的垄断地位,让每个少数族群都能够创作属于自己的内容,实现真正的文化平权。

这也是我们作为一家在全球几十个国家都拥有业务的全球互联网平台企业所希望看到的一个愿景。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...