科学家打造文生视频大模型,含四个高效变种可更好处理时空维度,将Transformers与扩散模型完美结合 科学家打造文生视频大模型,含四个高效变种可更好处理时空维度,将Transformers与扩散模型完美结合
admin
2024-05-12 19:43:35
0

“有点遗憾的是,从 Sora 所放出的技术报告来看,OpenAI 的整体设计和我们的成果遵循了相似的技术路线,如果我们能拥有同等级别的计算规模,会不会 Sora 就可以诞生在中国了(苦笑)。”对于自己和同事研发的文生视频模型,上海人工智能实验室研究员王耀晖表示。


图 | 王耀晖(来源:王耀晖)

2023 年 11 月,王耀晖等人将代码加以开源,并于 2024 年 1 月将论文放在网上。

他说:“当时受到的关注并不算多,直到 Sora 的出现人们才发现原来我们已经开源了类似工作。”

“据我了解,我们的成果是世界上第一个开源的文生视频 DiT 模型,目前大部分复现 Sora 的 open-sora 工作,都参考了我们的开源代码和模型设计。”王耀晖说。

他继续表示:“其实这也是我一直所坚持的观点,好的研究要超出目前人们的认知去定义未来。”


图 | 王耀晖使用自己的模型生成的内容(来源:arXiv)

研究中,他和同事通过大规模的实验,论证了视频 DiT 模型的可行性,并给出了一系列的模型结构设计与训练优化方法,最终证明本次模型具有通用的能力。

目前,视频生成的应用集中在社交、影视、教育、广告等行业。

利用本次模型王耀晖等人已经可以制作简单的短视频广告、电影宣传片等。

随着本次技术的慢慢成熟,预计视频生成技术会成为影视制作的重要辅助工具,助力于减少制作成本。

同时,视频生成技术作为潜在的“世界模拟器”,或许能和其他学科形成交叉影响,从而用于自动驾驶、机器人、AI4Science 等领域。

据介绍,基于机器学习的视频生成技术,一直是王耀晖的研究方向,从 2018 年在法国国家信息与自动化研究所读博开始,他就开始研究如何通过设计机器学习方法来生成逼真视频。

在当时,GAN 是生成模型中最有效的方法,因此他在读博期间的所有工作都是基于 GAN 开展。

当时,他的一系列工作曾定义了关于视频生成的一些基础任务,也设计了一些网络结构和学习方法。

王耀晖表示:“我在当时的很多设计,也成了目前视频生成模型所使用的一些基本技术,但是因为太过古早,可能目前很多人并不了解。”

回国之后,扩散模型与通用人工智能逐渐兴起,他便将之前在 GAN 上的积累,慢慢地转移设计视频扩散模型。

一开始,他主要生成一些专有内容比如人脸的视频,后来开始尝试生成关于人体的视频,目前则致力于解决通用视频生成的现有问题。

据了解,领域内关于扩散模型的一些初期工作,比如 DDPM、Stable Diffusion 等都是基于 UNet 网络设计。

而当下是一个大模型能力涌现的时代,在设计模型时往往需要展现出潜在的 Scalability 能力,这时 UNet 结构就无法再顺应时代发展。

所以,王耀晖和同事一直在思考,是否可以像大语言模型那样,设计出基于 Transformer 的通用扩散模型,从而实现大规模的视频生成?

当王耀晖等人正在构思上述课题的时候,Sora 的相关论文的作者之一比尔·皮布尔斯(Bill Peebles),发表了使用 DiT(Diffusion Transformer)进行图像生成的论文。

这也坚定了王耀晖等人沿着上述技术路线,设计视频 DiT 模型的想法。

事实上,王耀晖想要解决的问题很简单:即希望将 Transformer 的结构用于视频扩散模型之中,从而让模型具备通用性,进而能在超大规模算力和数据加持下,实现持续的扩展性。

与此同时,他们希望在视频生成模型中也能观察到一些能力的涌现,并探寻出类似于大语言模型中的 Scaling Law。

然而,文生视频比文生图更加复杂。并且在时空层面上,文生视频需要使用结构化程度更高的的数据形式。

因此,如何设计模型结构和学习方法,让模型能够很好地学习时空分布,并能生成高质量内容一直一个难题。

2022 年,课题组预见到在视频生成一定也会和大模型一样朝着 Transformer 这种架构去发展,那时他们就已经决定去设计视频 DiT。

通过结合王耀晖在研究 GAN 时积累的经验、以及在视频理解问题上所积累的知识,他和同事首先设计了基本的模型结构大框架,并在小规模数据上开展实验。

由于没有可以明确参考的前期工作,课题组并不知道所构想的模型是否有效。

为此,他们花费大量时间尝试证明视频 DiT 结构在模型结构上的可行性,也提出了好几种模型变体。


(来源:arXiv)

通过前期实验他们验证了视频 DiT 结构的可行性,随后开始着手优化模型与训练中的细节。

他们发现:很多实现方式上的不同,会影响模型的最终性能。

于是,该团队进一步地探究模型训练方式、token 的提取设计、条件的注入方法等。

有些借鉴了 GAN 的思想,有些借鉴了图像 DiT 的设计,还有一些是他们在其他视频生成成果中借鉴的技巧。

开展大规模实验之后,他们基本明确了整个模型的训练方式和设计细节,并在学术数据集上取得了最优的量化评测。

在学术集上取得的实验成功,将他们带到了一个更大的十字路口:即通过继续放大模型规模,以便探究模型在文生视频这一最终试验场中的表现。

基于所拥有的计算资源,他们将模型规模初步定在 1B 左右,并决定从预训练文生图工作进行初始化,以此获得更快的收敛速度,从而检验本次模型在文生视频中的表现。

通过一段时间的训练,该团队发现所设计的整体架构,能被成功用于文生视频任务。

与此同时,他们也在持续地训练模型,以探究更大规模的数据,是否能带来更好的结果。

王耀晖表示:“我们的研究其实开始得很早,最初版的原型验证大约在 2023 年初就已经有了。”

但是,因为计算资源有限,并行大规模试验也比较困难。因此,对于很多问题的探究,课题组都需要等待更长时间来获得结论。

最终,相关论文以《Latte:用于视频生成的潜在扩散变压器》(Latte:Latent Diffusion Transformer for Video Generation)为题发在 arXiv[1],马鑫是第一作者,王耀晖担任通讯作者。


图 | 相关论文(来源:arXiv)

下一步,王耀晖等人会着重致力于提高模型的效率。

同时,他们还计划进行生成模型方法的创新。目前,他们是通过实验解决问题,后续希望能探究出一些系统性理论依据来指导实验。

另据悉,王耀晖从读博起就一直很喜欢物理学家理查德·费曼(Richard Feynman)的一句话 “What I cannot create,I do not understand。”

因此,他希望可以通过视频生成这一技术,更好地重建和生成世界,进而理解世界运行的基本规律。


参考资料:

1.https://arxiv.org/pdf/2401.03048v1

排版:刘雅坤

01/ 科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

02/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

03/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

04/ 科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原

05/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应


相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...