“百模大战”又起?被Sora激活的全新赛道,会在国内催生“现象级产品”吗 “百模大战”又起?被Sora激活的全新赛道,会在国内催生“现象级产品”吗
admin
2024-03-15 12:48:49
0


随着中国首部文生视频AI动画片《千秋诗颂》不久前亮相央视,其背后的"创作者"——上海人工智能实验室研发的文生视频大模型"书生·筑梦"宣布以开源的方式授权用户单位免费商用。作为上海人工智能实验室的邻居,在位于徐汇西岸的全国首个大模型生态社区"模速空间",国内首个多模态大模型备案企业"智象未来"正在攻坚国产多模态大模型"智象视觉"应用落地的"最后一公里"。

阿里、字节跳动等国内大厂也纷纷宣布加码文生视频大模型开发。相较去年,ChatGPT发布3个月后国内厂商才有动作,Sora发布之后,今年文生视频领域的"跟进速度"显然更快。

国内在文生视频领域的快速跟进会否掀起新的"百模大战"?在这条被激活的全新赛道上,我们有机会做出自己的"现象级产品"吗?智象未来创始人兼首席执行官、加拿大工程院外籍院士梅涛日前接受本报记者专访表示,相较于大语言模型,国内外在AI文生视频领域的技术差距并没有外界想象的那么大,仍有追赶机会,而其市场前景很大,"这是一条充满希望、值得全力以赴去拼抢的赛道"。

AI视频技术路线或将涌现不同"解法"

60秒一镜到底、各种镜头随意切换、主角和背景保持了惊人的稳定性……对于Sora这些"惊艳四座"的绝技,梅涛用"领先国内一个身位,但没有突破代际差距"来评价。

参考无人驾驶汽车的评价体系,梅涛将文生视频模型在影视行业的应用分为L1-L5五个档次。他认为当前主流的文生视频企业,包括Sora在内,都处于L2水平。所谓L2,即AI具备了单镜头生成的能力。


Sora的出现让影视、广告等行业感到危机四起,但在梅涛看来,Sora想要颠覆影视业,还需要具备多镜头生成能力(L3)、讲好一个与现实逻辑相符的故事的能力(L4),以及具备视觉、音效、灯光等一体化的能力(L5)。"在L2阶段还有大量难点,比如目前它还无法生成真人的高清微表情,也无法生成多人间自然的拥抱、握手等动作,这些能否在短时间内突破还有待观察。"梅涛说。

Sora另一个为业界所谈论的点是用到了DiT(Diffusion Transformer)模型,即以Transformer为主干的扩散模型,但这并非Sora独有。梅涛表示,与大语言模型的技术路线已近趋同相比,文生视频的技术路线尚未收敛。而在视频的底层逻辑上,有多种不同的技术路线,未来很可能出现新的团队拿出不同的"解法"。

据介绍,文生视频的主流模型框架分为扩散模型和自回归模型,前者的优势在于能更好地结构化并生成较高质量画质的视频内容,后者则更适合长上下文语境理解,天然适配多模态对话的生成方式。

"从视频生成的技术架构上看,Sora并没有太大创新,但其背后团队强大的工程能力帮我们排除了一些错误选项。"梅涛说,智象未来将一边追赶、一边探索差异化的发展道路——局部可控性+超高清(4K/8K),这一点是影视行业的刚需,也是目前Sora无法做到的。眼下,智象未来团队已经完成图像DiT模型130亿参数规模的训练,预计3月底将实现视频基础模型的大幅升级。

文生视频模型的落地速度可能后来居上

梅涛告诉记者,这些天来找他的人络绎不绝,都是来谈合作的。基于底层多模态大模型"智象视觉",一年前,智象未来对外发布文生图/视频应用产品"千象"(Pixeling),至今已积累了5万活跃用户和200多万次API(应用程序编程接口)。这从一个侧面表明,尽管文生视频模型的发布比大语言模型晚,但其落地速度可能更快。梅涛分析,这背后的原因主要有两点:一是图像视频带给人的冲击力更大,二是以Midjourney为代表的公司已经证明图像AIGC(生成式人工智能)的商业模式可行。


智象未来创始人兼首席执行官梅涛。

在文生视频领域,梅涛认为国内有机会做出自己的"现象级产品",而实现方式就是"模型+应用"的双迭代。以智象未来为例,在模型方面,"千象"保持着每月一次的迭代频率,并将以4秒—7秒—15秒的进程倍速推进;而应用方面的迭代,主要依靠海量用户的反馈。他表示,短视频,尤其是科幻类短视频,将成为文生视频的最佳训练素材,"今年我们很可能看到一批科幻作家的短篇小说被AI搬上屏幕"。

发展最快的路径不一定是"最终答案"

"当下,大模型中的‘规模法则(Scaling law)’越来越成为行业共识。"梅涛说。所谓"规模法则"就是模型能力与模型尺寸之间的正相关性,其中三个关键参数分别是模型大小、数据量和计算能力。

既然公式已定,那么发展大模型就从一件"拼思路"的事变成一件"拼操作"的事,算法在其中起到的作用越来越小。而谁的工程技术能力越强,谁能搭建起协调性更好的架构,谁拥有的数据量越大,谁的大模型能力就越强。


因此,对于技术路线已基本收敛的大语言模型,梅涛认为可采用集中力量办大事的思路,力推一两个大语言模型。据他观察,市场已经在完成这一"收束"——经过一年的"百模大战",国内大多数模型已转向垂类模型发展,只有几家大厂还在推进各自的大模型,这一趋势与美国一致。

对于多模态大模型,梅涛认为目前这一领域的技术路径尚未收敛,可适当保持多一点的可能性。比如,智象未来在主攻DiT的同时,仍在小规模尝试其他路径。在他看来,通往AGI(通用人工智能)的路径有很多条,尽管大语言模型目前发展得最快、最像"正确答案",但它不一定是"最终答案"。

在如何推进我国大模型产业发展这个问题上,梅涛的答案与DiT论文的作者、纽约大学助理教授谢赛宁一致,也就是人才第一、数据第二、算力第三。"AI人才最看中什么?是平台。"梅涛说,上海应提供更多机会,吸引全球AI人才聚集,让他们相互交流碰撞,将自己的想法变成现实。

  作者:沈湫莎

文:沈湫莎 图:袁婧摄 编辑:沈湫莎 责任编辑:任荃

转载此文请注明出处。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...