“百模大战”又起？被Sora激活的全新赛道，会在国内催生“现象级产品”吗 “百模大战”又起？被Sora激活的全新赛道，会在国内催生“现象级产品”吗_热点关注

“百模大战”又起？被Sora激活的全新赛道，会在国内催生“现象级产品”吗 “百模大战”又起？被Sora激活的全新赛道，会在国内催生“现象级产品”吗

admin

2024-03-15 12:48:49

0次

随着中国首部文生视频AI动画片《千秋诗颂》不久前亮相央视，其背后的"创作者"——上海人工智能实验室研发的文生视频大模型"书生·筑梦"宣布以开源的方式授权用户单位免费商用。作为上海人工智能实验室的邻居，在位于徐汇西岸的全国首个大模型生态社区"模速空间"，国内首个多模态大模型备案企业"智象未来"正在攻坚国产多模态大模型"智象视觉"应用落地的"最后一公里"。

阿里、字节跳动等国内大厂也纷纷宣布加码文生视频大模型开发。相较去年，ChatGPT发布3个月后国内厂商才有动作，Sora发布之后，今年文生视频领域的"跟进速度"显然更快。

国内在文生视频领域的快速跟进会否掀起新的"百模大战"？在这条被激活的全新赛道上，我们有机会做出自己的"现象级产品"吗？智象未来创始人兼首席执行官、加拿大工程院外籍院士梅涛日前接受本报记者专访表示，相较于大语言模型，国内外在AI文生视频领域的技术差距并没有外界想象的那么大，仍有追赶机会，而其市场前景很大，"这是一条充满希望、值得全力以赴去拼抢的赛道"。

AI视频技术路线或将涌现不同"解法"

60秒一镜到底、各种镜头随意切换、主角和背景保持了惊人的稳定性……对于Sora这些"惊艳四座"的绝技，梅涛用"领先国内一个身位，但没有突破代际差距"来评价。

参考无人驾驶汽车的评价体系，梅涛将文生视频模型在影视行业的应用分为L1-L5五个档次。他认为当前主流的文生视频企业，包括Sora在内，都处于L2水平。所谓L2，即AI具备了单镜头生成的能力。

Sora的出现让影视、广告等行业感到危机四起，但在梅涛看来，Sora想要颠覆影视业，还需要具备多镜头生成能力（L3）、讲好一个与现实逻辑相符的故事的能力（L4），以及具备视觉、音效、灯光等一体化的能力（L5）。"在L2阶段还有大量难点，比如目前它还无法生成真人的高清微表情，也无法生成多人间自然的拥抱、握手等动作，这些能否在短时间内突破还有待观察。"梅涛说。

Sora另一个为业界所谈论的点是用到了DiT（Diffusion Transformer）模型，即以Transformer为主干的扩散模型，但这并非Sora独有。梅涛表示，与大语言模型的技术路线已近趋同相比，文生视频的技术路线尚未收敛。而在视频的底层逻辑上，有多种不同的技术路线，未来很可能出现新的团队拿出不同的"解法"。

据介绍，文生视频的主流模型框架分为扩散模型和自回归模型，前者的优势在于能更好地结构化并生成较高质量画质的视频内容，后者则更适合长上下文语境理解，天然适配多模态对话的生成方式。

"从视频生成的技术架构上看，Sora并没有太大创新，但其背后团队强大的工程能力帮我们排除了一些错误选项。"梅涛说，智象未来将一边追赶、一边探索差异化的发展道路——局部可控性+超高清（4K/8K），这一点是影视行业的刚需，也是目前Sora无法做到的。眼下，智象未来团队已经完成图像DiT模型130亿参数规模的训练，预计3月底将实现视频基础模型的大幅升级。

文生视频模型的落地速度可能后来居上

梅涛告诉记者，这些天来找他的人络绎不绝，都是来谈合作的。基于底层多模态大模型"智象视觉"，一年前，智象未来对外发布文生图/视频应用产品"千象"（Pixeling），至今已积累了5万活跃用户和200多万次API（应用程序编程接口）。这从一个侧面表明，尽管文生视频模型的发布比大语言模型晚，但其落地速度可能更快。梅涛分析，这背后的原因主要有两点：一是图像视频带给人的冲击力更大，二是以Midjourney为代表的公司已经证明图像AIGC（生成式人工智能）的商业模式可行。

智象未来创始人兼首席执行官梅涛。

在文生视频领域，梅涛认为国内有机会做出自己的"现象级产品"，而实现方式就是"模型+应用"的双迭代。以智象未来为例，在模型方面，"千象"保持着每月一次的迭代频率，并将以4秒—7秒—15秒的进程倍速推进；而应用方面的迭代，主要依靠海量用户的反馈。他表示，短视频，尤其是科幻类短视频，将成为文生视频的最佳训练素材，"今年我们很可能看到一批科幻作家的短篇小说被AI搬上屏幕"。

发展最快的路径不一定是"最终答案"

"当下，大模型中的‘规模法则（Scaling law）’越来越成为行业共识。"梅涛说。所谓"规模法则"就是模型能力与模型尺寸之间的正相关性，其中三个关键参数分别是模型大小、数据量和计算能力。

既然公式已定，那么发展大模型就从一件"拼思路"的事变成一件"拼操作"的事，算法在其中起到的作用越来越小。而谁的工程技术能力越强，谁能搭建起协调性更好的架构，谁拥有的数据量越大，谁的大模型能力就越强。

因此，对于技术路线已基本收敛的大语言模型，梅涛认为可采用集中力量办大事的思路，力推一两个大语言模型。据他观察，市场已经在完成这一"收束"——经过一年的"百模大战"，国内大多数模型已转向垂类模型发展，只有几家大厂还在推进各自的大模型，这一趋势与美国一致。

对于多模态大模型，梅涛认为目前这一领域的技术路径尚未收敛，可适当保持多一点的可能性。比如，智象未来在主攻DiT的同时，仍在小规模尝试其他路径。在他看来，通往AGI（通用人工智能）的路径有很多条，尽管大语言模型目前发展得最快、最像"正确答案"，但它不一定是"最终答案"。

在如何推进我国大模型产业发展这个问题上，梅涛的答案与DiT论文的作者、纽约大学助理教授谢赛宁一致，也就是人才第一、数据第二、算力第三。"AI人才最看中什么？是平台。"梅涛说，上海应提供更多机会，吸引全球AI人才聚集，让他们相互交流碰撞，将自己的想法变成现实。

　　作者：沈湫莎

文：沈湫莎图：袁婧摄编辑：沈湫莎责任编辑：任荃

转载此文请注明出处。

文生模态大模型 sora 百模大战

上一篇：24家车企63款车型降价，汽车价格战何时休？｜钛度车库 24家车企63款车型降价，汽车价格战何时休？｜钛度车库

下一篇：别再吹AI的数学能力了，有多少实力“擂台”上见别再吹AI的数学能力了，有多少实力“擂台”上见

“百模大战”又起？被Sora激活的全新赛道，会在国内催生“现象级产品”吗 “百模大战”又起？被Sora激活的全新赛道，会在国内催生“现象级产品”吗

相关内容

热门资讯