音视频大模型迭代提速，AI能否取代人类工作？语音升级ai大模型音视频开发能干到多大_热点关注

音视频大模型迭代提速，AI能否取代人类工作？语音升级ai大模型音视频开发能干到多大

admin

2024-05-10 22:08:11

0次

21世纪经济报道记者林典驰深圳报道

2024年是公认的大模型应用元年，B端和C端应用开始提速，今年二月Sora大模型发布，给大模型再添一把火，多模态进化到视频，诸如生数科技、万兴科技等多家公司推出各自的视频大模型。

数据显示，第一季度，AIGC和AI行业应用的融资额合计近200亿元，超过新能源，仅次于近年来最为热门的集成电路，AI新兴公司已经成为中国独角兽的新生力量。

人工智能正值风口，金融与资本市场大量注入，推动产业蓬勃发展。“鉴于生成式 AI能够对科技行业的硬件、软件、服务、广告和游戏等细分市场的销售起到提振作用，到 2032 年，生成式AI有望形成一个规模达1.3 万亿美元市场，在技术领域支出比例从不到 1% 扩大到 10%-12%。”长江商学院院长李海涛表示。

5月9日，2024长江独角兽峰会在深圳举行，十余位AI新生代独角兽企业创始人和投资人等共同探讨人工智能的最新发展趋势。

多位与会嘉宾认为，大模型有望颠覆原有的生产业态，伴随着音视频大模型技术的进步，革新传统视频的创作方式。

另外，诸如AI Agent（智能体）的出现，在信息快速提取、指令遵循、智能体的互动适应三个方面表现出更强的能力。

AI重塑人类社会

在可预见的未来，AI发展将衍生出全新的商业生态，而AI将以人类能力"放大器"的角色，在社会劳动场景中应用，助力人类高效完成工作。

在会上，美国国家工程院院士Joseph Sifakis教授对话长江商学院科技与运营教授孙天澍。

AI发展势必会对原有的工作带来冲击，未来或将有一批工作岗位消失。

Joseph Sifakis表示，首先是标准化工作。目前AI对劳动力市场的影响，尚不如工业革命所带来的变革彻底。

他认为，“尽管大语言模型取得显著进步，但我们目前仍处于AI发展的初期阶段，尚且无法完全取代人类智能的多面性。”

在Joseph Sifakis理论里，创新可分为“活跃创新”和“整合创新”两个不同类型。

尽管目前AI尚且无法提出全新的、颠覆性的创新想法，但在整合创新方面，可以作为辅助工具帮助人类优化流程，进行监控、预判等复杂情况的管理，构建更具竞争力的产品。

孙天澍教授在对谈中则阐述了AI的技术本质，以GPT为代表的大模型已经具备了世界认知、开放创意、产品交互、个性陪伴和技术普惠等前所未有的五大独特能力。

“随着AI发展和普及，势必会颠覆劳动力市场、教育体系、社会经济，甚至全球劳动分工，对人类行动、思维乃至社会、历史发展都会造成深远的影响。”长江商学院科技与运营教授孙天澍教授谈到。

在会上的分享环节，澜码科技创始人兼CEO周健同样认为，大模型将重塑企业，极大地释放数据要素中的生产力。

随着知识管理的构建与大模型能力的提升，AI Agent将能够承担更多专家级的任务，从而提升企业效率、创造新的业务模式。

他展示了AI Agent（智能体）在企业服务领域的应用潜力，大模型的“能力涌现”现象，可以完成以往人工智能无法完成的任务，突出表现在信息快速提取能力、指令遵循能力、智能体的互动适应能力三个方面。

多模态大模型迁移

据高通思科统计，2022年，视频流量占消费互联网总流量的82%。巨大的流量市场催生出了巨大的创作需求，数据显示，全球视频创作者规模已达到3.05亿，视频类内容触达到的用户群体则高达43亿，

而随着AI技术的爆发性增长，用户寄希望于AI视频生成功能出现，颠覆原有创作者的创作方式。

2024年，Sora横空出世“梦想照进现实”，以图文内容为主导的大模型1.0时代进入以音视频内容为核心的大模型2.0时代。在需求侧，市场对音视频创作的需求不断增长。

不过，在供给侧，能够提供高质量支持的音视频大模型仍相对不足。

万兴科技（300624.SZ）在今年4月28日宣布“天幕”音视频多媒体大模型开启公测，一键生成时长率先支持60秒+。

尽管已经开始探索，但是万兴科技董事长吴太兵坦言，多模态大模型仍面临着诸多挑战。

他谈到，如果说文本大模型只需要理解人类，那么视频大模型需要处理和还原视觉与听觉等信息，理解并构建一个接近真实的世界，这一任务的难度远超文本处理，且当前面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。

4月27日，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。

据悉，该模型采用Diffusion（扩散概率模型）与Transformer融合的架构U-ViT（由团队2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion（扩散概率模型）与Transformer融合架构，完全由团队自主研发），支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

相比于文本大模型的“百模大战”，视频大模型中万兴科技和生数科技是少数入局者。

“多模态大模型目前所处的竞争环境并不是在有限资源里的内卷，而仍是一种开放式的蓝海竞争。”生数科技联合创始人兼CEO唐家渝认为，多模态大模型的核心竞争力一方面在于能否清晰、精准、恰当地反映用户意图，一方面在于生成结果的质量和多样性。

面对激烈的市场竞争，唐家渝坦言生数科技最大的竞争对手是自己：“AGI是一场刚起步的马拉松，如何保持专注和耐心，持续高配速向前跑，无论心态还是动作上的坚持和微调都非常重要。”

生数科技一开始从图像生成入局，在由图像转向3D领域，再向短视频开拓，目前正在朝着长视频方向努力，SORA大模型的出现一定程度上加快了生数科技的研发节奏。

ai 大模型迭代提速视频生成模型

上一篇：499 元，机械师 KT84 机械键盘发布：配备 1.47 英寸全贴合屏幕机械师k599键盘多少钱机械师键盘kt68智慧屏开箱

下一篇：图灵巨头现身ICLR，顶会现场疯狂追星LeCun、Bengio！中国团队三大技术趋势引爆AGI新想象图灵集团最新消息图灵集团

音视频大模型迭代提速，AI能否取代人类工作？语音升级ai大模型音视频开发能干到多大

相关内容

热门资讯

音视频大模型迭代提速，AI能否取代人类工作？ 语音升级ai大模型 音视频开发能干到多大

相关内容

热门资讯

音视频大模型迭代提速，AI能否取代人类工作？语音升级ai大模型音视频开发能干到多大