音视频大模型迭代提速,AI能否取代人类工作? 语音升级ai大模型 音视频开发能干到多大
admin
2024-05-10 22:08:11
0

21世纪经济报道记者 林典驰 深圳报道

2024年是公认的大模型应用元年,B端和C端应用开始提速,今年二月Sora大模型发布,给大模型再添一把火,多模态进化到视频,诸如生数科技、万兴科技等多家公司推出各自的视频大模型。

数据显示,第一季度,AIGC和AI行业应用的融资额合计近200亿元,超过新能源,仅次于近年来最为热门的集成电路,AI新兴公司已经成为中国独角兽的新生力量。

人工智能正值风口,金融与资本市场大量注入,推动产业蓬勃发展。“鉴于生成式 AI能够对科技行业的硬件、软件、服务、广告和游戏等细分市场的销售起到提振作用,到 2032 年,生成式AI有望形成一个规模达1.3 万亿美元市场,在技术领域支出比例从不到 1% 扩大到 10%-12%。”长江商学院院长李海涛表示。

5月9日,2024长江独角兽峰会在深圳举行,十余位AI新生代独角兽企业创始人和投资人等共同探讨人工智能的最新发展趋势。

多位与会嘉宾认为,大模型有望颠覆原有的生产业态,伴随着音视频大模型技术的进步,革新传统视频的创作方式。

另外,诸如AI Agent(智能体)的出现,在信息快速提取、指令遵循、智能体的互动适应三个方面表现出更强的能力。

AI重塑人类社会

在可预见的未来,AI发展将衍生出全新的商业生态,而AI将以人类能力"放大器"的角色,在社会劳动场景中应用,助力人类高效完成工作。

在会上,美国国家工程院院士Joseph Sifakis教授对话长江商学院科技与运营教授孙天澍。

AI发展势必会对原有的工作带来冲击,未来或将有一批工作岗位消失。

Joseph Sifakis表示,首先是标准化工作。目前AI对劳动力市场的影响,尚不如工业革命所带来的变革彻底。

他认为,“尽管大语言模型取得显著进步,但我们目前仍处于AI发展的初期阶段,尚且无法完全取代人类智能的多面性。”

在Joseph Sifakis理论里,创新可分为“活跃创新”和“整合创新”两个不同类型。

尽管目前AI尚且无法提出全新的、颠覆性的创新想法,但在整合创新方面,可以作为辅助工具帮助人类优化流程,进行监控、预判等复杂情况的管理,构建更具竞争力的产品。

孙天澍教授在对谈中则阐述了AI的技术本质,以GPT为代表的大模型已经具备了世界认知、开放创意、产品交互、个性陪伴和技术普惠等前所未有的五大独特能力。

“随着AI发展和普及,势必会颠覆劳动力市场、教育体系、社会经济,甚至全球劳动分工,对人类行动、思维乃至社会、历史发展都会造成深远的影响。”长江商学院科技与运营教授孙天澍教授谈到。

在会上的分享环节,澜码科技创始人兼CEO周健同样认为,大模型将重塑企业,极大地释放数据要素中的生产力。

随着知识管理的构建与大模型能力的提升,AI Agent将能够承担更多专家级的任务,从而提升企业效率、创造新的业务模式。

他展示了AI Agent(智能体)在企业服务领域的应用潜力,大模型的“能力涌现”现象,可以完成以往人工智能无法完成的任务,突出表现在信息快速提取能力、指令遵循能力、智能体的互动适应能力三个方面。

多模态大模型迁移

据高通思科统计,2022年,视频流量占消费互联网总流量的82%。巨大的流量市场催生出了巨大的创作需求,数据显示,全球视频创作者规模已达到3.05亿,视频类内容触达到的用户群体则高达43亿,

而随着AI技术的爆发性增长,用户寄希望于AI视频生成功能出现,颠覆原有创作者的创作方式。

2024年,Sora横空出世“梦想照进现实”,以图文内容为主导的大模型1.0时代进入以音视频内容为核心的大模型2.0时代。在需求侧,市场对音视频创作的需求不断增长。

不过,在供给侧,能够提供高质量支持的音视频大模型仍相对不足。

万兴科技(300624.SZ)在今年4月28日宣布“天幕”音视频多媒体大模型开启公测,一键生成时长率先支持60秒+。

尽管已经开始探索,但是万兴科技董事长吴太兵坦言,多模态大模型仍面临着诸多挑战。

他谈到,如果说文本大模型只需要理解人类,那么视频大模型需要处理和还原视觉与听觉等信息,理解并构建一个接近真实的世界,这一任务的难度远超文本处理,且当前面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。

4月27日,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。

据悉,该模型采用Diffusion(扩散概率模型)与Transformer融合的架构U-ViT(由团队2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion(扩散概率模型)与Transformer融合架构,完全由团队自主研发),支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

相比于文本大模型的“百模大战”,视频大模型中万兴科技和生数科技是少数入局者。

“多模态大模型目前所处的竞争环境并不是在有限资源里的内卷,而仍是一种开放式的蓝海竞争。”生数科技联合创始人兼CEO唐家渝认为,多模态大模型的核心竞争力一方面在于能否清晰、精准、恰当地反映用户意图,一方面在于生成结果的质量和多样性。

面对激烈的市场竞争,唐家渝坦言生数科技最大的竞争对手是自己:“AGI是一场刚起步的马拉松,如何保持专注和耐心,持续高配速向前跑,无论心态还是动作上的坚持和微调都非常重要。”

生数科技一开始从图像生成入局,在由图像转向3D领域,再向短视频开拓,目前正在朝着长视频方向努力,SORA大模型的出现一定程度上加快了生数科技的研发节奏。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...