数字人或成未来趋势!韩冀中:数据授权等安全风险须前置治理 数字人会给人类带来危险吗 数字人危险吗
admin
2024-04-25 11:37:35
0

AI邓丽君如何翻唱周杰伦的《千里之外》?袁隆平院士的仿真语音又是如何生成?

在第13期南都数字经济治理论坛“AI复活”主题研讨现场,来自中国科学院信息工程研究所的正高级工程师韩冀中,给与会嘉宾带来了上述场景的LIVE 演示,并分享科普了其背后的AIGC技术原理及数据安全治理挑战。

从“AI孙燕姿”到“AI李玟”“AI高以翔”, 从“虚拟歌手一秒出专辑”到当下“复活逝者”的火爆业务,AIGC行业的发展可谓一日千里。在韩冀中看来,相比起生成式人工智能技术的迭代发展速度,其在商业落地应用场景的丰富速度其实更快,一些应用层出不穷。站在一位AI技术前沿研究者的角度,他直言其中隐私保护与数据安全风险亦相伴相生,需前置治理。“未来数字人必然将成为数字时代的一种趋势,更多人的数据会上网,整个行业生态发展必然要走的一条路。“而与此同时,各类大模型也有海量的高质量数据训练需求,“清洗数据的行业诱惑太大了。



在《数字人生成技术及其风险》的主旨演讲中,韩冀中总结了全球AIGC当前主要的模态技术路径:在文本方面体现为聊天机器人技术;音频方面包含了语音内容的声音克隆、音色模仿以及歌曲生成技术;图像和视频方面则是以人为主体的身份替换、说话人生成、人物定制化生成,以及聚焦于环境且基于文本指导的图像或视频生成。

“对周杰伦的音频输入,首先尽可能地去除他的音色,而保留其中的歌词、语气等信息,这部分由SoftVC模型完成。随后再使用专属于邓丽君的vits模型为其添上邓丽君的音色。” 韩冀中以语音生成领域为例,介绍称当前该领域主要包括音色迁移、声音克隆等主流技术形态。其中音色迁移主要依靠Sovits框架实现,声音克隆的主流工具则是mocking bird,“这是一款基于卷积神经网络和大规模语音的预训练模型,只要输入袁老的既往语音来提供音色,再加上一段文本,就能克隆出对应音频。”韩冀中说。

在音乐生成行业比较敏感的话题,则主要是涉及音乐版权的问题,如谷歌、微软、OPENAI等公司都避讳提及他们在相关业务领域的训练数据来源。“韩冀中介绍,当前音乐生成领域主流的工具,国外的SUNO AI 暂无开源接口,国内的则以天工SkyMusic为龙头。

而对于数字人的另一大核心场景——视觉生成,韩冀中则概述称当前路径主要依赖两大类技术:GAN主要用于深度伪造,Diffusion主要用于文生图和文生视频。不同于文字类生成模型主要基于大规模数据预训练以及人类反馈强化学习,该类文生图、文生视频技术任务则是主要使用了基于扩散模型的技术路线。而在视频类生成式业态中,最为重要级的人物生成领域,之所以能根据不同模态信息指导生成人脸或人体视频,主要是使用了包含传统的编码器解码器结构在内的生成对抗网络架构。其主流工具包含了DeepFaceLab、D-ID、InstantID、万兴播爆等。

会上韩冀中表示,在AI复活亲人的案例中,不同的执行流程对应了不同的生成式人工智能技术以及对应的工具,比如使用定制化文生图技术生成亲人头像、使用声音克隆技术复制亲人音色、使用文字生成技术生成对话内容、使用音频驱动视频生成技术来驱动亲人的头部动作等。

“对AI复活逝者的追寻是有代价的。”韩冀中坦言,对数字人来说,技术上已经可以实现将数据库内存储的人物现实生活中的语流语段等原始文本设为提示词,以便更多地控制生成的内容。而从相应的技术需求来说,"AI复活亲人”在数据层面需要收集大量逝者的面部图像和声音数据,他以包小柏提到的对女儿遗产信息的使用授权为例,“如何保障这些逝者海量的敏感隐私数据在被授权后的安全清洗,是一个极大的数安挑战。”

他强调,依照《互联网信息服务深度合成管理规定》,训练数据包含个人信息的,应当遵守个人信息保护的有关规定。AI服务提供者若在未获得数据主体(即逝者家属或法定继承人)的明确同意下收集逝者的个人数据,如声音或图像,就是侵犯了逝者的隐私权。而即便在获得授权的情况下,服务提供者对于使用逝者数据的方式仍可能超出原授权的范围,如未经授权用于模型训练,“这种行为可能对逝者家属造成严重伤害。”

任何的算法你没有数据是训练不出来的,这些高质量的数据对行业内的任何一个公司来讲都是一个特别大的诱惑。“毕竟,与普通日常的声音受限于噪点音色等问题相区别,这些要用来建模数字孪生的人物数据都将经过一定的提纯处理,质量更高,被围猎的概率更大。“而一旦未授权被流转盗用,合成的内容未明确标识,更易与真实的混淆,加剧网络虚假信息的泛滥。”韩冀中一针见血。而根据《互联网信息服务深度合成管理规定》,深度合成服务提供者所提供的深度合成服务,可能导致公众混淆的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识。

此外,韩冀中还同时提到,黑盒测试在技术上尚无法做到,因此“在一些企业不配合的情况下也很难探知它是否使用过一些无授权的隐私数据。”

采写:南都记者 吕虹

出品:南都数字经济治理研究中心

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...