OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用 OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用
admin
2024-03-30 17:35:22
0

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI雪藏的新产品——语音合成引擎Voice Engine,终于被正式揭幕。

有了它,只需15秒的语音样本,就能克隆出一个人的声音,而且还能跨越语言!

APP版ChatGPT中的语音对话功能,也正是由这项技术所驱动



效果如何?先来听段DEMO:

Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.
盐分也可以保持人体内的水分,确保其满足正常功能的需要。

【音频效果请移步公众号】

而OpenAI通告显示,他们在2022年底就已经开发出了这项技术,但出于安全考虑一直没有正式发布。

这次,OpenAI终于官宣了Voice Engine,并展示了小规模测试中的几个应用案例。

比如,一家非营利医疗机构就利用这项技术,为一名年轻的病人恢复了她的声音。



另外值得一提的是,去年爆火的视频翻译软件HeyGen,采用的语音引擎也正是Voice Engine。



那么,这次OpenAI还展现了哪些效果,下面就来一睹为快。

用AI帮助病患恢复声音

首先是利用基础的语音合成能力,为儿童等不具备文字阅读能力的群体提供阅读辅助

比如一家儿童教育技术公司,就一直在使用Voice Engine来给编写好的画外音内容配音。

DEMO中生成的大段内容,都是基于这样一段15秒的样本:

【音频效果请移步公众号】

然后,就可以合成相同音色的长段语音:

【音频效果请移步公众号】



再来看看HeyGen中用到的的语音翻译技术,原始素材是一段英语的音频:

【音频效果请移步公众号】

它被用原始的音色,翻译成了普通话、法语、德语等多种语言。

忽略译文的质量,只听声音,中文的效果是这样的:

【音频效果请移步公众号】

音色保持的还算不错,不过腔调很明显一听就是外国人在说中文。

至于这到底是个bug还是个feature,就见仁见智了(手动狗头)。



此外,一款名为Livox的残障人士辅助应用,也利用Voice Engine为不能说话的残障人士“发出声音”——

在有了Voice Engine之后,TA们可以选择专属的真人音色,而不再是机械感明显的合成音,并且在各种语言之间都能保持音色的一致性。

不只是帮助残障人士拥有自己的声音,Voice Engine还可以为因疾病导致声音发生在重大改变的人群,恢复患病之前声音,只要有以前的声音样本就能实现。

一名年轻的患者因罹患血管性脑肿瘤,失去了流利讲话的能力,说话变成了这样:

【音频效果请移步公众号】

医生从她所在学校录制的视频中提取到了她患病前的声音作为样本,在Voice Engine的帮助下为她恢复了此前的音色。

【音频效果请移步公众号】



此次发布的案例,特别是为不便人士提供帮助的场景受到了不少好评,但也有网友对这项技术的滥用表达了担忧。



安全问题需要全社会共同关注

实际上,安全问题也是OpenAI迟迟未将这项技术公之于众的主要考量。

出于安全考虑,前面案例的开发者都经过了OpenAI的严格筛选,并且需要承诺遵守使用协议。

这些开发者被要求必须明确说明声音是合成的,并且设定了黑名单以防止克隆公众人物声音。

此外,OpenAI还向合成的声音中添加了水印,以便出现问题时可以进行检测监控,同时呼吁人们采取措施共同应对这一问题:

在银行等敏感信息的安全验证措施中逐步淘汰语音验证方式探索AI时代下个人声音的保护措施教育公众理解AI的局限性,并了解其被用于欺诈的可能加速开发跟踪溯源技术,让人们能够清晰辨别出真人和AI



参考链接:
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...