diffusion-TTS : ProDiff FastDiff
迪丽瓦拉
2025-05-28 19:16:52
0

文章目录

  • Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
  • DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs
  • FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis
    • abstract
    • intro
    • method
  • ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech
    • intro

模型RTF生成结果

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

  • 2021 ICML
  • 华为诺亚,莫斯科
  • code

DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

  • Songxiang Liu, Dan Su, Dong Yu
  • 港中文/tencent AI
  • code
  • infer interactive page

FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

  • Rongjie Huang work done in tencent AI Lab
  • demo page
  • IJCAI 2022 (2021年4月的工作)

abstract

DDPMs的模型因为迭代采样的方法,因而生成速度受限。
本为提出一种快速高质量端到端TTS生成的方法:(1)使用一系列不同感知野的time-aware location-variable conv,通过adaptive condition实现了高效的长时建模。(2) 使用noise schedule predictor,在不牺牲质量的情况下减少采样步数。
结果:在V100上实现58x实时。对unseen mel的泛化性比较好。首次工业级实时的diffusion-TTS。

intro

DDPMs方法存在的两大挑战:(1)给定optimal gradient,通过de-noise的方式生成目标,但是有可能在较多时间步以后过度降噪——对于语音上的一些气流音、声带闭合等说话特性被抹去;(2)需要数百上千的step进行生成质量优化,如果step过少,背景噪声去不干净。
DDPM的优点:可以建模多种数据分布,比如图像和时间域。

method

  • motivation
    • 问题:(1)和其他的生成模型不同,diffusion model 从带噪数据中建模,噪声的等级不同会引入更多信息变量;(2)减少迭代的时间步会明显的降低生成的质量。
    • 方案:(1) 使用time-aware location-variable conv,捕捉带噪样本的动态相关性;conv会考虑diffusion step,以及谱上的扰动,实现在反向加速过程中提高扩散模型的稳定性;(2)使用一个noise schedule predictor减少反向的时间步,

ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech

  • Rongjie Huang
  • demo page
  • ACM MM 2022 (2022年9月的工作)

intro

存在的问题:(1)之前用DDPMs(Denoising diffusion probabilistic models)做TTS生成任务需要数百步才能生成高质量音频,速度很慢。难以工业应用。(2)如果减少steps,模型收敛变差,生成质量下降。
解决方法:本文提出ProDiff,progressive(逐步)diffusion model,用于高质量音频生成。之前的方式估计the gradient for data density,本文直接预测clean data,以避免在加速采样过程中造成质量损失。另外引入知识蒸馏,降低在目标域数据分布的变化。首先通过一个N-step DDIM teacher模型预测mel-spec,然后用N/2 step训练student model。如此,可以在保证生成质量的基础上,大幅减少预测速度。
取得结果:只需要2 iterations,就可以合成SOTA质量的音频。在2080 GPU上达到24x 实时。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...