详解 WaveNet
2024-08-09
2025-03-14
进度
20%
TTS
本文章介绍了基于自回归的音频生成模型 WaveNet 。
背景介绍
WaveNet 是由谷歌 DeepMind 于 2016 年提出的一类用于生成时间序列的模型[1]。 它可以直接学习到原始采样值序列的映射,因此具有很好的合成效果。 其在语音合成[1]、歌声合成[2]、语音识别[3]等领域有着广泛的应用。
WaveNet 的原理与结构
WaveNet 本质上属于自回归模型
\[ p(\mathbf{x}) = \prod_{t=1}^{T} p(x_t | x_1, \dots, x_{t-1}) \]
【解释公式:后一刻依赖于前面所有刻的数据
因果卷积与扩大因果卷积(Casual Convolution and Diliated Casual Convolution)
【CNN 的降维/用于因果相关的时间序列数据 => 因果卷积
【引入 diliation (PixelCNN) => 扩大感受野
门控激活单元(Gated Activation Unit)
\[ Z = \mathrm{tanh}(w_{f, k} * x) \cdot \sigma (w_{g, k} * x) \]
残差链接(Residual Connection)
跳跃链接(Skip Connection)
输出与模型的组装
【减小计算量 => μ-law
Fast WaveNet
[1611.09482] Fast Wavenet Generation Algorithm
引入条件(Conditional WaveNet)
代码实现
我们计划选择 Elixir 库 Axon 来实现 WaveNet。
[1]
OORD A van den, DIELEMAN S, ZEN H, 等. WaveNet:
A Generative Model for Raw Audio[Z]https://arxiv.org/abs/1609.03499.
[2]
LIU
J, LI C, REN Y, 等. Diffsinger: Singing voice synthesis via shallow
diffusion mechanism[J]. arXiv preprint arXiv:2105.02446, 2021,2.
[3]
WANG J, KIM S, LEE Y. Speech augmentation using
wavenet in speech recognition[C]//ICASSP 2019-2019 IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP).
IEEE,2019:6770–6774.
——亟待更新——