详解 WaveNet

2024-08-09
2025-03-14
进度 20%
TTS

本文章介绍了基于自回归的音频生成模型 WaveNet 。

背景介绍

WaveNet 是由谷歌 DeepMind 于 2016 年提出的一类用于生成时间序列的模型[1]。 它可以直接学习到原始采样值序列的映射,因此具有很好的合成效果。 其在语音合成[1]、歌声合成[2]、语音识别[3]等领域有着广泛的应用。

WaveNet 的原理与结构

WaveNet 本质上属于自回归模型

\[ p(\mathbf{x}) = \prod_{t=1}^{T} p(x_t | x_1, \dots, x_{t-1}) \]

【解释公式:后一刻依赖于前面所有刻的数据

因果卷积与扩大因果卷积(Casual Convolution and Diliated Casual Convolution)

【CNN 的降维/用于因果相关的时间序列数据 => 因果卷积

【引入 diliation (PixelCNN) => 扩大感受野

门控激活单元(Gated Activation Unit)

\[ Z = \mathrm{tanh}(w_{f, k} * x) \cdot \sigma (w_{g, k} * x) \]

残差链接(Residual Connection)

跳跃链接(Skip Connection)

输出与模型的组装

【减小计算量 => μ-law

Fast WaveNet

[1611.09482] Fast Wavenet Generation Algorithm

引入条件(Conditional WaveNet)

代码实现

我们计划选择 Elixir 库 Axon 来实现 WaveNet。

[1]
OORD A van den, DIELEMAN S, ZEN H, 等. WaveNet: A Generative Model for Raw Audio[Z]https://arxiv.org/abs/1609.03499.
[2]
LIU J, LI C, REN Y, 等. Diffsinger: Singing voice synthesis via shallow diffusion mechanism[J]. arXiv preprint arXiv:2105.02446, 2021,2.
[3]
WANG J, KIM S, LEE Y. Speech augmentation using wavenet in speech recognition[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE,2019:6770–6774.
——亟待更新——