详解 WaveNet - 自留地

背景介绍
WaveNet 的原理与结构
代码实现

本文章介绍了基于自回归的音频生成模型 WaveNet 。

背景介绍

WaveNet 是由谷歌 DeepMind 于 2016 年提出的一类用于生成时间序列的模型^[1]。它可以直接学习到原始采样值序列的映射，因此具有很好的合成效果。其在语音合成^[1]、歌声合成^[2]、语音识别^[3]等领域有着广泛的应用。

WaveNet 的原理与结构

WaveNet 本质上属于自回归模型

\[ p(\mathbf{x}) = \prod_{t=1}^{T} p(x_t | x_1, \dots, x_{t-1}) \]

【解释公式：后一刻依赖于前面所有刻的数据

因果卷积与扩大因果卷积（Casual Convolution and Diliated Casual Convolution）

【CNN 的降维/用于因果相关的时间序列数据 => 因果卷积

【引入 diliation （PixelCNN） => 扩大感受野

门控激活单元（Gated Activation Unit）

\[ Z = \mathrm{tanh}(w_{f, k} * x) \cdot \sigma (w_{g, k} * x) \]

残差链接（Residual Connection）

跳跃链接（Skip Connection）

输出与模型的组装

【减小计算量 => μ-law

Fast WaveNet

[1611.09482] Fast Wavenet Generation Algorithm

引入条件（Conditional WaveNet）

代码实现

我们计划选择 Elixir 库 Axon 来实现 WaveNet。

[1]

OORD A van den, DIELEMAN S, ZEN H, 等. WaveNet: A Generative Model for Raw Audio[Z]https://arxiv.org/abs/1609.03499.

[2]

LIU J, LI C, REN Y, 等. Diffsinger: Singing voice synthesis via shallow diffusion mechanism[J]. arXiv preprint arXiv:2105.02446, 2021,2.

[3]

WANG J, KIM S, LEE Y. Speech augmentation using wavenet in speech recognition[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE,2019:6770–6774.

——亟待更新——