2019深度学习语音合成指南（下）

发布时间：2019-12-23 23:05:19 所属栏目：运营来源：站长网

导读：副问题#e# 前文回首：2019深度进修语音合成指南（上） Deep Voice 3: 操作卷积序列进修将文本转换为语音文章链接：https://arxiv.org/abs/1710.07654 作者提出了一种全卷积字符到谱图的框架，可以实现完全并行计较。该框架是基于留意力的序列到序列模子。

副问题[/!--empirenews.page--]

前文回首：2019深度进修语音合成指南（上）

Deep Voice 3: 操作卷积序列进修将文本转换为语音

文章链接：https://arxiv.org/abs/1710.07654

作者提出了一种全卷积字符到谱图的框架，可以实现完全并行计较。该框架是基于留意力的序列到序列模子。这个模子在LibriSpeech ASR数据集长举办实习。

这个模子的布局可以或许将字符、音素、重音等文本特性转换成差异的声码器参数，个中包罗Mel波段光谱图、线性比例对数幅度谱图、基频谱图、谱包络图和非周期性参数。然后将这些声码器参数作为音频波形合成模子的输入。

2019深度进修语音合成指南（下）

模子的布局由以下几个部门构成：

编码器：一种全卷积编码器，可将文本特性转换为内部进修暗示。
解码器：一种全卷积因果解码器，以自回归的方法解码进修暗示。
转换器：一种全卷积后处理赏罚收集，可猜测最终的声码器参数。

对付文本预处理赏罚，作者的处理赏罚方法包罗：大写文本输入字符，删除标点标记，以句号或问号竣事每句话，并用暗示搁浅长度的非凡字符替代空格。

下图是该模子与其他更换模子的机能较量。

2019深度进修语音合成指南（下）

Parallel WaveNet: 快速高保真语音合成

文章链接：https://arxiv.org/abs/1711.10433

这篇文章的作者来自谷歌。他们引入了一种叫做概率密度蒸馏的要领，它从一个实习过的WaveNet中实习一个并行前馈收集。该要领是通过团结逆自回归流(IAFS)和波形网(WaveNet)的最佳特性构建的。这些特性代表了WaveNet的有用实习和IAF收集的有用采样。

为了举办有用实习，作者行使一个已经实习过的WaveNet作为“先生”，并行WaveNet‘门生’向其进修。目标是为了让门生从先生哪里学到的漫衍中匹配本身样本的概率。

2019深度进修语音合成指南（下）

作者还提出了特另外丧失函数，以指导门生天生高质量的音频流：

功率丧失函数：确保行使语音差异频带的功率，就像人在措辞一样。
感知丧失函数：针对这种丧失函数，作者实行了特性重构丧失函数(分类器中特性图之间的欧氏间隔)友善势威风凛凛丧失函数(Gram矩阵之间的欧氏间隔)。他们发明气魄威风凛凛丧失函数会发生更好的结果。
无论前提向量怎样，比拟度丧失会处罚有高也许性的波形。

下图表现了这个模子的机能：

2019深度进修语音合成指南（下）