加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

2019深度学习语音合成指南(下)

发布时间:2019-12-23 23:05:19 所属栏目:运营 来源:站长网
导读:副问题#e# 前文回首:2019深度进修语音合成指南(上) Deep Voice 3: 操作卷积序列进修将文本转换为语音 文章链接:https://arxiv.org/abs/1710.07654 作者提出了一种全卷积字符到谱图的框架,可以实现完全并行计较。该框架是基于留意力的序列到序列模子。
副问题[/!--empirenews.page--]

前文回首:2019深度进修语音合成指南(上)

Deep Voice 3: 操作卷积序列进修将文本转换为语音

文章链接:https://arxiv.org/abs/1710.07654

作者提出了一种全卷积字符到谱图的框架,可以实现完全并行计较。该框架是基于留意力的序列到序列模子。这个模子在LibriSpeech ASR数据集长举办实习。

这个模子的布局可以或许将字符、音素、重音等文本特性转换成差异的声码器参数,个中包罗Mel波段光谱图、线性比例对数幅度谱图、基频谱图、谱包络图和非周期性参数。然后将这些声码器参数作为音频波形合成模子的输入。

2019深度进修语音合成指南(下)

模子的布局由以下几个部门构成:

  • 编码器:一种全卷积编码器,可将文本特性转换为内部进修暗示。
  • 解码器:一种全卷积因果解码器,以自回归的方法解码进修暗示。
  • 转换器:一种全卷积后处理赏罚收集,可猜测最终的声码器参数。

对付文本预处理赏罚,作者的处理赏罚方法包罗:大写文本输入字符,删除标点标记,以句号或问号竣事每句话,并用暗示搁浅长度的非凡字符替代空格。

下图是该模子与其他更换模子的机能较量。

2019深度进修语音合成指南(下)

Parallel WaveNet: 快速高保真语音合成

文章链接:https://arxiv.org/abs/1711.10433

这篇文章的作者来自谷歌。他们引入了一种叫做概率密度蒸馏的要领,它从一个实习过的WaveNet中实习一个并行前馈收集。该要领是通过团结逆自回归流(IAFS)和波形网(WaveNet)的最佳特性构建的。这些特性代表了WaveNet的有用实习和IAF收集的有用采样。

为了举办有用实习,作者行使一个已经实习过的WaveNet作为“先生”,并行WaveNet‘门生’向其进修。目标是为了让门生从先生哪里学到的漫衍中匹配本身样本的概率。

2019深度进修语音合成指南(下)

作者还提出了特另外丧失函数,以指导门生天生高质量的音频流:

  • 功率丧失函数:确保行使语音差异频带的功率,就像人在措辞一样。
  • 感知丧失函数:针对这种丧失函数,作者实行了特性重构丧失函数(分类器中特性图之间的欧氏间隔)友善势威风凛凛丧失函数(Gram矩阵之间的欧氏间隔)。他们发明气魄威风凛凛丧失函数会发生更好的结果。
  • 无论前提向量怎样,比拟度丧失会处罚有高也许性的波形。

下图表现了这个模子的机能:

2019深度进修语音合成指南(下)

2019深度进修语音合成指南(下)

操作小样本的神经收集语音克隆

文章链接:https://arxiv.org/abs/1802.06006v3

这篇文章的作者来自百度研究院。他们引入了一个神经语音克隆体系,它可以通过进修从少量音频样本合成一小我私人的声音。

体系行使的两种要领是措辞人自顺应和措辞人编码。措辞人自顺应是通过对多个措辞人的声音天生模子举办微调来实现的,而措辞人编码则是通过实习一个单独的模子来直接揣度一个新的嵌入到多个措辞人语音天生模子。

本文回收Deep Voice 3作为多措辞人模子的基线。所谓声音克隆,即提取一个措辞人的声音特性,并按照这些特性来天生给定的文本所对应的音频。

天生音频的机能指标抉择于语音的天然度和措辞人声音的相似度。作者提出了一种措辞人编码要领,该要领可以或许从不曾见过的措辞人音频样本中猜测措辞人声音嵌入。

2019深度进修语音合成指南(下)

下面是声音克隆的机能:

2019深度进修语音合成指南(下)

2019深度进修语音合成指南(下)

VoiceLoop: 通过语音轮回举办语音拟合与合成

文章链接:https://arxiv.org/abs/1707.06588

这篇文章的作者来自Facebook AI研究院。他们引入了一种神经文本到语音(TTS)技能,可以将文本从田野收罗的声音转换为语音。

VoiceLoop的灵感来历于一种称为语音轮回的事变影象模子,它能在短时刻内生涯说话信息。它由两部门构成,其一是一个不绝被替代的语音存储(phonological store),其二是一个在语音存储中保持恒久表达(longer-term representations)的预演进程。

Voiceloop将移动缓冲区视作矩阵,从而来结构语音存储。句子暗示为音素列表。然后从每个音素解码一个短向量。通过对音素的编码举办加权并在每个时刻点对它们求和来天生当前的上下文向量。

使VoiceLoop脱颖而出的一些属性包罗:行使内存缓冲区而不是传统的RNN,全部历程之间的内存共享,以及行使浅层、全毗连的收集举办全部计较。

2019深度进修语音合成指南(下)

下图表现了模子与其他更换方案对比的机能示意

2019深度进修语音合成指南(下)

2019深度进修语音合成指南(下)

操作梅尔图谱猜测上的前提WaveNet举办天然TTS合成

文章链接:https://arxiv.org/abs/1712.05884

作者来自谷歌和加州大学伯克利分校。他们引入了Tacotron 2,这是一种用于文本语音合成的神经收集架构。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读