加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

2019深度进修语音合成指南(上)

发布时间:2019-12-21 18:43:28 所属栏目:运营 来源:站长网
导读:副问题#e# 人工天生的人类语音被称为语音合成。这种基于呆板进修的技能合用于文本到语音转换、音乐天生、语音天生、启用语音的装备、导航体系以及视障人士的可会见性。 在本文中,我们将研究行使深度进修编写和开拓的研究和模子系统布局。 但在我们开始之前
副问题[/!--empirenews.page--]

人工天生的人类语音被称为语音合成。这种基于呆板进修的技能合用于文本到语音转换、音乐天生、语音天生、启用语音的装备、导航体系以及视障人士的可会见性。

在本文中,我们将研究行使深度进修编写和开拓的研究和模子系统布局。

但在我们开始之前,有几个详细的,传统的语音合成计策,我们必要扼要概述:毗连和参数。

在串联要领中,行使来自大型数据库的语音天生新的、可听的语音。在必要差异气魄威风凛凛的语音的环境下,将行使一个新的音频声音数据库。这限定了这种要领的可伸缩性。

参数化要领行使录制的人声和具有一组参数的函数,可以修改这些参数来变动声音。

这两种要领代表了旧的语音合成要领。此刻让我们看看行使深度进修的新要领。下面是我们将先容的研究,目标是研究当前风行的语音合成要领:

  • WaveNet: 原始音频天生模子
  • Tacotron:端到端的语音合成
  • Deep Voice 1: 及时神经文本语音转换
  • Deep Voice 2: 多措辞人神经文本语音转换
  • Deep Voice 3: 带有卷积序列进修的标准文本语音转换
  • Parallel WaveNet: 快速高保真语音合成
  • 操作小样本的神经收集语音克隆
  • VoiceLoop: 通过语音轮回举办语音拟合与合成
  • 操作梅尔图谱猜测上的前提WaveNet举办天然TTS合成
WaveNet: 原始音频天生模子

文章链接: https://arxiv.org/abs/1609.03499

这篇文章的作者来自谷歌。他们提出了一种能发生原始音频波的神经收集。他们的模子是完全概率的和自回归的,在英语和汉语的text-to-speech上都取得了最先辈的功效。

2019深度进修语音合成指南(上)

WaveNET是基于PixelCNN的音频天生模子,它可以或许发生相同于人类发出的声音。

2019深度进修语音合成指南(上)

在这个天生模子中,每个音频样本都以先前的音频样本为前提。前提概率用一组卷积层来建模。这个收集没有池化层,模子的输出与输入具有沟通的时刻维数。

2019深度进修语音合成指南(上)

在模子架构中行使姑且卷积可以确保模子不会违背数据建模的次序。在该模子中,每个猜测语音样本被反馈到收集上用来辅佐猜测下一个语音样本。因为姑且卷积没有周期性毗连,因此它们比RNN实习地更快。

行使姑且卷积的首要挑衅之一是,它们必要许多层来增进感觉野。为了办理这一困难,作者行使了加宽的卷积。加宽的卷积使只有几层的收集能有更大的感觉野。模子行使了Softmax漫衍对各个音频样本的前提漫衍建模。

2019深度进修语音合成指南(上)

这个模子在多人景象的语音天生、文本到语音的转换、音乐音频建模等方面举办了评估。测试中行使的是均匀意见评分(MOS),,MOS可以评测声音的质量,本质上就是一小我私人对声音质量的评价一样。它有1到5之间的数字,个中5暗示质量最好。

2019深度进修语音合成指南(上)

下图表现了1-5级waveNet的语音质量

2019深度进修语音合成指南(上)

Tacotron: 端到端的语音合成

文章链接:https://arxiv.org/abs/1703.10135

这篇文章的作者来自谷歌。Tacotron是一种端到端的天生性文本转化语音的模子,可直接从文本和音频对合形成语音。Tacotron在美式英语上得到3.82分的均匀得分。Tacotron是在帧级天生语音,因此比样本级自回归的要领更快。

这个模子是在音频和文本对长举办的实习,因此它可以很是利便地应用到新的数据集上。Tacotron是一个seq2seq模子,该模子包罗一个编码器、一个基于留意力的解码器以及一个后端处理赏罚收集(post-processing net)。如下框架图所示,该模子输入字符,输出原始谱图。然后把这个谱图转换成波形图。

2019深度进修语音合成指南(上)

下图表现了CBHG模块的布局。它由1-D卷积滤波器,highway networks和双向GRU(Gated Recurrent Unit)构成。

2019深度进修语音合成指南(上)

将字符序列输入编码器,编码器将提取出文本的次序暗示。每个字符被暗示为一个独热向量嵌入到持续向量中。然后插手非线性调动,再然后加上一个dropout,以镌汰太过拟合。这在本质上镌汰了单词的发音错误。

模子所用的解码器是基于内容留意力的tanh解码器。然后行使Griffin-Lim算法天生波形图。该模子行使的超参数如下所示。

2019深度进修语音合成指南(上)

下图表现了与其他更换方案对比,Tacotron的机能上风。

2019深度进修语音合成指南(上)

Deep Voice 1: 及时神经文本到语音合成

文章链接:https://arxiv.org/abs/1702.07825

这篇文章的作者来自百度硅谷人工智能尝试室。Deep Voice是一个操作深度神经收集开拓的文本到语音的体系.

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读