1400 小时数据，Common Voice 成最大开源人类语音数据集

发布时间：2019-03-05 21:30:38 所属栏目：建站来源：h4cd

导读：Mozilla 克日宣布了其开源语音辨认数据集项目Common Voice 的最新版本，并公布其已成为当前环球最大的人类语音数据集。 Common Voice 是一个旨在建设开源语音辨认数据集的项目，于 2017 年 6 月宣布，它约请来自天下各地的志愿者通过收集和移动应用措施，

Mozilla 克日宣布了其开源语音辨认数据集项目 Common Voice 的最新版本，并公布其已成为当前环球最大的人类语音数据集。

Common Voice 是一个旨在建设开源语音辨认数据集的项目，于 2017 年 6 月宣布，它约请来自天下各地的志愿者通过收集和移动应用措施，用他们的声音记录文本片断。Mozilla 官方暗示，今朝 Common Voice 数据集包围了 18 种差异的说话，累计有高出 42000 名孝顺者录制了近 1400 小时的语音数据。

关于语音质量，Common Voice 除了语音多样性高，还可选地网络了收录者的一些详细语音信息，包罗年数、性别和口音等元数据，这可觉得实习语音引擎提供强有力的支持。

数据集下载地点：https://voice.mozilla.org/data

1400 小时数据，Common Voice 成最大开源人类语音数据集

业内广泛以为语音将成为下一个重要的技能平台，连年来跟着人工智能理论与技能的迅猛成长，语音辨认技能在不绝打破，通过语音助手如 Alexa、Google Assistant、Siri 和 Cortana，各公司将网络到的用户语音数据归为公司本身全部，这些数据的代价或者今朝很难被外界看出来，可是在信息化高度发家，出格是本日这样一个大数据和人工智能期间，为开拓呆板进修模子提供语音数据集怎么看都是一件有深远意义的事，这些语音数据的意义会逐步浮现。而最终当它们的代价逐渐展现，人们会发此刻这背后亚马逊、谷歌、苹果和微软等公司已经紧紧锁住了语音技能的命门，，主导了这场语音市场之争。

Common Voice 项目就是为了停止这样的工作而降生的，它的目标是将网络到的语音数据集开源给公家，使得任何人都可以自由行使这些数据集来将语音辨认技能智能地构建到各类应用措施和处事中。

【编辑保举】

怎样成为优越的技能主管？你要做到这三点
GitHub 中的开源收集告白杀手，异常钟快速晋升收集机能
打点 | 怎样成为优越的技能Leader？做到这三点就够了
要不要引入新技能？先思索这几个题目
史上最污技能解读，我竟然秒懂了_技能栈微信半月刊第36期

【责任编辑：张燕妮 TEL：（010）68476606】
点赞 0

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录