加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 电商 > 正文

谷歌开源AI能区分声音 精确率达92%

发布时间:2018-11-14 09:07:29 所属栏目:电商 来源:网易科技报道
导读:网易科技讯11月13日动静,据VentureBeat报道,在语音嘈杂的情形中,要想判别出有几小我私人谈话、在什么时刻谈话,对付呆板来说很是坚苦。但谷歌人工智能(AI)研究部分在语音辨认方面取得了新盼望,能以92%的精确率辨认出每小我私门风音的专属模式。 谷歌AI研究部

谷歌开源AI能区分声音 精确率达92%


网易科技讯11月13日动静,据VentureBeat报道,,在语音嘈杂的情形中,要想判别出有几小我私人谈话、在什么时刻谈话,对付呆板来说很是坚苦。但谷歌人工智能(AI)研究部分在语音辨认方面取得了新盼望,能以92%的精确率辨认出每小我私门风音的专属模式。

谷歌AI研究部分在最新名为《Fully Supervised Speaker Diarization》的论文和相干博客文章中,研究职员描写了一种新的AI体系,它“能以一种更有用的方法辨认声音”。

图1:谷歌智能音箱Google Home

这套体系涉及到Speaker diarization使命,即必要标注出“谁”从“什么时辰”到“什么时辰”在措辞,将语音样天职割成奇异的、同构片断的进程。强盛的AI体系必需可以或许将新的演讲者发音与它早年从未碰着过的语音片断关联起来。

这篇论文的作者声称,焦点算法已经可在Github上的开源软件中可用,它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对付及时应用来说已经足够低了,而谷歌之前行使的要领DER为8.8%。

谷歌研究职员的新要领是通过递归神经收集(RNN)模仿演讲者的嵌入(如词汇和短语的数学暗示),递归神经收集是一种呆板进修模子,它可以操作内部状态来处理赏罚输入序列。每个演讲者都从本身的RNN实例开始,该实例不绝更新给定新嵌入的RNN状态,使体系可以或许进修讲话者共享的高级常识。

研究职员在论文中写道:“因为该体系的全部组件都可以在监视情形下进修,以是在有高质量时刻标志演讲者标签实习数据的环境下,它比无监视体系更受青睐。我们的体系受到全面监视,可以或许从带偶然刻戳的演讲者标签例子中进修。”

在将来的事变中,研究团队打算改造模子,使其可以或许集成上下文信息来执行脱机解码,他们但愿这将进一步镌汰DER。研究职员还但愿可以或许直接对声学特性举办建模,这样整个Speaker diarization体系就可以举办端到端实习。(小小)

姚立伟 本文来历:网易科技报道 责任编辑:姚立伟_NT6056

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读