微软 AI 新技能:让你的头像照片动起来,并有感情地“谈话”
本文转自雷锋网,如需转载请至雷锋网官网申请授权。 越来越多的研究表白,只要有足够多的语料库,人类的面部举措和语音举动是可以或许同步的。两年前,卡内基·梅隆大学的研究职员曾颁发了一篇论文,论述了一种将一小我私人的面部举措转移至另一小我私人的要领。 而就在本年六月份的时辰,三星的应用科学家就先容了一种端对端的模子,可以或许将人头部特写中的眉毛、嘴巴、睫毛和面颊天生动画。仅仅几周后,Udacity 展示了一个可以从音频旁白中自动天生站立演讲视频的体系。 基于前面的研究和事变,微软研究团队在本周提出了一项技能。他们宣称,这一技能可以或许晋升传声头像动画的传神度。在此之前,头部动画的天生必要清楚,相对无噪声的音频以及中性的音调。而此刻,研究职员暗示,他们的技能可以或许将音频序列解析成语音内容和配景噪声等身分,由此可以行使有噪声和“有感情色彩”的数据样本。 雷锋网注:图片来历于 Microsoft 众所周知,语音是具有差别性的。差异的人在差异的情形下行使统一个词,其一连性、振动幅度、语调等等都各不沟通。除了语音内容方面,语音自身还承载着富厚的信息,它可以或许显现人的情感状态,身份(性别、年数、种族)和本性等。 究竟上,微软研究职员提出的技能是基于进修隐藏表现的变自编码器(雷锋网(公家号:雷锋网)按:variational autoencode,VAE)。VAE 可以或许将输入的音频解析成差异的示意情势,包罗编码内容、心情以及其余变革的身分,在输入音频的基本上,从漫衍中采样一些内容暗示序列,该序列连同输入的人脸图像一同被馈送到视频天生器举办面部动画处理赏罚。 为了实习和测试 VAE,研究职员选取了三个数据集,别离如下:
研究职员将 GRID 和 CREMA-D 的数据输入到模子中,让其辨认语音和情绪表征,然后行使一对定量指标——峰值信噪比(PSNR)和布局相似度指数(SSIM)——来评估视频天生的质量。 该研究团队暗示,就示意而言,他们的要领和其余清楚的、中性的口语表达要领在全部指标上都是一样的。而且他们留意到,这种要领不只可以或许在整个情感光谱上一连示意,还可以或许兼容全部今朝最先辈的传声头像要领。 值得一提的是,其变种特异性的可学先验要领还可以或许扩展到其余语音身分,譬喻身份和性别,这些身分可以或许作为将来事变的一部门试探。通过对噪音和情感音频样本举办测试,研究职员验证了其模子,表白了在音频变革的环境下,该要领是优于今朝已有的技能程度的。 注:本文编译自 KYLE WIGGERS 颁发于 venturebeat 上的文章。
(编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |