加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

发布时间:2018-11-09 07:58:01 所属栏目:编程 来源:36氪
导读:原问题:快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效 李岩在演讲中暗示,多模态技能有两大应用偏向,一是会改变人机交互的方法,二是将使信息分发越发高效;视频自己就是一个多模态的题目,而快手则拥有海量的多模态数据,多模态的研
副问题[/!--empirenews.page--]

原问题:快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

李岩在演讲中暗示,多模态技能有两大应用偏向,一是会改变人机交互的方法,二是将使信息分发越发高效;视频自己就是一个多模态的题目,而快手则拥有海量的多模态数据,多模态的研究对付快手来说长短常重要的课题;今朝快手已经在语音辨认与合成、智能视频配乐、通过2D图像驱动3D建模殊效、视频精准领略等规模对多模态技能举办研发应用。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

以下为演讲的首要内容:

各人好,起首我来简朴先容一下快手,在这个平台,用户可以或许被辽阔的天下看到,也可以或许看到辽阔的天下,我们可以看一下快手的数据: 70亿条视频总量、1500万日新增视频,日均的行使时长高出60分钟等,以是快手平台上有很是多的多媒体数据,同时也有很是多的用户交互数据,好比我们天天有1.3亿用户寓目高出150亿次视频的播放数据。

我们知道视频是视觉、听觉、文本多种模态综合的信息情势,而用户的举动也是其它一种模态的数据,以是视频自己就是一个多模态的题目,再加上用户举动就更是一种越发伟大的多模态题目。以是多模态的研究对付快手来说,长短常重要的课题。

多模态技能两大应用偏向:人机交互与信息分发

我以为多模态技能会有两大首要的应用。

第一,多模态技能会改变人机交互的方法,我们与呆板交互的方法将会越来越贴近于更令人舒服、更天然的方法。

第二,多模态技能会使得信息的分发越发高效。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

多模态技能研究的三个难点:语义鸿沟、异构鸿沟、数据缺失

着实在今朝来看,多模态研究难度还长短常高的。

个中各人谈得较量多的是语义鸿沟,固然近十年来深度进修和大算力、大数据快速成长,计较机视觉包罗语音辨认等技能都取得了很是大的盼望,可是制止此刻,许多题目还没有获得出格好的办理,以是单模态的语义鸿沟如故是存在的。

再者,因为引入了多种模态的信息,以是奈何对差异模态之间的数据举办综合建模,会是一个异构鸿沟的题目。

其它,做语音、做图像是有很大都据集的,各人可以操作这些数据集举办刷分、交换本身算法的研究成就。可是多模态的数据集长短常难以构建的,以是我们在做多模态研究时是存在数据缺失的题目的。

下面我会分享我们在多模态这个方面所做的工作,以及这些技能是怎么样辅佐快手平台得到更好的用户体验和反馈的。

多模态技能怎样实现更好的记录

起首,多模态技能将实现更好的记录。跟着智妙手机的呈现,每小我私人都可以用手机上摄像头去记录周围的天下,用麦克风去存储周围的音频信息;而在早年,天生视频,尤其天生一些较量专业的视频,都是导演干的工作。但此刻,我们通过手机就可以或许做到,这内里会有很是多的多模态技能研究来帮助人们更好地记录。

我们但愿整个记录进程是越发便捷、本性化、风趣,同时也是普惠的,详细我将别离通过四个案例分享。

1、语音转笔墨打造便捷字幕天生体验

一个视频里,音频部门对付整个视频的信息转达长短常重要的。网上有许多带有大量字幕的、以报告为主的视频,这样的视频建造着实是一件很贫困的工作,由于一个一个去输入笔墨是很疾苦的,像已往在广电体系专业事变室就必要许多用于字幕编辑的器材软件。而假如我们通过语音辨认技能,把语音直接转成笔墨,就可以很轻松地通过手机编辑天生一个带字幕视频。

2、语音合成实现本性化配音

其它一个技能叫做本性化配音,若是在一个视频中,你不喜好听男性配音,而但愿听到由一位密斯配音,我们就可以通过语音合成技能满意本性化的诉求。

语音辨认及合成技能城市使我们记录的进程变得越发便捷、风趣,但这两个技能在做视觉可能多媒体的圈子内里存眷度不是出格高,只是无意会在做语音的圈子里去聊这些题目。包罗在语音圈子内里,语音辨认和合成此刻每每是两波人在做。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

跟着深度进修技能的呈现,语音辨认和合成这两个题目着实在某种水平上长短常对称的,由于语音辨认是从语音到笔墨,语音合成是从笔墨到语音。语音识此外时辰,我们提取一些声学的特性,颠末编码器可能Attention的机制,实现从语音到笔墨的转化;语音合成的技能和算法,着实也涉及编码器可能Attention的机制,二者形成了较量对称的收集。以是我们把语音辨认和合成当作是一个模态转换的特例,从神经收集建模角度来看,是一个较量同等、轻易办理的题目。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

详细神经收集在计划的时辰,固然二者内容机制其拭魅照旧有一些差异,但更大的趋势是这内里未来会有更多的趋同,由于我们知道跟着相干算法的成长,计较必然是朝着一个越发简化,越发同一的偏向成长。就像深度进修的呈现,着实就是通过计较的方法代替了手工来获取有用的特性。多模态的转换规模内里也呈现了这样的特点,这是一件很是故意思的工作。

3、按照视频内容自动天生音乐

音乐也是短视频很是重要的一部门,有录视频履历的同窗可以感觉到,为一个场景共同适的音乐是一个很难的工作。已往,有不罕用户为了与音乐节奏同等,全力共同音乐节拍拍摄,极大限定了拍摄的自由度。我们但愿用户可以随意凭证本身想要的节拍录制,以是让呆板通过用户拍摄的视频内容,自动天生切合视频节拍的音乐,这样视频画面与音乐节拍就会更匹配、更同等。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

音乐天生涉及许多详细的技能,我们也做了很是多的研究,个中一个题目是懂音乐的不懂计较机科学,懂计较机科学的人不懂音乐。想要把短视频配乐这个题目研究好,必要要有做音乐和做AI的人一路集成创新,这方面我们也做了很是多的事变。

4、2D图像驱动3D建模实现Animoji结果

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读