快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效

发布时间：2018-11-09 07:58:01 所属栏目：编程来源：36氪

导读：原问题：快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效李岩在演讲中暗示，多模态技能有两大应用偏向，一是会改变人机交互的方法，二是将使信息分发越发高效；视频自己就是一个多模态的题目，而快手则拥有海量的多模态数据，多模态的研

副问题[/!--empirenews.page--]

原问题：快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效

李岩在演讲中暗示，多模态技能有两大应用偏向，一是会改变人机交互的方法，二是将使信息分发越发高效；视频自己就是一个多模态的题目，而快手则拥有海量的多模态数据，多模态的研究对付快手来说长短常重要的课题；今朝快手已经在语音辨认与合成、智能视频配乐、通过2D图像驱动3D建模殊效、视频精准领略等规模对多模态技能举办研发应用。

快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效

以下为演讲的首要内容：

各人好，起首我来简朴先容一下快手，在这个平台，用户可以或许被辽阔的天下看到，也可以或许看到辽阔的天下，我们可以看一下快手的数据： 70亿条视频总量、1500万日新增视频，日均的行使时长高出60分钟等，以是快手平台上有很是多的多媒体数据，同时也有很是多的用户交互数据，好比我们天天有1.3亿用户寓目高出150亿次视频的播放数据。

我们知道视频是视觉、听觉、文本多种模态综合的信息情势，而用户的举动也是其它一种模态的数据，以是视频自己就是一个多模态的题目，再加上用户举动就更是一种越发伟大的多模态题目。以是多模态的研究对付快手来说，长短常重要的课题。

多模态技能两大应用偏向：人机交互与信息分发

我以为多模态技能会有两大首要的应用。

第一，多模态技能会改变人机交互的方法，我们与呆板交互的方法将会越来越贴近于更令人舒服、更天然的方法。

第二，多模态技能会使得信息的分发越发高效。

快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效

多模态技能研究的三个难点：语义鸿沟、异构鸿沟、数据缺失

着实在今朝来看，多模态研究难度还长短常高的。

个中各人谈得较量多的是语义鸿沟，固然近十年来深度进修和大算力、大数据快速成长，计较机视觉包罗语音辨认等技能都取得了很是大的盼望，可是制止此刻，许多题目还没有获得出格好的办理，以是单模态的语义鸿沟如故是存在的。

再者，因为引入了多种模态的信息，以是奈何对差异模态之间的数据举办综合建模，会是一个异构鸿沟的题目。

其它，做语音、做图像是有很大都据集的，各人可以操作这些数据集举办刷分、交换本身算法的研究成就。可是多模态的数据集长短常难以构建的，以是我们在做多模态研究时是存在数据缺失的题目的。

下面我会分享我们在多模态这个方面所做的工作，以及这些技能是怎么样辅佐快手平台得到更好的用户体验和反馈的。

多模态技能怎样实现更好的记录

起首，多模态技能将实现更好的记录。跟着智妙手机的呈现，每小我私人都可以用手机上摄像头去记录周围的天下，用麦克风去存储周围的音频信息；而在早年，天生视频，尤其天生一些较量专业的视频，都是导演干的工作。但此刻，我们通过手机就可以或许做到，这内里会有很是多的多模态技能研究来帮助人们更好地记录。

我们但愿整个记录进程是越发便捷、本性化、风趣，同时也是普惠的，详细我将别离通过四个案例分享。

1、语音转笔墨打造便捷字幕天生体验

一个视频里，音频部门对付整个视频的信息转达长短常重要的。网上有许多带有大量字幕的、以报告为主的视频，这样的视频建造着实是一件很贫困的工作，由于一个一个去输入笔墨是很疾苦的，像已往在广电体系专业事变室就必要许多用于字幕编辑的器材软件。而假如我们通过语音辨认技能，把语音直接转成笔墨，就可以很轻松地通过手机编辑天生一个带字幕视频。

2、语音合成实现本性化配音

其它一个技能叫做本性化配音，若是在一个视频中，你不喜好听男性配音，而但愿听到由一位密斯配音，我们就可以通过语音合成技能满意本性化的诉求。

语音辨认及合成技能城市使我们记录的进程变得越发便捷、风趣，但这两个技能在做视觉可能多媒体的圈子内里存眷度不是出格高，只是无意会在做语音的圈子里去聊这些题目。包罗在语音圈子内里，语音辨认和合成此刻每每是两波人在做。

快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效

跟着深度进修技能的呈现，语音辨认和合成这两个题目着实在某种水平上长短常对称的，由于语音辨认是从语音到笔墨，语音合成是从笔墨到语音。语音识此外时辰，我们提取一些声学的特性，颠末编码器可能Attention的机制，实现从语音到笔墨的转化；语音合成的技能和算法，着实也涉及编码器可能Attention的机制，二者形成了较量对称的收集。以是我们把语音辨认和合成当作是一个模态转换的特例，从神经收集建模角度来看，是一个较量同等、轻易办理的题目。

快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效

详细神经收集在计划的时辰，固然二者内容机制其拭魅照旧有一些差异，但更大的趋势是这内里未来会有更多的趋同，由于我们知道跟着相干算法的成长，计较必然是朝着一个越发简化，越发同一的偏向成长。就像深度进修的呈现，着实就是通过计较的方法代替了手工来获取有用的特性。多模态的转换规模内里也呈现了这样的特点，这是一件很是故意思的工作。

3、按照视频内容自动天生音乐

音乐也是短视频很是重要的一部门，有录视频履历的同窗可以感觉到，为一个场景共同适的音乐是一个很难的工作。已往，有不罕用户为了与音乐节奏同等，全力共同音乐节拍拍摄，极大限定了拍摄的自由度。我们但愿用户可以随意凭证本身想要的节拍录制，以是让呆板通过用户拍摄的视频内容，自动天生切合视频节拍的音乐，这样视频画面与音乐节拍就会更匹配、更同等。

快手科技李岩：多模态技能会改变人机交互方法，会使信息分发更高效

音乐天生涉及许多详细的技能，我们也做了很是多的研究，个中一个题目是懂音乐的不懂计较机科学，懂计较机科学的人不懂音乐。想要把短视频配乐这个题目研究好，必要要有做音乐和做AI的人一路集成创新，这方面我们也做了很是多的事变。

4、2D图像驱动3D建模实现Animoji结果

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/4

尾页

MYSQL_框架之主从GTID	MySQL Online DDL的实
MySQL 5.7 mysqldumps	MySQL TEXT、DATE、SE