快手的AI宠物：小快语音助手

发布时间：2019-11-11 05:42:21 所属栏目：创业来源：量子位（www.qbitai.com）

导读：副问题#e# 昨全国午，柳岩和大鹏到快手总部扫楼，快手星闻全程直播。一个吸引人的橙色小精灵，全程活泼在直播页面上，它就是快手直播间的智能宠物小快。直播进程中，柳岩和大鹏可以随时和小快谈天，小快还能对两位演员的新影戏侃侃而谈，得到了二人的喜欢

副问题[/!--empirenews.page--]

昨全国午，柳岩和大鹏到快手总部“扫楼”，“快手星闻”全程直播。一个吸引人的橙色小精灵，全程活泼在直播页面上，它就是快手直播间的智能宠物“小快”。

直播进程中，柳岩和大鹏可以随时和小快谈天，小快还能对两位演员的新影戏侃侃而谈，得到了二人的喜欢。

在直播里加格式，早就不是什么奇怪事了，种种基于计较机视觉技能的殊效、AR结果，已经被直播公司们玩出了花。

但快手这家脑洞大的公司，这次把智能宠物“小快”放进了直播间里，这样用户在开直播的同时，就能“使唤”小快完成发红包、放音乐、讲笑话、闲聊等各类成果，辅佐主播和观众举办互动。

就像舞台上的演员可以领导播台喊“music”一样，小快可以做主播的专属助理+音响师。

将有语音互动成果的智能宠物引入直播，这照旧业内初次。

小快，出格的语音助理

3d89d27615ea48f48fbc438ee844d19d

小快自己是快手的吉利物。在快手的直播页面中，小快默认呈此刻屏幕的左侧，平常是趴在屏幕边的状态，假如你喊“小快小快”呼叫它，它就会跑出来，辨认你接下来的呼吁，这样，在直播的时辰，不消伸手点就可以完成各类成果。

小快可以帮你活泼直播现场的空气，好比，你可以呼吁它会放音乐、讲笑话、讲故事等，乃至还会发快手平台的假造币“快币”红包。

也可以直接让小快找人连麦或PK，你也可以看到其他用户的小快。

而对观众而言，进入直播间的时辰，主播的小快会专门来接待你，送礼品之后也有报答，更有互动的感受。

另外，快手还为小快开拓了养成体系，第一次开直播的用户完成三个初始使命后，你的小快就会变身为常伴你阁下的小宠物。

点击小快的图标，屏幕的下半地区就会酿成小快的专区，小快会用各类姿态向你问好。

由于小快的形象用到了及时的3D渲染，因此看起来整体结果很是真实，哪怕是伟大的动画结果，也可以顺遂切换并出此刻你面前。

乃至还能选择它的性别，女生版头上会多出一朵小花花。

之后，小快进入养成状态，完成逐日使命能为小快赚取饭团，投喂之后小快可以进级，得到包括各类直播权益的进级礼包，并解锁更多手艺和形状。

开拓过程

或者你会问，开直播，为什么要插手一个语音呆板人？

这要从一个过气网红提起：夸夸群。

本年3月，各类百般的“夸夸群”溘然火了起来，你在群里分享本身的各类风趣举动，求夸，网友们就用各类姿势把你夸上天。

那么，既然能让网友来夸你，能不能爽性找个AI来变着格式夸你呢？

于是，在愚人节那天，快手内部的“以AI之名”黑客马拉松勾当中，就呈现了一个“夸夸呆板人”，产物团队顺势就把这个呆板人延长成为了语音呆板人。

因此此刻，假如你对小快说“快夸我”，它也会猖獗的夸你优越瑰丽滑稽诙谐……

不外，在直播中做语音助手，要比平凡的手机语音助手和智能音箱更难，没有智能音箱那样专业的硬件，嘈杂的直播情形和有限的计较资源敌手机的要求更高。

“小快”语音呆板人用到了语音叫醒、语音辨认、天然说话领略、对话打点、语音合成等技能，乍一看并不新颖，但当他们被用在手机直播这个场景下，则有更大的难度。

起首，主播必要喊“小快小快”举办语音叫醒，开直播的时辰，手机凡是离主播1米阁下，比手持的间隔要远，不满意传统的近场前提，且体系只能拿到单通道数据。

并且，主播行使的手机型号多种多样，麦克风拾音机能千差万别，有的主播还会利器具有声效处理赏罚成果的声卡，小快的语音叫醒必需适配这些伟大前提。

在此同时，手机开着直播，自己就占用了不少计较资源，因此小快呆板人不能占用太多的CPU资源，否则会影响直播的清楚度和流通度。

在这些伟大前提下，快手技能团队计划了两阶段语音叫醒体系，第一阶段回收精简模子，增进召回率，第二阶段回收伟大模子，进步精确率。其它，还必要在反映消除、模子抗噪方面做了大量算法优化。

叫醒之后的语音辨认环节，快手团队也碰着了难点：中英文殽杂辨认。这一点，在主播点歌的时辰是常用成果，好比快手用户喜好的《野狼disco》，歌名既有中文又有英文，必需准确的辨认出来，既要办理这种中英切换时的协同发音题目，又要办理中英文实习样本的不平衡题目。

因此，快手技能团队回收了基于轮回神经收集的序列建模要领，对中英双语音节举办建模。音节的发音特性相对不变，理论上能缓解协同发音的题目，但音节建模增进了发音单位的长度，对模子手段要求更高。还引入了具备下文语境的门控轮回单位，有用地办理了中英殽杂识此外题目。

最后，主播下完呼吁之后小将近回话，就涉及到了语音合成的题目。

小快的声音很可爱，生动而响亮，但假如直接行使业界常用的16kHz采样率，无法保存这一音色特点。因此，快手技能团队提出了一种超宽频带神经收集声码器，对超宽频带也举办了建模。

超宽频带的频谱特性随机性强，增进了神经收集的进修难度。而且合成同样时刻长度的音频信号，必要猜测更多的采样点，这必要模子捕获更长的序列依靠相关。

为此，快手的算法工程师对神经收集声码器举办了深度优化，在同样的合成速率前提下，合成音频具有更高的音质，小快音色豁亮响亮的特点获得了较高的还原。

另外，除了说话语音相干技能，小快作为一只3D宠物，也必要视觉上的优化。

由于直播自己就耗损了手机的大量资源，同时还必要渲染3D形象，留给渲染3D形象的资源就很是有限了。

那么，怎样操作有限资源，渲染出形象富厚立体、光影结果然实、举措流通的小快呢？

快手技能团队优化了美术资源，将包括全部的举措心情、模子和贴图在内的小快数据包压缩到了2M阁下，并回收资源异步加载来晋升服从。为了镌汰GPU耗损，镌汰了渲染API挪用次数，优化渲染整体逻辑，行使假阴影方案替代及时阴影计较。

其它，思量到用户机型差异，很多用户也许用的是相对低端的手机，快手技能团队针对差异机型做了机能降级适配、异步加载，不绝调优机能与结果的均衡点，以到达最优结果。

小快背后的团队

此前业界更认识快手的图像技能团队，但快手AI语音技能团队人才蕴蓄也不容小觑。

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

首富马斯克谈成功？他	从先行者到制定者，轻
中国互联网的新一轮机	马斯克想辞职做专业网