AI智能宠物静静潜入了快手直播间连柳岩大年夜鹏都爱不释手

量子位宣布 | "大众年夜众号 QbitAI

昨天下午，柳岩和大鹏到快手总部“扫楼”，“快手星闻”全程直播。
一个吸引人的橙色小精灵，全程生动在直播页面上，它便是快手直播间的智能宠物“小快”。

直播过程中，柳岩和大鹏可以随时和小快谈天，小快还能对两位演员的新电影侃侃而谈，得到了二人的喜好。

在直播里加花样，早就不是什么新鲜事了，各种基于打算机视觉技能的殊效、AR效果，已经被直播公司们玩出了花。

AI智能宠物静静潜入了快手直播间连柳岩大年夜鹏都爱不释手

但快手这家脑洞大的公司，这次把智能宠物“小快”放进了直播间里，这样用户在开直播的同时，就能“使唤”小快完成发红包、放音乐、讲笑话、闲聊等各种功能，帮助主播和不雅观众进行互动。

就像舞台上的演员可以引导播台喊“music”一样，小快可以做主播的专属助理+音响师。

将有语音互动功能的智能宠物引入直播，这还是业内首次。

小快，特殊的语音助理

小快本身是快手的吉祥物。
在快手的直播页面中，小快默认涌如今屏幕的左侧，平时是趴在屏幕边的状态，如果你喊“小快小快”召唤它，它就会跑出来，识别你接下来的命令，这样，在直播的时候，不用伸手点就可以完成各种功能。

小快可以帮你生动直播现场的气氛，比如，你可以命令它会放音乐、讲笑话、讲故事等，乃至还会发快手平台的虚拟币“快币”红包。

也可以直接让小快找人连麦或PK，你也可以看到其他用户的小快。

而对不雅观众而言，进入直播间的时候，主播的小快会专门来欢迎你，送礼物之后也有报答，更有互动的觉得。

此外，快手还为小快开拓了养成系统，第一次开直播的用户完成三个初始任务后，你的小快就会变身为常伴你旁边的小宠物。

点击小快的图标，屏幕的下半区域就会变成小快的专区，小快会用各种姿态向你问好。

由于小快的形象用到了实时的3D渲染，因此看起来整体效果非常真实，哪怕是繁芜的动画效果，也可以顺利切换并呈现在你面前。

乃至还能选择它的性别，女生版头上会多出一朵小花花。

之后，小快进入养成状态，完成逐日任务能为小快赚取饭团，投喂之后小快可以升级，得到包含各种直播权柄的升级礼包，并解锁更多技能和形状。

开拓进程

或许你会问，开直播，为什么要加入一个语音机器人？

这要从一个过气网红提起：夸夸群。

△ 快手第二届黑客马拉松，夸夸机器人项目在进行demo演示

今年3月，各种各样的“夸夸群”溘然火了起来，你在群里分享自己的各种有趣行为，求夸，网友们就用各种姿势把你夸上天。

那么，既然能让网友来夸你，能不能干脆找个AI来变着花样夸你呢？

于是，在愚人节那天，快手内部的“以AI之名”黑客马拉松活动中，就涌现了一个“夸夸机器人”，产品团队顺势就把这个机器人延伸成为了语音机器人。

因此现在，如果你对小快说“快夸我”，它也会猖獗的夸你精良俏丽风趣诙谐……

不过，在直播中做语音助手，要比普通的手机语音助手和智能音箱更难，没有智能音箱那样专业的硬件，喧华的直播环境和有限的打算资源对手机的哀求更高。

“小快”语音机器人用到了语音唤醒、语音识别、自然措辞理解、对话管理、语音合成等技能，乍一看并不新奇，但当他们被用在手机直播这个场景下，则有更大的难度。

首先，主播须要喊“小快小快”进行语音唤醒，开直播的时候，手机常日离主播1米旁边，比手持的间隔要远，不知足传统的近场条件，且系统只能拿到单通道数据。

而且，主播利用的手机型号多种多样，麦克风拾音性能千差万别，有的主播还会利用具有声效处理功能的声卡，小快的语音唤醒必须适配这些繁芜条件。

在此同时，手机开着直播，本身就占用了不少打算资源，因此小快机器人不能占用太多的CPU资源，不然会影响直播的清晰度和流畅度。

在这些繁芜条件下，快手技能团队设计了两阶段语音唤醒系统，第一阶段采取精简模型，增加召回率，第二阶段采取繁芜模型，提高准确率。
其余，还须要在反应肃清、模型抗噪方面做了大量算法优化。

唤醒之后的语音识别环节，快手团队也碰着了难点：中英文稠浊识别。
这一点，在主播点歌的时候是常用功能，比如快手用户喜好的《野狼disco》，歌名既有中文又有英文，必须精确的识别出来，既要办理这种中英切换时的协同发音问题，又要办理中英文演习样本的不屈衡问题。

因此，快手技能团队采取了基于循环神经网络的序列建模方法，对中英双语音节进行建模。
音节的发音特色相对稳定，理论上能缓解协同发音的问题，但音节建模增加了发音单元的长度，对模型能力哀求更高。
还引入了具备下文语境的门控循环单元，有效地办理了中英稠浊识别的问题。

末了，主播下完命令之后小快要回话，就涉及到了语音合成的问题。

小快的声音很可爱，活泼而清脆，但如果直策应用业界常用的16kHz采样率，无法保留这一音色特点。
因此，快手技能团队提出了一种超宽频带神经网络声码器，对超宽频带也进行了建模。

超宽频带的频谱特色随机性强，增加了神经网络的学习难度。
并且合成同样韶光长度的音频旗子暗记，须要预测更多的采样点，这须要模型捕捉更长的序列依赖关系。

为此，快手的算法工程师对神经网络声码器进行了深度优化，在同样的合成速率条件下，合成音频具有更高的音质，小快音色通亮清脆的特点得到了较高的还原。

此外，除了措辞语音干系技能，小快作为一只3D宠物，也须要视觉上的优化。

由于直播本身就花费了手机的大量资源，同时还须要渲染3D形象，留给渲染3D形象的资源就非常有限了。

那么，如何利用有限资源，渲染出形象丰富立体、光影效果真实、动作流畅的小快呢？

快手技能团队优化了美术资源，将包含所有的动作表情、模型和贴图在内的小快数据包压缩到了2M旁边，并采取资源异步加载来提升效率。
为了减少GPU花费，减少了渲染API调用次数，优化渲染整体逻辑，利用假阴影方案更换实时阴影打算。

其余，考虑到用户机型不同，许多用户可能用的是相对低真个手机，快手技能团队针对不同机型做了性能降级适配、异步加载，不断调优性能与效果的平衡点，以达到最优效果。

小快背后的团队

此前业界更熟习快手的图像技能团队，但快手AI语音技能团队人才积累也不容小觑。

快手的语音技能早有布局，三年前就成立了语音交互、音频内容理解的技能团队，成员紧张来自清华、中科院、哈工大、西工大的语音实验室，以及微软、三星、BAT这些大厂，目前紧张技能方向包括语音识别、语音合成、音乐理解与天生、音频事宜检测等。

这样专业的人才团队做了许多业界创始的运用。

比如视频剪辑运用快影，借助快手自言的语音识别技能，它可以向所有用户供应免费的视频自动加字幕功能。

还有快手音悦台，利用算法从主播的直播过程中自动剪辑、筛选精彩的唱歌片段，制作成为歌唱精选内容，这样，音乐主播就无需手动整理素材剪辑就有现成可发布的内容，而喜好音乐的用户也有了不雅观看精彩内容的入口。

直播领域一向竞争激烈，小快的涌现，想必是对用户体验和平台粘性的进一步提升。

而在快手先行之后，语音机器人或许会是直播界的一股新风潮。

传送门

末了，小快智能宠物用到的不少技能，快手已经公开拓表，为大祖传送论文如下：

The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition

自把稳力机制的语音识别

作者：Yuanyuan zhao, Jie Li, Xiaorui Wang, Yan Li

https://ieeexplore.ieee.org/document/8682586

Gated Recurrent Unit Based Acoustic Modeling with Future Context

基于门控循环单元的声学建模

作者：Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li

https://arxiv.org/abs/1805.07024

Automatic Singing Evaluation without Reference Melody Using Bi-dense Neural Network

利用双密度神经网络的无参考旋律的自动歌唱评估

作者：Ning Zhang, Tao Jiang, Feng Deng, Yan Li

https://ieeexplore.ieee.org/document/8682665

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

每期AI知识网

AI智能宠物静静潜入了快手直播间连柳岩大年夜鹏都爱不释手

用AI无脑制作旅游攻略图文账号建议横屏不雅观看

ai制作商品图必学教程若何经由进程这3个AI生成电商场景图