择要:在云栖社区主理的云栖打算之旅第5期–大数据与人工智能分享中,阿里云数加资深前端工程师昊祯为大家揭秘了阿里云人工智能ET背后的技能。
本文根据演讲视频整理而成。
前一段韶光阿里云ET在阿里园区举办过一个活动,便是在春节之前为阿里巴巴的员工写春联。之前春节之前都是约请书法专家为阿里员工写春联,而这次就借助了阿里云人工智能将写春联活动自动化实现了。
接下来分享一下阿里云人工智能ET到底是什么样的东西,一起来看一看阿里云ET究竟有哪些能力。
ET能力一:学马总说话&唱歌
ET可以学会马总说话,当然也可以学会胡晓明说话。实在这后面存在很多云语音库,就像高德舆图有郭德纲版和林志玲版一样,而且ET除了说话之外还能够唱歌。
ET能力二:双十一天猫晚会演出魔术
在去年的天猫双11晚会中,ET在主持人华少的帮助下演出了魔术,这个魔术的效果大概是:华少请现场的五位女性不雅观众参与,并为她们每人手中发一张牌,她们手中的牌也是由自己随机挑选的,末了ET通过人脸识别的剖析以及拿到玄色牌的女不雅观众转身等一系列的交互猜出每个人手中拿的究竟是哪一张牌。
ET能力三:为阿里巴巴员工写春联
ET还能够写春联,图中便是春节前ET为阿里巴巴员工写春联的活动。可以看到春联是由机器臂完成书写的,但是这背后却是利用阿里云ET去剖析每位同学的特色,包括表情、人脸特色、性别以及年事等,再去通过人脸识别所剖析出来的结果以及同学的口述表达去理解该同学的新年欲望,然后根据这些特色匹配出一副相对应的春联,并将信息通报给机器手臂,让机器手臂去完成春联的书写。
上面就先容了阿里云ET目前已经有的三个能力,而这些能力实在都是由前端发起的交互,那么隐蔽在这些能力背后的究竟是哪些技能呢?
实在隐蔽在阿里云ET背后的技能能力可以分为以下两个大部分:
根本技能能力。智能语音交互,包括自然措辞理解和人机对话,ET须要理解用户对它说了些什么,并且剖析出这里面蕴含了哪些意思,再根据用户的意思剖析出该当如何回答。还有便是人脸识别,实在这在天猫双11的交互里面可以看到,ET须要通过对付每一个女性不雅观众的脸剖析出她们各自所抽取的牌。
机器学习能力。这部分属于比较高阶的功能,ET在不同的交互场景中就会拥有不同的能力,像在魔术演出中,ET就学会了根据排列的结果去推算不雅观众手上牌的能力。还有便是在写春联活动中学会与机器手臂进行交互。
那么在ET交互效果的背后是哪些技能能力的支撑呢?接下来首先看一下通过天猫双11会场ET所表现出来的交互效果背后的技能架构。
首先由于天猫双11晚会是现场直播的,以是会有很多机位可以从不同的角度进行拍摄,而摄像机直策应用的是电视台的摄像机,摄像机首先采集图像信息然后上传到视频采集卡上,终极到达掌握台机器上,这便是视频旗子暗记的输入。其余对付音频旗子暗记而言,须要对付音频进行压缩,由于直接通过发话器说话与后真个采样是不匹配的,以是音频可以在前端机中做一定的处理,再将音频传输到掌握台机器。掌握台机器分别对付图像和语音进行识别,再将这两个结果返回给前端机,之后将结果通过不同的办法传导到导播车上,终极通过卫星传送到电视机上,这便是天猫双11晚会的架构,如果要想担保天猫双11晚会的交互流畅性和稳定性,避免在前端机和掌握机之间涌现卡顿,就须要进行分外的处理,那么怎么去担保数据传输的稳定性呢?
为了担保数据传输的稳定性,阿里云做了很多事情。第一个便是通过多路WebSocket来担保数据传输稳定,在页面展现层和掌握台做事中间增加了数据传输层,将数据传输委托给了两个Web Worker,两个Web Worker所做的事情是相同的,只不过为了担保单个节点挂掉时的高可用性,而两个Web Worker同时向掌握台获取做事时可能会涌现冗余情形,而阿里云在这方面也做了相应的处理。实在便是在这部分加上了抢令牌的过程,每一个Web Worker都会在前端页面展现层这部分去抢令牌,当抢到令牌的时候才有能力去向后端掌握台做事获取数据,如下图所示便是通过前真个分布式二段式提交。
而在语音处理部分,前端所做的事情会比较多一些。首先对付语音输入的过程中,用了Media Stream Recorder方案来兼允许多浏览器,之后将语音采集到之后可能须要对付采集到的语音进行降噪处理,这部分紧张在对付一些硬件设备进行优化,效果还是比较明显的,现场的语音识别率从70%提升到了90%。由于天猫双11晚会的现场会有很多噪音,并且主持人华少的语速也比较快,以是如果没有降噪的处理,语音识别率就会比较低。
在语音这部分还会涉及到采样率的问题,大略理解便是采样率越高,音频质量就会越高,同时产生的文件也就会越大,须要传输的数据量也会更大。那么阿里云ET在这方面做了哪些处理呢?首先浏览器默认的语音采样率是44千赫兹,而后真个接口所能吸收的采样率是16千赫兹,这里就将采集到的数据做了三段式处理,大略而言便是每隔三段取一个小段然后串联起来。
ET机器学习的能力
在根本的能力之外,ET还学习了一些更高等的能力,下面通过案例解析一下器其背后的实现事理。
上图便是天猫双11晚会主持人华少分给不雅观众的32张牌的所有可能涌现的情形排列,实在一共只有在这样的几种可能。大家可以看到所有的可能性中实在会有一个特色,当确定了玄色牌的位置,答案就已经确定了,以是这个魔术紧张利用这个事理来实现魔术的效果的。当然这个人脸识别还是非常困难的,由于台上的不雅观众站位每每不同,以是识别率的哀求还是比较高的。
对付在写春联的案例中,交互就可能会更多一些。ET首先须要对付用户输入的语音进行剖析,然后在后端提炼为文本,这里面还会涉及提取分词和关键字等,末了剖析出用户的语意。第二步则会通过拍照的办法去进行人脸识别,并将图像信息传给后端,后端经由剖析会将包括年事、性别等特色的结果返回给前端,然后再将这些关键信息与大量的春联数据进行匹配,末了唤起机器手臂去进行春联的书写。