整理 | 伍杏玲
出品 | CSDN(ID:CSDNnews)
【CSDN 编者按】9 月 7 日,在CSDN主理的「AI ProCon 2019」上,微软(亚洲)互联网工程院人工智能语音团队首席研发总监赵晟、微软(亚洲)互联网工程院 Office 365资深产品经理,Office 小程序卖力人张鹏共同揭橥《微软语音AI与微软听听小程序实践》的主题演讲,分享微软人工智能语音的技能以及微软听听小程序的落地实践。
详情如何?我们一起来看看。
以下为演讲内容:
赵晟:
小程序是现在移动开拓的新生态、新趋势。语音AI技能跟移动开拓是非常有关系的。大家平时开车时未便应用手输入,可以用语音输入,开车时想听一些东西,完备可以用笔墨转语音的技能去听这些内容。基于这些考虑,微软语音AI和微软听听小程序互助做了些考试测验,本日给大家分享这里面的故事。
赵晟
微软语音AI的技能打破
微软在30多年前开办微软研究院时,已开始投入大量的人力物力在语音和措辞上。近几年来,微软在语音识别上首先取得打破,在2016年,语音识别的准确度已达到跟人相似的水平。
2018年,在中英机器翻译上和人类做比较,创造机器翻译的质量跟专业翻译职员的结果完备可以相媲美。
2018年9月,微软首先发布了基于神经网络的语音合成产品做事,它与人声的自然度得分的比例达到98.6%,也便是说非常靠近人声。
语音识别之路
微软在语音识别的详细打破有哪些?
语音识别紧张核心指标是词缺点率,便是词识别缺点占多少比例。在SwitchBoard会话数据集上,语音识别缺点率开始非常高,根本不能用,到2016年,微软取得了打破,达到5.9%的缺点率,2017年进一步降落到5.1%的缺点率,这个缺点率跟专业职员转写录音的缺点率是相称的。
大家听听这个数据集的例子:电话上有两个人在互换,语音具有不连续性、噪音、口音,以是识别难度对机器来讲是非常大的,微软利用10个神经网络技能,比如:CNN、ResNet、VGG等,多模型输出打分、多系统领悟,得到了这个了不起的打破。
机器翻译的里程碑
从1980年的传统机器翻译,到1990年的统计机器翻译,再到2010年,深度学习机器翻译技能开始兴起。2018年,微软首度提出一个任务,把机器跟人在中英新闻翻译上做比较,让专业翻译职员和机器翻译同样的句子,翻译后请懂双语的老师和学生去对翻译结果用0-100分进行打分。
可以看到微软的Human Parity机器翻译系统已经超过或者靠近专业职员的翻译水平。它的打破用到了新技能比如对偶学习,用大量无标注数据提高现有的翻译系统。还有考虑网络,先有一个初始翻译,再用其余一个网络进行再一次的改动,同时利用多系统领悟技能,终极达到这个打破性的结果。
语音合成技能
我们再看看语音合成技能,笔墨转语音这个技能也是非常悠久的语音AI技能。
最开始是基于人的发音事理的合成器,然后90 年代用拼接的方法,把一句话分成很小的单元,然后进行拼接,一开始的拼接是小语料库,自然度一样平常。在1999年旁边,涌现基于大语料库的拼接,这时须要网络到成千上万的句子,把它们切分开来,用一种选择策略去选择最得当的单元拼接在一起,自然度显著提升,但是带来新的问题,比如有些拼接不平滑。
2006年旁边,基于HMM模型的合成技能兴起,它的好处是非常平滑,但是也带来负浸染,便是声音过于平滑,让人听出来以为不足具有表现力。深度学习的兴起在合成领域也得到了运用,最近两三年推出的神经网络TTS,是语音合成技能的打破。谷歌提出来Tacotron, WaveNet这些模型,把语音自然度提升新的水平。
微软在2018年,2019年提出了Transformer TTS、Fast Speech等高自然度神经网络TTS模型,并在2018年9月首度推出产品化靠近人声的端到端Neural TTS。
Neural TTS模型
为什么Neural TTS模型可以靠近人声?
传统的TTS是一个繁芜的流程,每一步都要进行单独优化,有些模块须要履历规则,人工优化权重等等。神经网络的TTS是将合成流程简化了,我们可以看到它基本就三段,有一个前端文本分析,一个声学模型,一个Neural Vocoder声码器。神经网络的声码器可以非常靠近人的音质。
采取最新的基于把稳力的声学模型去进行建模韵律,更加靠近人声的韵律。两者叠加起来,就可以到更符合人的韵律和音质的高质量合针言音。当然,带来的负浸染是打算量非常大。
神经网络TTS的架构非常具有可扩展性,各家都提出不同的声学和声码器模型,有各自的特点,有的打算量大一点,有的打算量小一点,质量也有所不同。
Neural TTS还有一个特点是迁移学习,我们可以提取条件参数,对合成进行掌握,比如我们可以先演习一个多说话人的根本模型,利用几十小时到上千小时数据演习得到一个模型。有了根本模型往后可以做很多故意思的事情,比如演习我自己的声音,或者天生有情绪的、多风格的、跨措辞的声音,这些都可以做到。
语音做事概览
前面讲了语音的新技能打破,可能有人就会问,有这么多新技能,怎么在产品里用它?我给大家先容语音做事有哪些功能供大家利用。
微软的语音做事基本都在微软Azure这个平台上,供应语音转笔墨、笔墨翻译等标准做事。
Azure语音云端做事
语音转笔墨有很多功能,如实时识别笔墨、一个人说话、多人对话、会议场景。一个范例场景是大家开会后想看会议内容,可用语音做事把语音转成笔墨,并且做一些自动处理的择要,这样可快捷地查看会议内容。
目前跟人类靠近的笔墨翻译系统已上线,神经网络模型已更新,翻译质量大幅度提升。
笔墨转语音我们供应神经网络 TTS、4种措辞、5个声音。这些做事都可以用Rest和WebSocket SDK调用。
我们还供应语音到语音的翻译系统,比如翻译机场景,把中文语音输入进去,翻译成英文,得到语音流,可以直接播放,不用再配置其他做事,简化开拓步骤。这些做事都可以在以下网址访问利用。
https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/
云端模型定制服务
前面我提到的API都是标准模型,所谓标准模型便是微软几十年网络的数据做的大模型,大模型适用于大量通用的场景。但是AI有一个特点是对付不同场景干系的数据做一些自适应,可达到更好的效果。
范例的例子是有些公司里面有自己的硬件采集语音、有自己的关键词,如果有这些场景数据,可以大幅度提高语音识别准确率。我们在语音识别、翻译、合成模型上都供应定制功能,供应给各位开拓者一起创建生态系统,你可以把数据放进去,打造成行业的模型,供应给客户利用。
模型定制地址:https://speech.microsoft.com/
Edge 真个语音容器
前面提到基于云真个语音做事,云端模型定制,还有一个很主要的场景是须要把AI放到离线或者私有云里面,这便是常说的Edge打算。由于这些真个打算力得到很大提高,可以跑起来繁芜的模型。
包括手机真个Tensorflow都是类似的利用Edge支配的想法。我们语音做事在Edge有一个支配方案,它是基于Docker的容器,这样带来很多好处,比如安全可靠、延迟很小,充分利用现有硬件,接口和云端化支配保持同等,利用起来非常方便。
比如呼叫中央里有大量的客服语音对话,对此进行剖析就可以理解做事的满意度。我们已形成理解决方案:在呼叫中央里定制模型,定制后,用于大批量处理录音,然后利用自然措辞处理进行智能剖析。在海内我们联合告终合利华、中国移动利用容器化的语音做事去完成这些做事。
容器可以在此申请利用:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-container-howto
Unified Speech SDK
在客户端SAPI、SpeechFX是Windows系统自带的传统开拓SDK。我们现在提出了Unified SDK,支持访问云真个语音识别、语音合成、措辞翻译等语音做事。这个SDK也支持容器化的语音做事和离线语音引擎,它是真正跨平台的,支持Windows、Linux、安卓、iOS、浏览器平台。SDK采取跨平台架构,供应有各种措辞的绑定,中间有统一的C API,底层有跨平台的库,可以快速支持跨平台的迁移。
短语音识别代码
大略看几个语音识别例子,各种音箱助理要做识别,这是短句语音识别场景,你可以创建一个语音识别工具,然后异步开始识别,它是从声卡采集数据进行识别,然后把结果反馈给你。
SDK免费下载利用:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-sdk
语音合成平台
语音合成平台的义务是让每个人和组织都有喜好的数字化声音。这个语音合成平台是既给内部客户利用,也给外部客户利用,内部客户比如像微软的语音助理用的便是同样这个语音合成平台。我们在不断迭代这个平台,在18个数据中央里都有支配,真正达到环球化的支配,出海企业可以利用我们国外的数据中央。
接下来看看基于神经网络TTS的多种风格语音。为什么要有多风格的语音?由于合成一段语音的话,笔墨和语音要有一定的匹配,读新闻时须要正式的声音,机器人回答的时候须要考虑高下文须要,采纳带有情绪的回答。我们供应了风格化的声音供大家利用,通过输入的SSML express-as标记进行风格掌握,利用起来是非常随意马虎的。
中文上我们也正在开拓新的风格,比如有亲和力的助理场景,客服场景里,客服机器人的语气该当是比较热心的。有机遇器人有须要一些技能,我们这个晓晓也会唱歌。其余新闻场景,须要比较正式的语气来读新闻。读微信"大众号的文章不用那么正式,但是也要相对要规范。情绪故事场景,大家晚上睡觉前可以听听心灵鸡汤等等。声音可以千变万化,我们根据用户的需求去定制造风,同时也有不同的音色,比如男生、老年人声音、小孩声音,这些都可以定制。
语音合成API调用
这是语音合成API调用,创建一个合成器工具,你把笔墨送给它,它就可以开始合成了,这是合成到声卡。不同措辞也非常类似,学习起来也非常随意马虎。
调用API须要配置措辞,我们有很多种措辞,以是须要配置一下措辞参数。不同的音色,声音也可以首先配置。输出格式,把语音输出到MP3压缩,也可以通过属性配置。
合成到文件保存,有时开拓做事时须要把音频合成到一个流里然后转发到其他地方,那么就创建一个PullStream,后面的合成代码是一样的,可以像文件一样去读取这个合成的数据。还有一个PushStream,相称于回调的办法,不同的开拓职员有不同的喜好,我们供应不同的API,方便大家利用。回调时的数据是通过回调方法来进行处理。
语音合成API也供应一些元数据,比如词边界,可以见告你读到哪一个单词了,此外有些场景须要做口形匹配。这时注册一个事宜,你可以得到这些元数据,这个功能在微软的Edge浏览器最新发布的新版本里已经用到了,朗读时笔墨高亮显示,供阅读者理解当前的进度。
语音助手合成
我们来看看语音助手的范例办理方案,范例场景有音箱、客服机器人、互联网车载语音、小程序集成。
架构图
这是我们推举的办理方案或者架构:客户端可以用语音激活,用自定义的唤醒词,比如“你好,小娜”,首先把做事唤醒,你可以采集数据通过SDK送到云端,云端有唤醒词校验,再确认一下这个唤醒是不是真的对,降落误触发,然后对音频流进行识别,识别出的笔墨送给机器人的做事。
这是实现松耦合的好办法,类似机器人的做事都是自然措辞笔墨进入、笔墨输出,所有这样的做事可以注册到我们这个框架里来。回答笔墨之后回到语音做事,进行语音合成,合成的语音可以通过流式返回客户端通过SDK播放,这是全体调用流程。这个架构的优点是把云端语音做事和唤醒词放在一起,可以减少客户端调云真个次数。全双工对话也可以用类似方法实现,连接的协议是WebSocket。
更多信息可拜会: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/tutorial-voice-enable-your-bot-speech-sdk
在微信小程序里可以用类似这样的架构去做,我们在GitHub上供应了示例:
https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/TranslatorDemo
语音内容生产
当前当代快节奏的生活使得信息获取变得碎片化和多任务化,我们常常碰着一些痛点:传统的有声内容制作紧张靠声优的录音;大量的文本内容正在等待有声化;有声内容天生受限于职员,韶光,环境等成分,不能最大化产能。
那么如何提高人们的阅读效率呢?
一种很好的办法是通过听的办法消化这些信息,开车时、睡觉前都可以听一听,传统方案由人来读,这非常受到限定。有了基于神经网络的TTS,我们在想能不能供应效率更高的方案。
这个方案是这样事情的,各种信息流可以用云做事把它整理,送到语腔调优做事,你可以选择调一下比如多音字,批处理合成API把调好的SSML合成为音频放在存储做事里,供你的运用去利用。
举一个电子书例子,这个电子书听起来更生动一点,还有角色的变革。前面说到了调音工具,TTS输入或者语音合成输入是SSML格式。我们供应界面临象可以可视化去调读音、停顿、背景音乐,一定程度上可以用它调出完备靠近录音的效果。
定制语音
声音是一个品牌,每个人的声音都是自己的品牌,我们支持让每个企业都能定制自己的声音。定制语音的类型有两类:
1、自助做事开拓职员通过网页或API操作、演习、支配声音,自助完成,面向个人开拓者。支持三类模型的做事:
(1)根本模型:30-500句语音,比较相似,高可懂度。
(2)标准模型:3000-6000句语音,自然度比较高,靠近Windows上标准模型。
(3)高质量模型:6000-8000句语音,自然度非常高,靠近JessaRUS。
2、全经办事
全流程定制语音,专家工程师把控最高质量,也支持基于神经网络的定制,300句可以做到以前6000-8000句的效果。当然,对付神经网络的定制要非常小心,我们希望AI的技能不要被滥用,太像了之后人们会担心自己的声音被别人做了一个TTS,去表面打骗人的电话等等。以是须要有很严格的流程,通过客户赞许才能利用。目前通过商务互助模式进行神经网络TTS定制,担保技能不被滥用。
自主做事界面接口里,可上传所有数据,我们自动进行处理,比如对读音进行检测,如果发音不标准的话演习出来的声音也不标准。数据较好的话可提交演习,后台会起一个演习流程在GPU去演习,演习之后试听效果,支配后可通过代码调用或者在网页上输笔墨实时测试。
模型定制也可调用API,这个API是Rest接口,在微信小程序可以调用,也可在后台调用。代码支持SWAGGER标准,可以自动天生多种措辞代码。我们供应了管理数据的API,对模型进行管理的API。
做一个好声音是有技能门槛的,首先要理解你的场景须要什么样的风格、须要什么样的音色,去选择得当的风格,然后录音文本选择通用文本或者领域干系文本。
录音也是个技能活,须要尽可能安静,不要有噪音,保持录音风格,数据越好出来的质量越高。模型演习完成之后可以支配到云端或者容器,可以非常灵巧的支配在各个地方。微软语音AI技能在微信小程序上有不错的实践,下面由张鹏分享听听小程序在AI的实践。
为什么是语音 AI +小程序?
张鹏
张鹏:
Office 365是一套基于云平台的做事办理方案,除了大家熟习的Office编辑工具做事外,还有邮件,社交,会话以及可视化数据与报告等,这些共同构成了一套做事,这套做事我们称之为Office 365,我们希望把Office 365带到更多中国用户利用习气中去,第一个看重的是微信。
我们为什么要在微信里做?
有两个紧张考虑的成分:
第一,微信是月活超过11亿的产品,这是任何跨国公司产品进入中国以及本土创新都必须要研究的,微信哪些功能知足了用户需求,哪些功能没有知足用户需求,因此Office 365要在中国取获胜利,知足微信用户的对文档协作的需求是我们必须要做的事情。。
第二,微信沉淀了极其稳定的社交关系,基于这些社交关系可以看到你的通讯录里、各种群里已经不单是家人和朋友,看看我们微信的各种群,更多的是你的同事、客户以及高下游互助伙伴,也便是说很多群是由于事情而产生的,因此在微信里就有大量的文档在流转,我们如何让这些文档在微信生态里可以更高效的被创造出来,可以被安全的被管理,可以更顺畅且高效的通报,这是我们想在中国探索的一个方向。
第三,小程序2017年1月份出身,市场上对小程序有各种解读,有看好的,有不看好的,我以为任何定义现在下都为时过早。而我们看到的是小程序正在或者将要办理信息孤岛的问题,各个App之间信息不通的问题。
Office有同样的问题,很多文档内容是留在大家的PC里或者用户各种云盘里,这些信息并没有很高效的被协作起来,没有有效的路子把有代价的内容做分享。我们认为微信小程序未来正是办理这个问题的办理方案。
基于这几点,我们2018年投入到小程序里。
本日禀享的小程序叫“微软听听文档”,“微软听听文档”探索的第一个问题是PPT在移动端该当是什么样子的?如何将信息更好与人协作。
我们有很多群,有很多文档在流转,然后这些文档在群里因此静态的形式在流转,很多情形下用户都是从PC端拉一个PPT扔到群里就完了,这种PPT实在是静态的Word文档。
如果将PPT下一个定义的话,突出它的紧张功能便是若何让大家演讲时更有力,提升演讲时的演示效果,这是我们移动真个目的。因此,我们打造了“微软听听文档”。
我们通过在移动端快速地给每一页文档做录音,快速发布,通过微信固有的社交关系去传播、发布。每页PPT下面除了有声音外,还有各种社交属性:传播、、发朋友圈、进群、点赞、打赏,这是我们认为PPT在移动端该当有的样子。更主要的是有人的声音,也便是演讲者的参与。
本日AI大会上我不雅观察到有很多人会拍照发朋友圈、发到群里,这也是一种内容的分享办法,但这种分享办法并不很高效,为什么?
由于这种分享办法里短缺了最主要的成分,便是演讲者、创作者到底在PPT背后通报什么不雅观点,通过几张图片是很难通报出来的,这是我们要打造这个产品的目的。
微软听听小程序
我们做这个探索时,关注点有:
第一,创建。我们可以给每个文档做录音,背景音乐可以通过微软AI技能去学习笔墨和图片,自动配背景音乐,不用大家主动去选。
第二,PPT有设计内容,Office365有AI设计灵感,未来在移动端也可以帮大家从手机相册去选择图片去制作演讲时,图片可以自动用设计功能去裁剪、排版,达到更好的效果。
第三,AutoSpeech,大家在移动端录音时,很多人不喜好自己的声音,以为自己的声音不好听,很多人基于环境的限定并未便利录音,我们基于深度神经网络可以将声音完美的匹配笔墨。
第四,Article听听文档,如果大家在行进路上或者不太方便看笔墨的情形下,大略的把公众年夜众号URL链接拷贝到里面,可以用几十秒韶光迅速制作出来一种可以看、可以听的文本,是一种新的形式展示给大家,我们有真实企业案例便是这样用的。
在听的方面有哪些和AI结合?让听者可以更沉浸式的身临其境的去听人的分享。
1、引入字幕,字幕对赞助阅读很主要,有时大家听讲时开小差就跟不上了,字幕在这里起到非常关键的浸染,通过微软的声音转笔墨,以字幕的形式转出来。
2、社交,点赞、转发等等。
3、PPT动画,把视频播放的东西引入进来,给大家更丰富的表现办法。
以下是语音文档的创作过程:
第一步,选择制作办法。
拥有微软帐户后可以选择文件,可以从电脑端拖一个文件里进来,也可以从手机相册里选,选择之后进入录音。
第二步,人工录音或者AI录音。
第三步,发布。
可以选择权限设置,是只给微信好友看,还是发布给全体互联网的人看,还是只给自己看,包括开启讴歌,如果以为自己的内容有代价,期望别人打赏的话也可以开启。
第四步,查看个人页面,关注推举。
发布之后你的作品在作品集,可以知道有多少用户关注你,知道每个分享有多少人去看去听,也方便你自己去管理你自己的内容,也可以让别人找到你去分享。
下面举一个真实例子,新民。他们之前有一个问题,每天早上6点,编辑会在1小时内编辑一天24小时的新闻,7点钟有一个内审,审核通过往后,7点半就在公众年夜众号发布。
这个过程中要反复修正,不可能有人给公众年夜众号录音或者去修正,。他们现在利用以上的办法可以很快捷的嵌入小程序到"大众年夜众号,我们这个小程序的速率非常快,大概十几秒的样子。AI的效率在这个场景中得到非常大的发挥和落地。
微软Office微信小程序布局
未来,微软Office微信小程序布局本地化策略有三个方向:信息输入;信息管理;信息输出。
文档怎么被创造出来,怎么被管理,怎么输出协作。这三个方向是我们想去探索的。
在我看来,什么样的小程序能够生命力很强?我们做了很多功能,但是创造反而让用户更多韶光耗在这里,这样工具类的小程序韶光长了,逐步大家就不会用了,由于创造代价很大。以是从生产力小程序角度总结,只要真正能帮助用户节省韶光、提高效率的生产力小程序都会有更好的生命力连续传播下去。终极让用户收益才是统统商业逻辑的出发点。
大家可以在微信搜索“微软听听文档”,体验一下。
高朋简介:
赵晟 ,微软(亚洲)互联网工程院 人工智能语音团队首席研发总监。目前卖力微软Azure语音做事的产品研发事情, 所开拓的语音技能做事于微软Office、Windows、 Azure认知做事,小冰小娜以及广大的第三方开拓者。曾担当微软亚洲研究院研究员,微软小娜资深研发经理。长期从事语音和措辞方面的技能开拓,包括语音合成,自然措辞处理,语音识别等等,所卖力的多措辞合成项目也曾经得到微软中国精彩工程奖。
张鹏,微软(亚洲)互联网工程院 Office 365资深产品经理,Office 小程序卖力人 。2013年加入微软MSN,承担MSN和必应搜索等产品设计和市场推广事情。2016年开始至今,卖力Office 365在中国创新产品开拓,成功发布officeplus.cn,微软AI识图,听听文档等产品发布。
【END】