整理 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

【CSDN 编者按】9 月 7 日,在CSDN主理的「AI ProCon 2019」上,微软(亚洲)互联网工程院人工智能语音团队首席研发总监赵晟、微软(亚洲)互联网工程院 Office 365资深产品经理,Office 小程序卖力人张鹏共同揭橥《微软语音AI与微软听听小程序实践》的主题演讲,分享微软人工智能语音的技能以及微软听听小程序的落地实践。

详情如何?我们一起来看看。

微软语音 AI 技能与微软听听文档小轨范实践  AI ProCon 2019

以下为演讲内容:

赵晟:

小程序是现在移动开拓的新生态、新趋势。
语音AI技能跟移动开拓是非常有关系的。
大家平时开车时未便应用手输入,可以用语音输入,开车时想听一些东西,完备可以用笔墨转语音的技能去听这些内容。
基于这些考虑,微软语音AI和微软听听小程序互助做了些考试测验,本日给大家分享这里面的故事。

赵晟

微软语音AI的技能打破

微软在30多年前开办微软研究院时,已开始投入大量的人力物力在语音和措辞上。
近几年来,微软在语音识别上首先取得打破,在2016年,语音识别的准确度已达到跟人相似的水平。

2018年,在中英机器翻译上和人类做比较,创造机器翻译的质量跟专业翻译职员的结果完备可以相媲美。

2018年9月,微软首先发布了基于神经网络的语音合成产品做事,它与人声的自然度得分的比例达到98.6%,也便是说非常靠近人声。

语音识别之路

微软在语音识别的详细打破有哪些?

语音识别紧张核心指标是词缺点率,便是词识别缺点占多少比例。
在SwitchBoard会话数据集上,语音识别缺点率开始非常高,根本不能用,到2016年,微软取得了打破,达到5.9%的缺点率,2017年进一步降落到5.1%的缺点率,这个缺点率跟专业职员转写录音的缺点率是相称的。

大家听听这个数据集的例子:电话上有两个人在互换,语音具有不连续性、噪音、口音,以是识别难度对机器来讲是非常大的,微软利用10个神经网络技能,比如:CNN、ResNet、VGG等,多模型输出打分、多系统领悟,得到了这个了不起的打破。

机器翻译的里程碑

1980年的传统机器翻译,到1990年的统计机器翻译,再到2010年,深度学习机器翻译技能开始兴起。
2018年,微软首度提出一个任务,把机器跟人在中英新闻翻译上做比较,让专业翻译职员和机器翻译同样的句子,翻译后请懂双语的老师和学生去对翻译结果用0-100分进行打分。

可以看到微软的Human Parity机器翻译系统已经超过或者靠近专业职员的翻译水平。
它的打破用到了新技能比如对偶学习,用大量无标注数据提高现有的翻译系统。
还有考虑网络,先有一个初始翻译,再用其余一个网络进行再一次的改动,同时利用多系统领悟技能,终极达到这个打破性的结果。

语音合成技能

我们再看看语音合成技能,笔墨转语音这个技能也是非常悠久的语音AI技能。

最开始是基于人的发音事理的合成器,然后90 年代用拼接的方法,把一句话分成很小的单元,然后进行拼接,一开始的拼接是小语料库,自然度一样平常。
1999年旁边,涌现基于大语料库的拼接,这时须要网络到成千上万的句子,把它们切分开来,用一种选择策略去选择最得当的单元拼接在一起,自然度显著提升,但是带来新的问题,比如有些拼接不平滑。

2006年旁边,基于HMM模型的合成技能兴起,它的好处是非常平滑,但是也带来负浸染,便是声音过于平滑,让人听出来以为不足具有表现力。
深度学习的兴起在合成领域也得到了运用,最近两三年推出的神经网络TTS,是语音合成技能的打破。
谷歌提出来Tacotron, WaveNet这些模型,把语音自然度提升新的水平。

微软在2018年,2019年提出了Transformer TTS、Fast Speech等高自然度神经网络TTS模型,并在2018年9月首度推出产品化靠近人声的端到端Neural TTS。

Neural TTS模型

为什么Neural TTS模型可以靠近人声?

传统的TTS是一个繁芜的流程,每一步都要进行单独优化,有些模块须要履历规则,人工优化权重等等。
神经网络的TTS是将合成流程简化了,我们可以看到它基本就三段,有一个前端文本分析,一个声学模型,一个Neural Vocoder声码器。
神经网络的声码器可以非常靠近人的音质。

采取最新的基于把稳力的声学模型去进行建模韵律,更加靠近人声的韵律。
两者叠加起来,就可以到更符合人的韵律和音质的高质量合针言音。
当然,带来的负浸染是打算量非常大。

神经网络TTS的架构非常具有可扩展性,各家都提出不同的声学和声码器模型,有各自的特点,有的打算量大一点,有的打算量小一点,质量也有所不同。

Neural TTS还有一个特点是迁移学习,我们可以提取条件参数,对合成进行掌握,比如我们可以先演习一个多说话人的根本模型,利用几十小时到上千小时数据演习得到一个模型。
有了根本模型往后可以做很多故意思的事情,比如演习我自己的声音,或者天生有情绪的、多风格的、跨措辞的声音,这些都可以做到。

语音做事概览

前面讲了语音的新技能打破,可能有人就会问,有这么多新技能,怎么在产品里用它?我给大家先容语音做事有哪些功能供大家利用。

微软的语音做事基本都在微软Azure这个平台上,供应语音转笔墨、笔墨翻译等标准做事。

Azure语音云端做事

语音转笔墨有很多功能,如实时识别笔墨、一个人说话、多人对话、会议场景。
一个范例场景是大家开会后想看会议内容,可用语音做事把语音转成笔墨,并且做一些自动处理的择要,这样可快捷地查看会议内容。

目前跟人类靠近的笔墨翻译系统已上线,神经网络模型已更新,翻译质量大幅度提升。

笔墨转语音我们供应神经网络 TTS、4种措辞、5个声音。
这些做事都可以用Rest和WebSocket SDK调用。

我们还供应语音到语音的翻译系统,比如翻译机场景,把中文语音输入进去,翻译成英文,得到语音流,可以直接播放,不用再配置其他做事,简化开拓步骤。
这些做事都可以在以下网址访问利用。

https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/

云端模型定制服务

前面我提到的API都是标准模型,所谓标准模型便是微软几十年网络的数据做的大模型,大模型适用于大量通用的场景。
但是AI有一个特点是对付不同场景干系的数据做一些自适应,可达到更好的效果。

范例的例子是有些公司里面有自己的硬件采集语音、有自己的关键词,如果有这些场景数据,可以大幅度提高语音识别准确率。
我们在语音识别、翻译、合成模型上都供应定制功能,供应给各位开拓者一起创建生态系统,你可以把数据放进去,打造成行业的模型,供应给客户利用。

模型定制地址:https://speech.microsoft.com/

Edge 真个语音容器

前面提到基于云真个语音做事,云端模型定制,还有一个很主要的场景是须要把AI放到离线或者私有云里面,这便是常说的Edge打算。
由于这些真个打算力得到很大提高,可以跑起来繁芜的模型。

包括手机真个Tensorflow都是类似的利用Edge支配的想法。
我们语音做事在Edge有一个支配方案,它是基于Docker的容器,这样带来很多好处,比如安全可靠、延迟很小,充分利用现有硬件,接口和云端化支配保持同等,利用起来非常方便。

比如呼叫中央里有大量的客服语音对话,对此进行剖析就可以理解做事的满意度。
我们已形成理解决方案:在呼叫中央里定制模型,定制后,用于大批量处理录音,然后利用自然措辞处理进行智能剖析。
在海内我们联合告终合利华、中国移动利用容器化的语音做事去完成这些做事。

容器可以在此申请利用:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-container-howto

Unified Speech SDK

在客户端SAPI、SpeechFX是Windows系统自带的传统开拓SDK。
我们现在提出了Unified SDK,支持访问云真个语音识别、语音合成、措辞翻译等语音做事。
这个SDK也支持容器化的语音做事和离线语音引擎,它是真正跨平台的,支持Windows、Linux、安卓、iOS、浏览器平台。
SDK采取跨平台架构,供应有各种措辞的绑定,中间有统一的C API,底层有跨平台的库,可以快速支持跨平台的迁移。

短语音识别代码

大略看几个语音识别例子,各种音箱助理要做识别,这是短句语音识别场景,你可以创建一个语音识别工具,然后异步开始识别,它是从声卡采集数据进行识别,然后把结果反馈给你。

SDK免费下载利用:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-sdk

语音合成平台

语音合成平台的义务是让每个人和组织都有喜好的数字化声音。
这个语音合成平台是既给内部客户利用,也给外部客户利用,内部客户比如像微软的语音助理用的便是同样这个语音合成平台。
我们在不断迭代这个平台,在18个数据中央里都有支配,真正达到环球化的支配,出海企业可以利用我们国外的数据中央。

接下来看看基于神经网络TTS的多种风格语音。
为什么要有多风格的语音?由于合成一段语音的话,笔墨和语音要有一定的匹配,读新闻时须要正式的声音,机器人回答的时候须要考虑高下文须要,采纳带有情绪的回答。
我们供应了风格化的声音供大家利用,通过输入的SSML express-as标记进行风格掌握,利用起来是非常随意马虎的。

中文上我们也正在开拓新的风格,比如有亲和力的助理场景,客服场景里,客服机器人的语气该当是比较热心的。
有机遇器人有须要一些技能,我们这个晓晓也会唱歌。
其余新闻场景,须要比较正式的语气来读新闻。
微信"大众号的文章不用那么正式,但是也要相对要规范。
情绪故事场景,大家晚上睡觉前可以听听心灵鸡汤等等。
声音可以千变万化,我们根据用户的需求去定制造风,同时也有不同的音色,比如男生、老年人声音、小孩声音,这些都可以定制。

语音合成API调用

这是语音合成API调用,创建一个合成器工具,你把笔墨送给它,它就可以开始合成了,这是合成到声卡。
不同措辞也非常类似,学习起来也非常随意马虎。

调用API须要配置措辞,我们有很多种措辞,以是须要配置一下措辞参数。
不同的音色,声音也可以首先配置。
输出格式,把语音输出到MP3压缩,也可以通过属性配置。

合成到文件保存,有时开拓做事时须要把音频合成到一个流里然后转发到其他地方,那么就创建一个PullStream,后面的合成代码是一样的,可以像文件一样去读取这个合成的数据。
还有一个PushStream,相称于回调的办法,不同的开拓职员有不同的喜好,我们供应不同的API,方便大家利用。
回调时的数据是通过回调方法来进行处理。

语音合成API也供应一些元数据,比如词边界,可以见告你读到哪一个单词了,此外有些场景须要做口形匹配。
这时注册一个事宜,你可以得到这些元数据,这个功能在微软的Edge浏览器最新发布的新版本里已经用到了,朗读时笔墨高亮显示,供阅读者理解当前的进度。

语音助手合成

我们来看看语音助手的范例办理方案,范例场景有音箱、客服机器人、互联网车载语音、小程序集成。

架构图

这是我们推举的办理方案或者架构:客户端可以用语音激活,用自定义的唤醒词,比如“你好,小娜”,首先把做事唤醒,你可以采集数据通过SDK送到云端,云端有唤醒词校验,再确认一下这个唤醒是不是真的对,降落误触发,然后对音频流进行识别,识别出的笔墨送给机器人的做事。

这是实现松耦合的好办法,类似机器人的做事都是自然措辞笔墨进入、笔墨输出,所有这样的做事可以注册到我们这个框架里来。
回答笔墨之后回到语音做事,进行语音合成,合成的语音可以通过流式返回客户端通过SDK播放,这是全体调用流程。
这个架构的优点是把云端语音做事和唤醒词放在一起,可以减少客户端调云真个次数。
全双工对话也可以用类似方法实现,连接的协议是WebSocket。

更多信息可拜会: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/tutorial-voice-enable-your-bot-speech-sdk

微信小程序里可以用类似这样的架构去做,我们在GitHub上供应了示例:

https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/TranslatorDemo

语音内容生产

当前当代快节奏的生活使得信息获取变得碎片化和多任务化,我们常常碰着一些痛点:传统的有声内容制作紧张靠声优的录音;大量的文本内容正在等待有声化;有声内容天生受限于职员,韶光,环境等成分,不能最大化产能。

那么如何提高人们的阅读效率呢?

一种很好的办法是通过听的办法消化这些信息,开车时、睡觉前都可以听一听,传统方案由人来读,这非常受到限定。
有了基于神经网络的TTS,我们在想能不能供应效率更高的方案。

这个方案是这样事情的,各种信息流可以用云做事把它整理,送到语腔调优做事,你可以选择调一下比如多音字,批处理合成API把调好的SSML合成为音频放在存储做事里,供你的运用去利用。

举一个电子书例子,这个电子书听起来更生动一点,还有角色的变革。
前面说到了调音工具,TTS输入或者语音合成输入是SSML格式。
我们供应界面临象可以可视化去调读音、停顿、背景音乐,一定程度上可以用它调出完备靠近录音的效果。

定制语音

声音是一个品牌,每个人的声音都是自己的品牌,我们支持让每个企业都能定制自己的声音。
定制语音的类型有两类:

1、自助做事开拓职员通过网页或API操作、演习、支配声音,自助完成,面向个人开拓者。
支持三类模型的做事:

(1)根本模型:30-500句语音,比较相似,高可懂度。

(2)标准模型:3000-6000句语音,自然度比较高,靠近Windows上标准模型。

(3)高质量模型:6000-8000句语音,自然度非常高,靠近JessaRUS。

2、全经办事

全流程定制语音,专家工程师把控最高质量,也支持基于神经网络的定制,300句可以做到以前6000-8000句的效果。
当然,对付神经网络的定制要非常小心,我们希望AI的技能不要被滥用,太像了之后人们会担心自己的声音被别人做了一个TTS,去表面打骗人的电话等等。
以是须要有很严格的流程,通过客户赞许才能利用。
目前通过商务互助模式进行神经网络TTS定制,担保技能不被滥用。

自主做事界面接口里,可上传所有数据,我们自动进行处理,比如对读音进行检测,如果发音不标准的话演习出来的声音也不标准。
数据较好的话可提交演习,后台会起一个演习流程在GPU去演习,演习之后试听效果,支配后可通过代码调用或者在网页上输笔墨实时测试。

模型定制也可调用API,这个API是Rest接口,在微信小程序可以调用,也可在后台调用。
代码支持SWAGGER标准,可以自动天生多种措辞代码。
我们供应了管理数据的API,对模型进行管理的API。

做一个好声音是有技能门槛的,首先要理解你的场景须要什么样的风格、须要什么样的音色,去选择得当的风格,然后录音文本选择通用文本或者领域干系文本。

录音也是个技能活,须要尽可能安静,不要有噪音,保持录音风格,数据越好出来的质量越高。
模型演习完成之后可以支配到云端或者容器,可以非常灵巧的支配在各个地方。
微软语音AI技能在微信小程序上有不错的实践,下面由张鹏分享听听小程序在AI的实践。

为什么是语音 AI +小程序

张鹏

张鹏:

Office 365是一套基于云平台的做事办理方案,除了大家熟习的Office编辑工具做事外,还有邮件,社交,会话以及可视化数据与报告等,这些共同构成了一套做事,这套做事我们称之为Office 365,我们希望把Office 365带到更多中国用户利用习气中去,第一个看重的是微信

我们为什么要在微信里做?

有两个紧张考虑的成分:

第一,微信是月活超过11亿的产品,这是任何跨国公司产品进入中国以及本土创新都必须要研究的,微信哪些功能知足了用户需求,哪些功能没有知足用户需求,因此Office 365要在中国取获胜利,知足微信用户的对文档协作的需求是我们必须要做的事情。

第二,微信沉淀了极其稳定的社交关系,基于这些社交关系可以看到你的通讯录里、各种群里已经不单是家人和朋友,看看我们微信的各种群,更多的是你的同事、客户以及高下游互助伙伴,也便是说很多群是由于事情而产生的,因此在微信里就有大量的文档在流转,我们如何让这些文档在微信生态里可以更高效的被创造出来,可以被安全的被管理,可以更顺畅且高效的通报,这是我们想在中国探索的一个方向。

第三,小程序2017年1月份出身,市场上对小程序有各种解读,有看好的,有不看好的,我以为任何定义现在下都为时过早。
而我们看到的是小程序正在或者将要办理信息孤岛的问题,各个App之间信息不通的问题。

Office有同样的问题,很多文档内容是留在大家的PC里或者用户各种云盘里,这些信息并没有很高效的被协作起来,没有有效的路子把有代价的内容做分享。
我们认为微信小程序未来正是办理这个问题的办理方案。

基于这几点,我们2018年投入到小程序里。

本日禀享的小程序叫“微软听听文档”,“微软听听文档”探索的第一个问题是PPT在移动端该当是什么样子的?如何将信息更好与人协作。

我们有很多群,有很多文档在流转,然后这些文档在群里因此静态的形式在流转,很多情形下用户都是从PC端拉一个PPT扔到群里就完了,这种PPT实在是静态的Word文档。

如果将PPT下一个定义的话,突出它的紧张功能便是若何让大家演讲时更有力,提升演讲时的演示效果,这是我们移动真个目的。
因此,我们打造了“微软听听文档”。

我们通过在移动端快速地给每一页文档做录音,快速发布,通过微信固有的社交关系去传播、发布。
每页PPT下面除了有声音外,还有各种社交属性:传播、、发朋友圈、进群、点赞、打赏,这是我们认为PPT在移动端该当有的样子。
更主要的是有人的声音,也便是演讲者的参与。

本日AI大会上我不雅观察到有很多人会拍照发朋友圈、发到群里,这也是一种内容的分享办法,但这种分享办法并不很高效,为什么?

由于这种分享办法里短缺了最主要的成分,便是演讲者、创作者到底在PPT背后通报什么不雅观点,通过几张图片是很难通报出来的,这是我们要打造这个产品的目的。

微软听听小程序

我们做这个探索时,关注点有:

第一,创建。
我们可以给每个文档做录音,背景音乐可以通过微软AI技能去学习笔墨和图片,自动配背景音乐,不用大家主动去选。

第二,PPT有设计内容,Office365有AI设计灵感,未来在移动端也可以帮大家从手机相册去选择图片去制作演讲时,图片可以自动用设计功能去裁剪、排版,达到更好的效果。

第三,AutoSpeech,大家在移动端录音时,很多人不喜好自己的声音,以为自己的声音不好听,很多人基于环境的限定并未便利录音,我们基于深度神经网络可以将声音完美的匹配笔墨。

第四,Article听听文档,如果大家在行进路上或者不太方便看笔墨的情形下,大略的把公众年夜众号URL链接拷贝到里面,可以用几十秒韶光迅速制作出来一种可以看、可以听的文本,是一种新的形式展示给大家,我们有真实企业案例便是这样用的。

在听的方面有哪些和AI结合?让听者可以更沉浸式的身临其境的去听人的分享。

1、引入字幕,字幕对赞助阅读很主要,有时大家听讲时开小差就跟不上了,字幕在这里起到非常关键的浸染,通过微软的声音转笔墨,以字幕的形式转出来。

2、社交,点赞、转发等等。

3、PPT动画,把视频播放的东西引入进来,给大家更丰富的表现办法。

以下是语音文档的创作过程:

第一步,选择制作办法。

拥有微软帐户后可以选择文件,可以从电脑端拖一个文件里进来,也可以从手机相册里选,选择之后进入录音。

第二步,人工录音或者AI录音。

第三步,发布。

可以选择权限设置,是只给微信好友看,还是发布给全体互联网的人看,还是只给自己看,包括开启讴歌,如果以为自己的内容有代价,期望别人打赏的话也可以开启。

第四步,查看个人页面,关注推举。

发布之后你的作品在作品集,可以知道有多少用户关注你,知道每个分享有多少人去看去听,也方便你自己去管理你自己的内容,也可以让别人找到你去分享。

下面举一个真实例子,新民。
他们之前有一个问题,每天早上6点,编辑会在1小时内编辑一天24小时的新闻,7点钟有一个内审,审核通过往后,7点半就在公众年夜众号发布。

这个过程中要反复修正,不可能有人给公众年夜众号录音或者去修正,。
他们现在利用以上的办法可以很快捷的嵌入小程序到"大众年夜众号,我们这个小程序的速率非常快,大概十几秒的样子。
AI的效率在这个场景中得到非常大的发挥和落地。

微软Office微信小程序布局

未来,微软Office微信小程序布局本地化策略有三个方向:信息输入;信息管理;信息输出。

文档怎么被创造出来,怎么被管理,怎么输出协作。
这三个方向是我们想去探索的。

在我看来,什么样的小程序能够生命力很强?我们做了很多功能,但是创造反而让用户更多韶光耗在这里,这样工具类的小程序韶光长了,逐步大家就不会用了,由于创造代价很大。
以是从生产力小程序角度总结,只要真正能帮助用户节省韶光、提高效率的生产力小程序都会有更好的生命力连续传播下去。
终极让用户收益才是统统商业逻辑的出发点。

大家可以在微信搜索“微软听听文档”,体验一下。

高朋简介:

赵晟 ,微软(亚洲)互联网工程院 人工智能语音团队首席研发总监。
目前卖力微软Azure语音做事的产品研发事情, 所开拓的语音技能做事于微软Office、Windows、 Azure认知做事,小冰小娜以及广大的第三方开拓者。
曾担当微软亚洲研究院研究员,微软小娜资深研发经理。
长期从事语音和措辞方面的技能开拓,包括语音合成,自然措辞处理,语音识别等等,所卖力的多措辞合成项目也曾经得到微软中国精彩工程奖。

张鹏,微软(亚洲)互联网工程院 Office 365资深产品经理,Office 小程序卖力人 。
2013年加入微软MSN,承担MSN和必应搜索等产品设计和市场推广事情。
2016年开始至今,卖力Office 365在中国创新产品开拓,成功发布officeplus.cn,微软AI识图,听听文档等产品发布。

【END】