微软语音 AI 技能与微软听听文档小轨范实践 AI ProCon 2019

整理 | 伍杏玲

出品 | CSDN（ID：CSDNnews）

【CSDN 编者按】9 月 7 日，在CSDN主理的「AI ProCon 2019」上，微软（亚洲）互联网工程院人工智能语音团队首席研发总监赵晟、微软（亚洲）互联网工程院 Office 365资深产品经理，Office 小程序卖力人张鹏共同揭橥《微软语音AI与微软听听小程序实践》的主题演讲，分享微软人工智能语音的技能以及微软听听小程序的落地实践。

详情如何？我们一起来看看。

微软语音 AI 技能与微软听听文档小轨范实践 AI ProCon 2019

以下为演讲内容：

赵晟：

小程序是现在移动开拓的新生态、新趋势。
语音AI技能跟移动开拓是非常有关系的。
大家平时开车时未便应用手输入，可以用语音输入，开车时想听一些东西，完备可以用笔墨转语音的技能去听这些内容。
基于这些考虑，微软语音AI和微软听听小程序互助做了些考试测验，本日给大家分享这里面的故事。

赵晟

微软语音AI的技能打破

微软在30多年前开办微软研究院时，已开始投入大量的人力物力在语音和措辞上。
近几年来，微软在语音识别上首先取得打破，在2016年，语音识别的准确度已达到跟人相似的水平。

2018年，在中英机器翻译上和人类做比较，创造机器翻译的质量跟专业翻译职员的结果完备可以相媲美。

2018年9月，微软首先发布了基于神经网络的语音合成产品做事，它与人声的自然度得分的比例达到98.6%，也便是说非常靠近人声。

语音识别之路

微软在语音识别的详细打破有哪些？

语音识别紧张核心指标是词缺点率，便是词识别缺点占多少比例。
在SwitchBoard会话数据集上，语音识别缺点率开始非常高，根本不能用，到2016年，微软取得了打破，达到5.9%的缺点率，2017年进一步降落到5.1%的缺点率，这个缺点率跟专业职员转写录音的缺点率是相称的。

大家听听这个数据集的例子：电话上有两个人在互换，语音具有不连续性、噪音、口音，以是识别难度对机器来讲是非常大的，微软利用10个神经网络技能，比如：CNN、ResNet、VGG等，多模型输出打分、多系统领悟，得到了这个了不起的打破。

机器翻译的里程碑

从1980年的传统机器翻译，到1990年的统计机器翻译，再到2010年，深度学习机器翻译技能开始兴起。
2018年，微软首度提出一个任务，把机器跟人在中英新闻翻译上做比较，让专业翻译职员和机器翻译同样的句子，翻译后请懂双语的老师和学生去对翻译结果用0-100分进行打分。

可以看到微软的Human Parity机器翻译系统已经超过或者靠近专业职员的翻译水平。
它的打破用到了新技能比如对偶学习，用大量无标注数据提高现有的翻译系统。
还有考虑网络，先有一个初始翻译，再用其余一个网络进行再一次的改动，同时利用多系统领悟技能，终极达到这个打破性的结果。

语音合成技能

我们再看看语音合成技能，笔墨转语音这个技能也是非常悠久的语音AI技能。

最开始是基于人的发音事理的合成器，然后90 年代用拼接的方法，把一句话分成很小的单元，然后进行拼接，一开始的拼接是小语料库，自然度一样平常。
在1999年旁边，涌现基于大语料库的拼接，这时须要网络到成千上万的句子，把它们切分开来，用一种选择策略去选择最得当的单元拼接在一起，自然度显著提升，但是带来新的问题，比如有些拼接不平滑。

2006年旁边，基于HMM模型的合成技能兴起，它的好处是非常平滑，但是也带来负浸染，便是声音过于平滑，让人听出来以为不足具有表现力。
深度学习的兴起在合成领域也得到了运用，最近两三年推出的神经网络TTS，是语音合成技能的打破。
谷歌提出来Tacotron, WaveNet这些模型，把语音自然度提升新的水平。

微软在2018年，2019年提出了Transformer TTS、Fast Speech等高自然度神经网络TTS模型，并在2018年9月首度推出产品化靠近人声的端到端Neural TTS。

Neural TTS模型

为什么Neural TTS模型可以靠近人声？

传统的TTS是一个繁芜的流程，每一步都要进行单独优化，有些模块须要履历规则，人工优化权重等等。
神经网络的TTS是将合成流程简化了，我们可以看到它基本就三段，有一个前端文本分析，一个声学模型，一个Neural Vocoder声码器。
神经网络的声码器可以非常靠近人的音质。

采取最新的基于把稳力的声学模型去进行建模韵律，更加靠近人声的韵律。
两者叠加起来，就可以到更符合人的韵律和音质的高质量合针言音。
当然，带来的负浸染是打算量非常大。

神经网络TTS的架构非常具有可扩展性，各家都提出不同的声学和声码器模型，有各自的特点，有的打算量大一点，有的打算量小一点，质量也有所不同。

Neural TTS还有一个特点是迁移学习，我们可以提取条件参数，对合成进行掌握，比如我们可以先演习一个多说话人的根本模型，利用几十小时到上千小时数据演习得到一个模型。
有了根本模型往后可以做很多故意思的事情，比如演习我自己的声音，或者天生有情绪的、多风格的、跨措辞的声音，这些都可以做到。

语音做事概览

前面讲了语音的新技能打破，可能有人就会问，有这么多新技能，怎么在产品里用它？我给大家先容语音做事有哪些功能供大家利用。

微软的语音做事基本都在微软Azure这个平台上，供应语音转笔墨、笔墨翻译等标准做事。

Azure语音云端做事

语音转笔墨有很多功能，如实时识别笔墨、一个人说话、多人对话、会议场景。
一个范例场景是大家开会后想看会议内容，可用语音做事把语音转成笔墨，并且做一些自动处理的择要，这样可快捷地查看会议内容。

目前跟人类靠近的笔墨翻译系统已上线，神经网络模型已更新，翻译质量大幅度提升。

笔墨转语音我们供应神经网络 TTS、4种措辞、5个声音。
这些做事都可以用Rest和WebSocket SDK调用。

我们还供应语音到语音的翻译系统，比如翻译机场景，把中文语音输入进去，翻译成英文，得到语音流，可以直接播放，不用再配置其他做事，简化开拓步骤。
这些做事都可以在以下网址访问利用。

https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/

云端模型定制服务

前面我提到的API都是标准模型，所谓标准模型便是微软几十年网络的数据做的大模型，大模型适用于大量通用的场景。
但是AI有一个特点是对付不同场景干系的数据做一些自适应，可达到更好的效果。

范例的例子是有些公司里面有自己的硬件采集语音、有自己的关键词，如果有这些场景数据，可以大幅度提高语音识别准确率。
我们在语音识别、翻译、合成模型上都供应定制功能，供应给各位开拓者一起创建生态系统，你可以把数据放进去，打造成行业的模型，供应给客户利用。

模型定制地址：https://speech.microsoft.com/

Edge 真个语音容器

前面提到基于云真个语音做事，云端模型定制，还有一个很主要的场景是须要把AI放到离线或者私有云里面，这便是常说的Edge打算。
由于这些真个打算力得到很大提高，可以跑起来繁芜的模型。

包括手机真个Tensorflow都是类似的利用Edge支配的想法。
我们语音做事在Edge有一个支配方案，它是基于Docker的容器，这样带来很多好处，比如安全可靠、延迟很小，充分利用现有硬件，接口和云端化支配保持同等，利用起来非常方便。

比如呼叫中央里有大量的客服语音对话，对此进行剖析就可以理解做事的满意度。
我们已形成理解决方案：在呼叫中央里定制模型，定制后，用于大批量处理录音，然后利用自然措辞处理进行智能剖析。
在海内我们联合告终合利华、中国移动利用容器化的语音做事去完成这些做事。

容器可以在此申请利用：https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-container-howto

Unified Speech SDK

在客户端SAPI、SpeechFX是Windows系统自带的传统开拓SDK。
我们现在提出了Unified SDK，支持访问云真个语音识别、语音合成、措辞翻译等语音做事。
这个SDK也支持容器化的语音做事和离线语音引擎，它是真正跨平台的，支持Windows、Linux、安卓、iOS、浏览器平台。
SDK采取跨平台架构，供应有各种措辞的绑定，中间有统一的C API，底层有跨平台的库，可以快速支持跨平台的迁移。

短语音识别代码

大略看几个语音识别例子，各种音箱助理要做识别，这是短句语音识别场景，你可以创建一个语音识别工具，然后异步开始识别，它是从声卡采集数据进行识别，然后把结果反馈给你。

SDK免费下载利用：https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-sdk

语音合成平台

语音合成平台的义务是让每个人和组织都有喜好的数字化声音。
这个语音合成平台是既给内部客户利用，也给外部客户利用，内部客户比如像微软的语音助理用的便是同样这个语音合成平台。
我们在不断迭代这个平台，在18个数据中央里都有支配，真正达到环球化的支配，出海企业可以利用我们国外的数据中央。

接下来看看基于神经网络TTS的多种风格语音。
为什么要有多风格的语音？由于合成一段语音的话，笔墨和语音要有一定的匹配，读新闻时须要正式的声音，机器人回答的时候须要考虑高下文须要，采纳带有情绪的回答。
我们供应了风格化的声音供大家利用，通过输入的SSML express-as标记进行风格掌握，利用起来是非常随意马虎的。

中文上我们也正在开拓新的风格，比如有亲和力的助理场景，客服场景里，客服机器人的语气该当是比较热心的。
有机遇器人有须要一些技能，我们这个晓晓也会唱歌。
其余新闻场景，须要比较正式的语气来读新闻。
读微信"大众号的文章不用那么正式，但是也要相对要规范。
情绪故事场景，大家晚上睡觉前可以听听心灵鸡汤等等。
声音可以千变万化，我们根据用户的需求去定制造风，同时也有不同的音色，比如男生、老年人声音、小孩声音，这些都可以定制。

语音合成API调用

这是语音合成API调用，创建一个合成器工具，你把笔墨送给它，它就可以开始合成了，这是合成到声卡。
不同措辞也非常类似，学习起来也非常随意马虎。

调用API须要配置措辞，我们有很多种措辞，以是须要配置一下措辞参数。
不同的音色，声音也可以首先配置。
输出格式，把语音输出到MP3压缩，也可以通过属性配置。

合成到文件保存，有时开拓做事时须要把音频合成到一个流里然后转发到其他地方，那么就创建一个PullStream，后面的合成代码是一样的，可以像文件一样去读取这个合成的数据。
还有一个PushStream，相称于回调的办法，不同的开拓职员有不同的喜好，我们供应不同的API，方便大家利用。
回调时的数据是通过回调方法来进行处理。

语音合成API也供应一些元数据，比如词边界，可以见告你读到哪一个单词了，此外有些场景须要做口形匹配。
这时注册一个事宜，你可以得到这些元数据，这个功能在微软的Edge浏览器最新发布的新版本里已经用到了，朗读时笔墨高亮显示，供阅读者理解当前的进度。

语音助手合成

我们来看看语音助手的范例办理方案，范例场景有音箱、客服机器人、互联网车载语音、小程序集成。

架构图

这是我们推举的办理方案或者架构：客户端可以用语音激活，用自定义的唤醒词，比如“你好，小娜”，首先把做事唤醒，你可以采集数据通过SDK送到云端，云端有唤醒词校验，再确认一下这个唤醒是不是真的对，降落误触发，然后对音频流进行识别，识别出的笔墨送给机器人的做事。

这是实现松耦合的好办法，类似机器人的做事都是自然措辞笔墨进入、笔墨输出，所有这样的做事可以注册到我们这个框架里来。
回答笔墨之后回到语音做事，进行语音合成，合成的语音可以通过流式返回客户端通过SDK播放，这是全体调用流程。
这个架构的优点是把云端语音做事和唤醒词放在一起，可以减少客户端调云真个次数。
全双工对话也可以用类似方法实现，连接的协议是WebSocket。

更多信息可拜会: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/tutorial-voice-enable-your-bot-speech-sdk

在微信小程序里可以用类似这样的架构去做，我们在GitHub上供应了示例：

https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/TranslatorDemo

语音内容生产

当前当代快节奏的生活使得信息获取变得碎片化和多任务化，我们常常碰着一些痛点：传统的有声内容制作紧张靠声优的录音；大量的文本内容正在等待有声化；有声内容天生受限于职员，韶光，环境等成分，不能最大化产能。

那么如何提高人们的阅读效率呢？

一种很好的办法是通过听的办法消化这些信息，开车时、睡觉前都可以听一听，传统方案由人来读，这非常受到限定。
有了基于神经网络的TTS，我们在想能不能供应效率更高的方案。

这个方案是这样事情的，各种信息流可以用云做事把它整理，送到语腔调优做事，你可以选择调一下比如多音字，批处理合成API把调好的SSML合成为音频放在存储做事里，供你的运用去利用。

举一个电子书例子，这个电子书听起来更生动一点，还有角色的变革。
前面说到了调音工具，TTS输入或者语音合成输入是SSML格式。
我们供应界面临象可以可视化去调读音、停顿、背景音乐，一定程度上可以用它调出完备靠近录音的效果。

定制语音

声音是一个品牌，每个人的声音都是自己的品牌，我们支持让每个企业都能定制自己的声音。
定制语音的类型有两类：

1、自助做事开拓职员通过网页或API操作、演习、支配声音，自助完成，面向个人开拓者。
支持三类模型的做事：

（1）根本模型：30-500句语音，比较相似，高可懂度。

（2）标准模型：3000-6000句语音，自然度比较高，靠近Windows上标准模型。

（3）高质量模型：6000-8000句语音，自然度非常高，靠近JessaRUS。

2、全经办事

全流程定制语音，专家工程师把控最高质量，也支持基于神经网络的定制，300句可以做到以前6000-8000句的效果。
当然，对付神经网络的定制要非常小心，我们希望AI的技能不要被滥用，太像了之后人们会担心自己的声音被别人做了一个TTS，去表面打骗人的电话等等。
以是须要有很严格的流程，通过客户赞许才能利用。
目前通过商务互助模式进行神经网络TTS定制，担保技能不被滥用。

自主做事界面接口里，可上传所有数据，我们自动进行处理，比如对读音进行检测，如果发音不标准的话演习出来的声音也不标准。
数据较好的话可提交演习，后台会起一个演习流程在GPU去演习，演习之后试听效果，支配后可通过代码调用或者在网页上输笔墨实时测试。

模型定制也可调用API，这个API是Rest接口，在微信小程序可以调用，也可在后台调用。
代码支持SWAGGER标准，可以自动天生多种措辞代码。
我们供应了管理数据的API，对模型进行管理的API。

做一个好声音是有技能门槛的，首先要理解你的场景须要什么样的风格、须要什么样的音色，去选择得当的风格，然后录音文本选择通用文本或者领域干系文本。

录音也是个技能活，须要尽可能安静，不要有噪音，保持录音风格，数据越好出来的质量越高。
模型演习完成之后可以支配到云端或者容器，可以非常灵巧的支配在各个地方。
微软语音AI技能在微信小程序上有不错的实践，下面由张鹏分享听听小程序在AI的实践。

为什么是语音 AI +小程序？

张鹏

张鹏：

Office 365是一套基于云平台的做事办理方案，除了大家熟习的Office编辑工具做事外，还有邮件，社交，会话以及可视化数据与报告等，这些共同构成了一套做事，这套做事我们称之为Office 365，我们希望把Office 365带到更多中国用户利用习气中去，第一个看重的是微信。

我们为什么要在微信里做？

有两个紧张考虑的成分：

第一，微信是月活超过11亿的产品，这是任何跨国公司产品进入中国以及本土创新都必须要研究的，微信哪些功能知足了用户需求，哪些功能没有知足用户需求，因此Office 365要在中国取获胜利，知足微信用户的对文档协作的需求是我们必须要做的事情。
。

第二，微信沉淀了极其稳定的社交关系，基于这些社交关系可以看到你的通讯录里、各种群里已经不单是家人和朋友，看看我们微信的各种群，更多的是你的同事、客户以及高下游互助伙伴，也便是说很多群是由于事情而产生的，因此在微信里就有大量的文档在流转，我们如何让这些文档在微信生态里可以更高效的被创造出来，可以被安全的被管理，可以更顺畅且高效的通报，这是我们想在中国探索的一个方向。

第三，小程序2017年1月份出身，市场上对小程序有各种解读，有看好的，有不看好的，我以为任何定义现在下都为时过早。
而我们看到的是小程序正在或者将要办理信息孤岛的问题，各个App之间信息不通的问题。

Office有同样的问题，很多文档内容是留在大家的PC里或者用户各种云盘里，这些信息并没有很高效的被协作起来，没有有效的路子把有代价的内容做分享。
我们认为微信小程序未来正是办理这个问题的办理方案。

基于这几点，我们2018年投入到小程序里。

本日禀享的小程序叫“微软听听文档”，“微软听听文档”探索的第一个问题是PPT在移动端该当是什么样子的？如何将信息更好与人协作。

我们有很多群，有很多文档在流转，然后这些文档在群里因此静态的形式在流转，很多情形下用户都是从PC端拉一个PPT扔到群里就完了，这种PPT实在是静态的Word文档。

如果将PPT下一个定义的话，突出它的紧张功能便是若何让大家演讲时更有力，提升演讲时的演示效果，这是我们移动真个目的。
因此，我们打造了“微软听听文档”。

我们通过在移动端快速地给每一页文档做录音，快速发布，通过微信固有的社交关系去传播、发布。
每页PPT下面除了有声音外，还有各种社交属性：传播、、发朋友圈、进群、点赞、打赏，这是我们认为PPT在移动端该当有的样子。
更主要的是有人的声音，也便是演讲者的参与。

本日AI大会上我不雅观察到有很多人会拍照发朋友圈、发到群里，这也是一种内容的分享办法，但这种分享办法并不很高效，为什么？

由于这种分享办法里短缺了最主要的成分，便是演讲者、创作者到底在PPT背后通报什么不雅观点，通过几张图片是很难通报出来的，这是我们要打造这个产品的目的。

微软听听小程序

我们做这个探索时，关注点有：

第一，创建。
我们可以给每个文档做录音，背景音乐可以通过微软AI技能去学习笔墨和图片，自动配背景音乐，不用大家主动去选。

第二，PPT有设计内容，Office365有AI设计灵感，未来在移动端也可以帮大家从手机相册去选择图片去制作演讲时，图片可以自动用设计功能去裁剪、排版，达到更好的效果。

第三，AutoSpeech，大家在移动端录音时，很多人不喜好自己的声音，以为自己的声音不好听，很多人基于环境的限定并未便利录音，我们基于深度神经网络可以将声音完美的匹配笔墨。

第四，Article听听文档，如果大家在行进路上或者不太方便看笔墨的情形下，大略的把公众年夜众号URL链接拷贝到里面，可以用几十秒韶光迅速制作出来一种可以看、可以听的文本，是一种新的形式展示给大家，我们有真实企业案例便是这样用的。

在听的方面有哪些和AI结合？让听者可以更沉浸式的身临其境的去听人的分享。

1、引入字幕，字幕对赞助阅读很主要，有时大家听讲时开小差就跟不上了，字幕在这里起到非常关键的浸染，通过微软的声音转笔墨，以字幕的形式转出来。

2、社交，点赞、转发等等。

3、PPT动画，把视频播放的东西引入进来，给大家更丰富的表现办法。

以下是语音文档的创作过程：

第一步，选择制作办法。

拥有微软帐户后可以选择文件，可以从电脑端拖一个文件里进来，也可以从手机相册里选，选择之后进入录音。

第二步，人工录音或者AI录音。

第三步，发布。

可以选择权限设置，是只给微信好友看，还是发布给全体互联网的人看，还是只给自己看，包括开启讴歌，如果以为自己的内容有代价，期望别人打赏的话也可以开启。

第四步，查看个人页面，关注推举。

发布之后你的作品在作品集，可以知道有多少用户关注你，知道每个分享有多少人去看去听，也方便你自己去管理你自己的内容，也可以让别人找到你去分享。

下面举一个真实例子，新民。
他们之前有一个问题，每天早上6点，编辑会在1小时内编辑一天24小时的新闻，7点钟有一个内审，审核通过往后，7点半就在公众年夜众号发布。

这个过程中要反复修正，不可能有人给公众年夜众号录音或者去修正，。
他们现在利用以上的办法可以很快捷的嵌入小程序到"大众年夜众号，我们这个小程序的速率非常快，大概十几秒的样子。
AI的效率在这个场景中得到非常大的发挥和落地。

微软Office微信小程序布局

未来，微软Office微信小程序布局本地化策略有三个方向：信息输入；信息管理；信息输出。

文档怎么被创造出来，怎么被管理，怎么输出协作。
这三个方向是我们想去探索的。

在我看来，什么样的小程序能够生命力很强？我们做了很多功能，但是创造反而让用户更多韶光耗在这里，这样工具类的小程序韶光长了，逐步大家就不会用了，由于创造代价很大。
以是从生产力小程序角度总结，只要真正能帮助用户节省韶光、提高效率的生产力小程序都会有更好的生命力连续传播下去。
终极让用户收益才是统统商业逻辑的出发点。

大家可以在微信搜索“微软听听文档”，体验一下。

高朋简介：

赵晟，微软（亚洲）互联网工程院人工智能语音团队首席研发总监。
目前卖力微软Azure语音做事的产品研发事情, 所开拓的语音技能做事于微软Office、Windows、 Azure认知做事，小冰小娜以及广大的第三方开拓者。
曾担当微软亚洲研究院研究员，微软小娜资深研发经理。
长期从事语音和措辞方面的技能开拓，包括语音合成，自然措辞处理，语音识别等等，所卖力的多措辞合成项目也曾经得到微软中国精彩工程奖。

张鹏，微软（亚洲）互联网工程院 Office 365资深产品经理，Office 小程序卖力人。
2013年加入微软MSN，承担MSN和必应搜索等产品设计和市场推广事情。
2016年开始至今，卖力Office 365在中国创新产品开拓，成功发布officeplus.cn，微软AI识图，听听文档等产品发布。

【END】

每期AI知识网

微软语音 AI 技能与微软听听文档小轨范实践 AI ProCon 2019

斜体之美CSS斜体定义与设计应用

幻身科技发力VR软硬件领域打造通往元宇宙的金钥匙