若何让 AI 语音合成听上去更有人情味

丹棱君有话说：“听”时期来临，德勤预测有声读物市场规模将在 2020 年大规模提升。
不断成熟的智能语音能力将帮助干系企业提高生产力和用户体验。
作为微软 AI 能力的一部分，微软智能语音性能已可媲美人类水平，经由不断技能迭代，合成的语音越来越有“人情味”，运用越来越广泛，这是如何实现的？来跟丹棱君一探究竟。
对了，微软在线技能峰会来日诰日即将开幕，扫描文末二维码来报名吧。

措辞的多模态运用在不知不觉间已成为人们生活中习以为常的技能，一句大略的语音识别转写、一次短暂的智能客服答疑……这些都是 AI 语音交互技能运用为人们生活带来的便利，与此同时，其社会代价与意义也在被重新估判......

人机交互，机器的声音越来越须要“温度”

语音技能从根本上改变了人和机器的关系，也彻底改变了我们与软件交互的办法。
它紧张分为语音识别（Speech Recognition, 或者 Speech to Text）、语音合成（Speech Synthesis, 或者 Text to Speech）、自然措辞处理。
个中，语音合成技能发展最早，且运用已较为普遍。

若何让 AI 语音合成听上去更有人情味

让打算机具有类似于人一样的说话能力，是当今时期信息家当的主要竞争市场。
语音合成技能通过机器自动将笔墨信息转化为语音，相称于给机器装上了人工嘴巴。
而完美的人机交互体验无法忽略“说”的环节，因此，语音合成的主要性日益凸显。

从早期的机器化语音合成开始发展至今，语音合成的运用处景经历了较大的转变。
以前语音合成运用都是在相对单调的场景，现在其运用处景更加繁芜，智能助手、智能机器人、文学阅读等诸多领域都能见到语音合成技能的身影。

在语音合成技能运用不断深入的同时，已有的商业模式也对场景优化提出了更高的哀求。
例如，在有声读物方面，用户需求越来越个性化，单调的机器声已完备不足；在机场、车站广播等做事行业，温顺、甜美的音质更能拉近与搭客的间隔；在听新闻内容时，人们每每期待一个有威信的、端庄的声音；而在客服助理场景下，人们又希望这个声音可以更加激情亲切亲切，善解人意...... 因此，如何让合成的声音听起来自然并富有情绪，是语音合成领域的一个紧张发展方向。

利用基于深度神经网络的语音合成系统增强语音交互真实感

在传统语音合成技能中，波形拼接合成方法无疑霸占着重要的地位。
其基本事理便是根据输入文本的信息，从人工录制与标注的语料库中挑选得当的基元（常日为音素或音节），进行少量的调度，然后采取波形拼接的办法得到与待合成文本相对应的语音序列。
但是波形拼接合成方法须要准备海量的高质量语料，同时，该方法也不具备扩展性，不能面向需求适应到不同的运用处景。

为了提升合针言音自然度、降落语音天生对语料库的依赖度，并增加语音合成系统的可扩展性，研究者们又提出了参数化的合成方法。
在同等数据规模下，参数合成的方法能够产生比较拼接合成方法自然度更好的合针言音。
然而，这个方法也还存在着很大的局限性，比如在字边界处会存在明显的拼接痕迹，使其合针言音与自然语音有着很大的差异，不能知足人们对自然语音合成的期望。

近年来，随着机器学习技能的不断成熟，基于深度神经网络的建模方法逐渐被语音合成领域的研究者所采取。
微软作为最早参与语音合成技能研发与生产的公司之一，基于 30 年的技能积累微软率先于 2018 年在环球范围内推出了端到真个深度神经网络语音合成做事（Neural Text to Speech, Neural TTS），将合针言音的音质与自然度提升到与人类靠近的水平。

该系统利用深度神经网络来战胜传统的文本到语音转换系统的局限性，匹配口语中的语音抑扬和语调模式和韵律，并将语音单元合成为打算机语音。
由此合成的语音在节奏、语调和抑扬感上都险些和真人一样，具备人类语音一样的自然韵律和词汇清晰度。
这可以在人类与 AI 系统交互时大大减轻听觉疲倦，是语音合成领域的重大打破。

目前，微软的 AI 语音技能做事支持环球近 50 种措辞，已遍及 140 个国家和地区。
个中，端到端神经网络语音合成技能已支持 5 种措辞（英文、中文、德语、葡萄牙语、意大利语），为教诲传授教化、业务出海、有声书等领域供应着坚实的技能支持。

2019 年 1 月 31 日，微软 AI 智能女声“晓晓”在央视新闻联合微软 AI 推出的互动融媒体产品《你的生活 AI 为你唱作》中正式亮相，这是基于微软 Azure 云的端到端深度神经网络语音模型的语音合成做事。
微软晓晓不仅在语气、语音、语调等方面无限靠近真人效果，还可以用带有不同的“情绪”的声音效果知足不同的场景需求。

2019 年 2 月 20 日，小米正式发布人工智能语音手机小米 9。
不同于以往提前录制好的语音做事，其内置的人工智能版王源成为一大亮点。
通过与微软 AI 语音的互助，小米 9 可以实时、在线合成王源的声音，随时向用户问好，陪用户谈天并送上节日祝福。
这些都让“米粉们”欣喜不已。

2019 年 11 月，微软更进一步推出了基于深度神经网络语音合成技能的声音定制服务 Custom Neural Voice 的预览。
该做事能利用极少量的声音样本定制出各式各样的高度仿真的人工智能声音，且效果更加自然逼真。

事实上，无论是在 AI 行业还是用户群体中，AI 语音定制的能力始终被抱以高度期待。
利用 AI 仿照人声，不仅可以注入陪伴、影象等诸多社会情绪成分，还能借助用户熟习的声音触发更多的运用想象。
而微软的 Custom Neural Voice 能够将制作一个高品质声音所须要的演习数据规模降落到十分之一乃至更低，这也让 AI 语音定制化这件事，不用耗费过多韶光和资源，以更加大略的办法就能轻松“飞入平凡百姓家”。

不忘爱与任务，微软授予 AI 语音真正的“人情味”

在普通群体供应智能、前辈的技能产品的同时，微软也在借自身前辈的 AI 语音技能为残障人士的生活供应便利。
对付只能通过触摸和听觉来感知天下的视障人士而言，阅读是一种奢望，他们常日是通过触摸阅读盲文书本，耗时是健全人的数倍。
或者用读屏软件或者其他技能通过语音得到信息。
为了让视障人士拥有更好的阅读体验，微软与红丹丹视障文化做事中央达成互助，探索研究利用 AI 技能将笔墨合成电子有声读物。

2014 年，微软和红丹丹一起为视障人士在 Azure 上搭建了云端有声图书馆——心目图书馆，为盲人朋友供应便捷的有声图书阅读做事，丰富他们的文化生活，不断学习和进步。
目前，该图书馆已经覆盖全国 105 所盲校，越来越多的人通过有声图书感知到天下的精彩。

2019 年，微软人工智能中文女声“晓晓”通过自动合成有声读物，帮忙红丹丹极大提高了制作有声内容的效率。
微软的深度神经网络声音定制服务 Custom Neural Voice 更是基于红丹丹培养出的全国第一个视障播音员董丽娜老师的语音数据作为原型，为红丹丹定制了一个发音标准、情绪饱满、同时为盲人朋友们所熟习的人工智能声音，并供应了一套基于 AI 语音的智能有声内容创作平台，使红丹丹及其志愿者们可以通过界面化的操作，快速地利用不同的音色天生有声内容，办理了之古人工有声内容创作周期长以及传统 TTS 合成声音情绪单一等问题，显著改进了视障人士有声读物匮乏且读物声音机器、空洞的阅读体验。

未来，微软还将持续更新智能技能，让 AI 语音成为视障人士感知天下、深入理解文化的坚固桥梁。

随着语音合成技能的快速发展，机器所天生的语音一定会越来越自然生动，也会越来越具有情绪表现力。
作为环球最早投入人工智能研究的企业，微软也会在一次次升级和迭代中，不断冲破技能原有的障碍，知足越来越多的不同用户需求。
用技能改变生活，用声音通报温度，微软身体力行地用自己的行动完成着自己的义务——予力环球每一人、每一组织造诣非凡。

在语音识别领域，微软的智能语音识别技能也已支持近 40 种措辞，涵盖实时语音识别、批量语音转写和后语音质检等多种场景。
据理解，微软呼叫中央语音做事已落地包括好事达（Allstate）、毕马威（KPMG）、中国移动、联合利华（ Unilever）在内的科技、保险、通讯等行业的多家世界五百强企业。

预报

4 月 17-18 日，为期两天的微软在线技能峰会特在 18 日当天设置了全天的【 AI&IoT 】专场，届时将会在此专场下进行【微软 AI 语音云圆桌会议：如何利用语音技能应对繁芜对话识别和情绪声音合成等多种寻衅】的内容分享，通过技能实现到场景运用，集中先容微软在 AI 语音方面的最新成果，扫描下方二维码即可报名参加。

本文转自 InfoQ，作者佘磊

每期AI知识网

若何让 AI 语音合成听上去更有人情味

砖块破坏者攻略通关流程步骤要点介绍

运用Kimi生成论文中的流程图