AI 小常识文字是怎么转化成流畅自然的人声的

相信大家早已在各种场合听过机器人的语音，而且越来越觉得到他们就像真正的人在讲话。

比如舆图导航语音包，志玲姐姐和郭德纲老师的语音深受大家喜好。
早期时候明星的语音包还很少，但是这两年语音包的种类和推出速率越来越快，给了大家更多元的选择。

那么这个场景背后的“黑科技”到底是什么呢？ —— 本期关键词：语音合成。

什么是语音合成？

语音合成是将笔墨转化整天然流畅的人声，能够支持多语种、多方言、多音色等。

AI 小常识文字是怎么转化成流畅自然的人声的

科大讯飞的发音人选择与设置界面

最近几年，语音合成领域有了飞速发展，实现方法从拼接法到参数法再到现在的深度学习，合成速率越来越快，音质越来越拟真。

语音合成的关键步骤第一步：文本分析器

一段文案常日会包括中文、数字、分外字符等，须要将它们统一处理，并转化为能代表发音的音素和韵律。

音素是一种基本声音单位，可区分特定措辞中的不同字词。
音素序列能定义文本中供应的字词的发音。
第二步：声学模型
音素序列会进着迷经声学模型，经由 Tacotron 等模型转化成预测定义语音旗子暗记的声学特性，例如音色、说话风格、速率、语调和重音模式。
它们的输入是上一步得到的音素，经由神经网络模型的演习能够转化为对应的梅尔倒频谱。
梅尔倒频谱（Mel-Frequency Cepstrum, MFC）是一个可用来代表短期音频的频谱，在梅尔倒频谱上的频带是均匀分布于梅尔刻度上的，和人类非线性的听觉系统更为靠近。
第三步：声码器
神经语音解码器会将声学特性转换为可听见的波形，以便合成终极的语音。
语音合成的运用
说完酷炫的关键词，我们再来看看语音合成技能已经哪些成熟的运用处景。
资讯播报
比如不少新闻平台和阅读平台都供应了AI合成音播报，而且可以选择不同风格的声音。
比如新闻播报者语气平稳字正腔圆，就像真正的主播一样。
语音播报
在舆图导航、订单播报、签到等场景中，语音提醒能够更好传达当前的信息，而且多样的音色可以让平凡常见的环节多了一丝意见意义。
比如舆图产品中的语音包深受大众喜好，俨然已经成了各家的产品竞争力。
有声阅读
阅读平台上则会供应甜美可爱、洒脱武侠平分歧风格的语音包。
虽然目前的朗读效果还比不上真人配音，但是说不定AI算法正在悄悄努力，然后在不远的将来就能惊艳所有人~
视频配音
现在视频中的声音，也是AI合成的；大幅降落了创作者的视频制作本钱，多样的配音也提升了视频的质量。
智能交互
大家比较熟习微软的小娜和小冰，苹果公司的 Siri、百度的小度、阿里的小蜜、小米的小爱同学等，他们不仅能够听懂用户的指令和措辞，而且能够用特定的音色进行回答。
比如小冰是18岁的少女，小度是可爱的年轻人，小爱是甜美少女等，语音让交互更自然，也有更广的运用处景。
除此之外，越来越多的虚拟主持人也开始进入到大众的视野。
比如以撒贝宁为原型的“小小撒”，他们可以将任何输入的笔墨都用主持人的声音读或唱出来，乃至能利用中日英韩四种措辞，这些都离不开语音合成的运用。
既然声音已经有了，那么形象该怎么天生呢？让我们下期再见！

每期AI知识网

AI 小常识文字是怎么转化成流畅自然的人声的

艺术家将宠物照片画成油画肖像百分百还原度受到人们的喜好

CMU创建一个开源的AI代码生成模型C措辞表现优于Codex

每期AI知识网

AI 小常识 文字是怎么转化成流畅自然的人声的

艺术家将宠物照片画成油画肖像百分百还原度受到人们的喜好​

CMU创建一个开源的AI代码生成模型C措辞表现优于Codex

AI 小常识文字是怎么转化成流畅自然的人声的

艺术家将宠物照片画成油画肖像百分百还原度受到人们的喜好