相信大家早已在各种场合听过机器人的语音,而且越来越觉得到他们就像真正的人在讲话。

比如舆图导航语音包,志玲姐姐和郭德纲老师的语音深受大家喜好。
早期时候明星的语音包还很少,但是这两年语音包的种类和推出速率越来越快,给了大家更多元的选择。

那么这个场景背后的“黑科技”到底是什么呢? —— 本期关键词:语音合成

什么是语音合成?

语音合成是将笔墨转化整天然流畅的人声,能够支持多语种、多方言、多音色等。

AI 小常识  文字是怎么转化成流畅自然的人声的

科大讯飞的发音人选择与设置界面

最近几年,语音合成领域有了飞速发展,实现方法从拼接法到参数法再到现在的深度学习,合成速率越来越快,音质越来越拟真。

语音合成的关键步骤第一步:文本分析器

一段文案常日会包括中文、数字、分外字符等,须要将它们统一处理,并转化为能代表发音的音素和韵律。

音素是一种基本声音单位,可区分特定措辞中的不同字词。
音素序列能定义文本中供应的字词的发音。

第二步:声学模型

音素序列会进着迷经声学模型,经由 Tacotron 等模型转化成预测定义语音旗子暗记的声学特性,例如音色、说话风格、速率、语调和重音模式。
它们的输入是上一步得到的音素,经由神经网络模型的演习能够转化为对应的梅尔倒频谱。

梅尔倒频谱(Mel-Frequency Cepstrum, MFC)是一个可用来代表短期音频的频谱,在梅尔倒频谱上的频带是均匀分布于梅尔刻度上的,和人类非线性的听觉系统更为靠近。

第三步:声码器

神经语音解码器会将声学特性转换为可听见的波形,以便合成终极的语音。

语音合成的运用

说完酷炫的关键词,我们再来看看语音合成技能已经哪些成熟的运用处景。

资讯播报

比如不少新闻平台和阅读平台都供应了AI合成音播报,而且可以选择不同风格的声音。
比如新闻播报者语气平稳字正腔圆,就像真正的主播一样。

语音播报

在舆图导航、订单播报、签到等场景中,语音提醒能够更好传达当前的信息,而且多样的音色可以让平凡常见的环节多了一丝意见意义。
比如舆图产品中的语音包深受大众喜好,俨然已经成了各家的产品竞争力。

有声阅读

阅读平台上则会供应甜美可爱、洒脱武侠平分歧风格的语音包。
虽然目前的朗读效果还比不上真人配音,但是说不定AI算法正在悄悄努力,然后在不远的将来就能惊艳所有人~

视频配音

现在视频中的声音,也是AI合成的;大幅降落了创作者的视频制作本钱,多样的配音也提升了视频的质量。

智能交互

大家比较熟习微软的小娜和小冰,苹果公司的 Siri、百度的小度、阿里的小蜜、小米的小爱同学等,他们不仅能够听懂用户的指令和措辞,而且能够用特定的音色进行回答。
比如小冰是18岁的少女,小度是可爱的年轻人,小爱是甜美少女等,语音让交互更自然,也有更广的运用处景。

除此之外,越来越多的虚拟主持人也开始进入到大众的视野。
比如以撒贝宁为原型的“小小撒”,他们可以将任何输入的笔墨都用主持人的声音读或唱出来,乃至能利用中日英韩四种措辞,这些都离不开语音合成的运用。

既然声音已经有了,那么形象该怎么天生呢?让我们下期再见!