相信大家早已在各种场合听过机器人的语音,而且越来越觉得到他们就像真正的人在讲话。
比如舆图导航语音包,志玲姐姐和郭德纲老师的语音深受大家喜好。早期时候明星的语音包还很少,但是这两年语音包的种类和推出速率越来越快,给了大家更多元的选择。
那么这个场景背后的“黑科技”到底是什么呢? —— 本期关键词:语音合成。
什么是语音合成?语音合成是将笔墨转化整天然流畅的人声,能够支持多语种、多方言、多音色等。
科大讯飞的发音人选择与设置界面
最近几年,语音合成领域有了飞速发展,实现方法从拼接法到参数法再到现在的深度学习,合成速率越来越快,音质越来越拟真。
语音合成的关键步骤第一步:文本分析器
一段文案常日会包括中文、数字、分外字符等,须要将它们统一处理,并转化为能代表发音的音素和韵律。
音素是一种基本声音单位,可区分特定措辞中的不同字词。 音素序列能定义文本中供应的字词的发音。
第二步:声学模型音素序列会进着迷经声学模型,经由 Tacotron 等模型转化成预测定义语音旗子暗记的声学特性,例如音色、说话风格、速率、语调和重音模式。它们的输入是上一步得到的音素,经由神经网络模型的演习能够转化为对应的梅尔倒频谱。
梅尔倒频谱(Mel-Frequency Cepstrum, MFC)是一个可用来代表短期音频的频谱,在梅尔倒频谱上的频带是均匀分布于梅尔刻度上的,和人类非线性的听觉系统更为靠近。
第三步:声码器神经语音解码器会将声学特性转换为可听见的波形,以便合成终极的语音。
语音合成的运用
说完酷炫的关键词,我们再来看看语音合成技能已经哪些成熟的运用处景。
资讯播报
比如不少新闻平台和阅读平台都供应了AI合成音播报,而且可以选择不同风格的声音。比如新闻播报者语气平稳字正腔圆,就像真正的主播一样。
语音播报在舆图导航、订单播报、签到等场景中,语音提醒能够更好传达当前的信息,而且多样的音色可以让平凡常见的环节多了一丝意见意义。比如舆图产品中的语音包深受大众喜好,俨然已经成了各家的产品竞争力。
有声阅读
阅读平台上则会供应甜美可爱、洒脱武侠平分歧风格的语音包。虽然目前的朗读效果还比不上真人配音,但是说不定AI算法正在悄悄努力,然后在不远的将来就能惊艳所有人~
视频配音现在视频中的声音,也是AI合成的;大幅降落了创作者的视频制作本钱,多样的配音也提升了视频的质量。
智能交互
大家比较熟习微软的小娜和小冰,苹果公司的 Siri、百度的小度、阿里的小蜜、小米的小爱同学等,他们不仅能够听懂用户的指令和措辞,而且能够用特定的音色进行回答。比如小冰是18岁的少女,小度是可爱的年轻人,小爱是甜美少女等,语音让交互更自然,也有更广的运用处景。
除此之外,越来越多的虚拟主持人也开始进入到大众的视野。比如以撒贝宁为原型的“小小撒”,他们可以将任何输入的笔墨都用主持人的声音读或唱出来,乃至能利用中日英韩四种措辞,这些都离不开语音合成的运用。
既然声音已经有了,那么形象该怎么天生呢?让我们下期再见!