三段语音说的是同一句话:“你好,我是 Guillermo,你怎么样?(How's it going, hey, this is Guillermo. How are you?)”

只不过第一段是西班牙语原声(Qué tal, eh, yo soy Guillermo, ¿Cómo estás?),第二段是标准的人类英语翻译,而第三段则是AI合成的英语翻译,来自于谷歌 AI 最新的语音翻译模型 Translatotron。

该模型是一个基于把稳力机制(Attention)的端到端语音翻译神经网络。
它不同于传统语音翻译技能,在翻译的过程中省略了中间步骤,完备不须要进行语音转笔墨和完成翻译的笔墨转语音,而是根据翻译内容,考试测验匹配不同措辞的语音频谱图(speech spectrogram),直接完针言音之间的转换。

换句话说,我们刚才听到的第一段西班牙语和第三段英语片段,AI在翻译的过程中,没有利用到任何语音转笔墨的技能,也没有利用西班牙语和英语的笔墨翻译技能,只有纯粹的语音转换。

谷歌AI推出端到端纯语音翻译技能有望成为未来的机械同传

虽然从翻译的准确率来看,Translatotron 模型还比不过传统翻译技能,但这种端到真个联合优化思路确实冲破了主流语音翻译技能的基本事理,具有很强的启示性和拓展性。

目前谷歌只利用了西班牙语和英语语音作为观点验证,研究成果以预印本的形式揭橥在 Arxiv 和谷歌 AI 博客上。

冲破常规思路

不同措辞之间的语音转笔墨和翻译,是近年来机器学习领域的热门研究方向,尤其是语音到语音的直接翻译。

常日来讲,语音翻译过程可以分解成三个步骤。

第一步是语音识别,便是将英文语音内容识别出来,并且以笔墨的形式表达出来,比如听到“How are you?”这句话,就写出 How,are,you 三个单词和问号。

第二步是笔墨翻译,便是将上一步拿到的笔墨翻译成目标语种,比如写出“你好吗?”这句话。

末了一步是语音合成,也便是将翻译好的文本组合成一段语音,然后播放出来。

图 | 不同模型从西班牙语到英语的语音翻译比拟

谷歌翻译等当下常见的语音翻译软件都遵照了这一思路,并且对每一步骤进行了很多优化,比如引入端到端模型(End-to-end model)。
这是一种将三个步骤结合起来,比如建立语音旗子暗记到笔墨映射,进而实现整体优化的模式。

在谷歌研究职员看来,他们提出的 Translatotron,是之前很多端到端研究成果的进一步延伸,可以直接抛弃笔墨翻译这一中间步骤,成功在神经网络的帮助下,实现了不同措辞语音片段的直接转换。

图 | 不同语音的声音频率VS韶光热图

他们利用的是一套序列到序列模型(Sequence-to-sequence model),即演习 AI 将有关联的连续数据视为一段整体(英文句子),然后直接转化为另一段不同的整体(中文句子)。

在 Translatotron 中,研究职员选择了语音片段的频谱图作为序列,上面描述了语音频率随韶光变革的热图。
它们会作为输入值进入到神经网络中,随后经由8层堆叠双向是非时影象网络(BLSTM)编码器,频谱与自动语音识别特色结合,多头把稳力和频谱解码器等多个模块,完成对语音频谱特色的提取,转换和天生等任务。

经由上述一系列转换后,西班牙语语音频谱就变成了对应的英语语音频谱,末了可以通过声码器(vocoder)合成我们听到的语音。
如果须要的话,还可以利用额外预演习好的 Speaker 编码器捕捉语音源的声音特点,添加到合针言音当中,让两者听起来更加相似。

图 | Translatotron的事情事理

在演习过程中,Translatotron还利用了多任务学习技巧(multitask learning),引入了四个是非时影象网络解码器。

上图的赞助识别任务区域(Auxiliary recognition tasks)便是卖力在天生目标语种频谱图的同时,也顺便学习一下如何预测语音的成分和笔墨内容。
只不过它们没有被用来进行推理,否则就不是纯语音翻译了。

为了测试翻译质量,研究职员利用了机器翻译评估算法 BLEU,最好成绩达到了基准表现的76%。

他们认为,这一成绩虽然不及主流的传统语音翻译技能,但 Translatotron 作为一个观点验证,足以证明抛弃机器翻译和笔墨转换的思路行得通,而且可能还在还原音色等方面拥有更大的潜力。

下一步,谷歌团队将考试测验降落演习过程中的监督水平,扩大合成数据和多任务学习的规模,并且探索其他可以转移的声音元素,改进合针言音的质量。

不得不说,直接在不同措辞之间转换音频的想法还是很有创意的,而且极富寻衅性,对特色提取质量,语音频谱绘制和噪声抵抗能力提出了更高的哀求,足以启示其他团队,成为一个新的研究方向。

如果你还想听听更多语音的翻译效果,可以访问Demo网站:

https://google-research.github.io/lingvo-lab/translatotron/