这种惊人表现背后的技能理念便是从不同说话者中独立学习共通的和差异性的信息。而且在此根本上,百度的研究职员们打算更进一步,考试测验只从几秒长度的短句中学习说话者的声音特点。常日我们把这类问题称为「语音克隆」。在人际交互接口的个性化订制场景中,研究者们预期语音克隆很可能会有主要浸染。
为理解决语音克隆问题,在这项研究中百度的研究职员们把把稳力紧张放在了两种根本方法上:讲话人适配(speaker adaptation)和讲话人编码(speaker encoding),详细细节可参考上图。两种方法都可以用在带有讲话人嵌入(speaker embeddings,https://arxiv.org/pdf/1710.07654.pdf)的多讲话人语音天生模型中,同时还不降落天生的语音的质量。在天生语音的自然性和比较原讲话人的相似性方面,两种方法也都只须要很少的克隆样本就可以展现良好的表现。克隆天生的样本可以拜会https://audiodemos.github.io./。
讲话人适配方法是利用数个克隆样本,通过基于反向传播的优化方法对多讲话人语音天生模型做风雅调节(fine-tune)。适配方法可以浸染于全体模型,或者只浸染于低维度的讲话人嵌入;后者表征每个讲话人所需的参数数量要少得多,只管须要更长的克隆韶光,天生的语音的质量也要稍差一些。
讲话人编码方法中须要演习一个单独的模型,用它直接从要克隆的语音样本中推断出新的讲话人嵌入,然后再把这个讲话人嵌入用在多讲话人语音天生模型中。这个讲话人编码模型中带有时域和频域的处理模块,可以从每个音频样本中提取得到关于讲话人身份的信息,然后用把稳力模块把这些信息以最优办法结合起来。讲话人编码方法的好处包括克隆速率快(只须要几秒韶光)、表征每个讲话人须要的参数数目少,使得这种方法更适用于在资源有限的环境中利用。
除了在研究中准确估测讲话人嵌入外,百度的研究职员们还创造讲话人编码器可以学会故意义地把不同的讲话人映射到嵌入空间中。比如,来自不同地域、性别、口音的讲话人可以被分别聚类。通过在学到的隐含空间中进行操作,就可以把某个说话者的性别或者口音转换成图中的样子。根据研究员们的测试结果表明,对付为新的讲话人天生语音以及模拟讲话人的声音特点,他们所提的方法非常有效。
AAAI 主席 Subbarao Kambhampati 也饶有兴趣地转发了百度先容这项成果的技能博客,希望这个技能抓紧实用起来,只要设置好了自己的声音,哄小孩睡觉的时候就再也不用花韶光讲睡前故事了,有声读书器就可以用爸爸妈妈的声音讲故事。(不过雷锋网 AI 科技评论编辑也担心这大概不利于培养亲子感情吧……)
论文地址:https://arxiv.org/pdf/1802.06006.pdf
via Baidu Research,雷锋网 AI 科技评论编译