机器之心编辑部

这项技能未来在虚拟人、短视频玩法、客服做事、直播互动玩法上有着很大的落地空间。

字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技能。
不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技能来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。

该方案的亮点如下:

柯南领结变成现实字节跳动SAMI宣告新一代实时AI变声筹划

在 CPU 单核上就能做到极低延迟的实时输入实时变声,就像 “柯南领结” 一样;能够高度还原输入语音的抑扬抑扬、情绪、口音,乃至连轻微的呼吸、咳嗽声也能还原;媲美真人的高保真音质,以及高度的目标音色同等性;

从语音合成到声音转换:探索更多元的声音玩法

语音合成作为人工智能的一个主要分支,旨在通过输入笔墨,经由人工智能的算法,合成像真人语音一样自然的音频,该技能已被广泛的运用于音视频创作场景中。
而比较语音合成,声音转换创造了新的语音交互形式:其不再须要输入笔墨,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情绪等同等。
相较于输入文本,输入音频包含了更丰富的副措辞信息,例如各个段落的情绪、抑扬抑扬、停顿等。
声音转换能够做到改变音色的同时,将这些副措辞信息很好的还原。

同基于深度学习的语音合成一样,声音转换的模型也由声学模型(acoustic model)和声码器(vocoder)组成。
声学模型通过内容编码器从输入音频中提取出发音内容序列,并通过音色编码器从参考音频中提取出音色特色,末了通过声音转换模型天生带有输入音频内容和参考音频音色的频谱;声码器卖力将声学模型天生的频谱还原为能够被设备直接播放的音频采样点:

面向实时场景的声音转换模型优化

相较于非实时场景下对完全音频的声音转换,实时声音转换有着更加丰富的落地场景。
范例的场景包括直播、虚拟人这类实时交互的娱乐场景,变声的结果须要在很短的延迟内实时流式的天生,才能担保音画同步。

实时声音转换的难点在于:1. 模型在每个时候只能获取到很短的未来音频片段,因此发音内容的精确识别更加困难;2. 流式推理的实时率(打算时长 / 音频时长)须要稳定小于 1,因此在设计模型时须要更加关注推理性能。
这给研发职员带来了更大的寻衅,一方面须要通过设计合理的模型构造来降落模型感想熏染野和推理延时,另一方面须要尽可能担保变声的发音内容、音色和音质不受影响。

为了达到上述哀求,研究职员对模型进行了一系列改进,使得模型的首包延时压缩到 250ms 旁边。
实时声音转换的整体框架如下:

对付内容编码器,研究职员采取细粒度发音提取模块代替了传统基于音素后验概率的方法,使得更多的发音细节、韵律情绪能够被保留下来,且显著降落了对模型感想熏染野的哀求;对付声音转换模型,研究职员结合了 chunk 级别的信息编码和帧级别的自回归解码,并引入了基于西席辅导的演习机制,从而确保了天生频谱的发音、音质和音色足够好;对付声码器,研究职员通过风雅的模型构造设计大大压缩了感想熏染野,并通过对抗天生演习提高了天生音频的自然度。

现实版“柯南领结”:各种繁芜场景不在话下

现实的语音交互中每每包含许多繁芜的场景,使得现有大部分的 AI 变声系统的转换结果变得极不自然。
例如,当用户输入中包含叹气、咳嗽这类声音时,现有系统方向于对其过滤而非保留,从而导致用户想表达的副措辞信息的丢失。
并且,现有系统的跨域性能较差,从而导致用户进行多语种 / 方言输入时,无法转换出精确的内容。
此外,现有系统在低延迟场景下的转换结果随意马虎涌现发音缺点与音色不稳定的问题。

相较于现有系统,本系统在各个场景下的转换效果均显著提升。
以下视频演示了无网环境下在 Macbook 上的实时流式变声效果。
用户通过蓝牙耳机实时输入语音,Macbook 实时输出变声结果,模型转换的均匀延迟大约 250ms:

视频加载中...

利用呆萌音色朗读“玛卡巴卡”,较难明得的文本也可以非常准确转换:

视频加载中...

输入方言也能够自然地转换,以上海话为例:

视频加载中...

提高一下难度,乃至连 B-box 的转换都毫无违和感:

视频加载中...

SAMI 的新一代 AI 变声系统对付繁芜场景的适应性显著提升。
这项声音转换做事可以支持云端在线做事形式输出,也支持本地化支配。
未来在虚拟人、短视频玩法、客服做事、直播互动玩法上有着很大的落地空间。

目前这项技能已经可以在火山引擎 - 音频技能下的声音转换模块(电脑端点击「阅读原文」)体验和开通。
针对一些商业化的互助,特殊是发音人的音色定制会严格审核音色的版权和授权容许。
一些实时性哀求比较高的业务,可以通过火山留资页沟通实时转换方案。

声音转换模块链接:https://www.volcengine.com/product/Voice-conversion

火山留资页:https://www.volcengine.com/contact/product?t=Voice-conversion