该论文重点探究了如何利用视觉发声实现零样本语音合成,该方法在多模态数据集的预演习阶段结合了模态对齐,通过在预演习权重中冻结视频模态特色提取器和编码器模块的过程,独特地促进了零样本泛化,从而实现了有效的跨模态和跨措辞迁移。

国际打算措辞学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)创立于1962年,距今有62年的历史,是自然措辞处理(NLP)领域的顶级国际会议,ACL 2024于2024年8月11-16日在泰国曼谷举行。
据官方资料显示,2024年ACL会议共收到4835篇投稿,主会议任命940篇,任命率约21.3%。

随着短视频和在线会议在日常生活和事情场景中的广泛运用,跨措辞沟通的障碍已成为一个紧迫的问题,因此多模态技能引起了广泛关注。
最近,在这一领域呈现了很多主要的研究成果,例如视频到文本的Lip Reading,视频到音频的Lip2Wav,以及基于口型进行目标措辞直接转换的口型翻译。

在口型翻译领域,跨措辞音视频匹配的演习数据是极度稀缺的,导致这一任务难以进行,亟待办理。
此外,口型与语音之间的关系并非总是大略的一对一映射。
因此,保持精准的跨措辞音唇同步也是当前该领域的一个重大寻衅。

视觉发声实现零样本语音合成华为云论文入选顶会ACL 2024

基于以上缘故原由,论文提出Uni-Dubbing模型,采取了将离散单元作为中间目标的策略,即将音频和视频数据转换为离散单元进行对齐,可以有效规避配对音频和视频数据不敷的劣势。
其目标有两个:

高质量和低偏差

在全样本推理时,能够识别视频中的性别信息,以便以最小的偏差天生相应的语音。

零样本

在全样本推理根本上,演习模型零样本泛化能力以确保实用性。

论文紧张贡献如下:

提出一种跨模态零样本泛化的方法Uni-Dubbing,用于口型转换到语音的任务。
Uni-Dubbing仅利用目标语音进行演习,在词缺点率(WER)、声音质量和同步性方面与顶尖的全样本翻译模型相称。
在LRS3数据集上,Uni-Dubbing达到了最前辈的性能,在WER、ESTOI、LSE-C和LSE-D方面,能够部分保留音色,可以区分未见过的说话者的语音特色。
Uni-Dubbing能够从单一措辞视频中创建目标措辞的音频,无需利用音视频数据演习。
这简化了演习过程,减少了在跨措辞配音中对弘大数据集的需求,同时减少了噪音。

大量实验验证了Uni-Dubbing的强大天生能力,以下是Uni-Dubbing的推理结果与GT及当前的SOTA方法ReVISE的比拟。

▲英语口型转换到英语语音

以下是Uni-Dubbing的跨措辞推理结果与当前的SOTA方法AV-Transpeech的比拟。

▲英语口型转换到西班牙语语音

▲英语口型转换到法语语音

希望通过以上研究,加深对单模态音频数据在多模态任务中的理解和利用,从而为该领域的发展开辟新的道路。

关注@华为云,理解更多资讯