AI原声翻译火遍全网克隆声音口型也同步人工智能

还有一段马斯克采访视频中马斯克流畅地用法语向媒体侃侃而谈，阐述他对付AIl威胁的意见：不仅音色、语气以假乱真，就连口型也毫无马脚。

HeyGen AI型同步短视频内容翻译：

用户利用HeyGen制作了马斯克，梅西和扎克伯格用多种外语讲话的片段要达到视频中的效果，须要同时知足三个条件：隧道的口语翻译、克隆说话者的声音和更换嘴型。

声音克隆通过上传少量音频样本天生与原音色极为靠近的声音。
口型同步通过TTS(TextTo Speech)等技能实现，而且目前的TTS技能已向个性化TTS向情绪TTS发展，这使AI配音更生动富于感情变革，以肃清冷冰冰不自然的机器感。

现先容其它同类AI工具：

·1、AI Dubbing。
AI Dubbing结合了ElevenLabs的多措辞语音合成。
声音克隆文本和音频处理技能可以把任意一段音频或者视频快速翻译为包括中文、日语等在内的29种措辞，同时保留原语音者的音色特色和情绪。

操作大略还可以粘贴Youtube TikTokX(Twitter)Vimeo 以及任意视频的链接进行创建，开始音频克隆预览效果。
在高等选项中还可以选择原视频中的人物数量、视频质量以及其他设置紧张特点：

→1、本土化。
能根据目标措辞的文化和习气进行本地化，使其更加贴近当地听众。

→2、去噪功能。
能够区分派景音乐和噪音与对话，从而去除背景噪音。

→3、快速处理。
在几秒钟内完成视频内容的语音翻译和配音。

→4、高质量音频：AI天生的音频轨道旨在听起来自然和真实。

→2、lift up LipDub由Headof成开拓成立于2021年。
目前LipDub支持28种措辞可以识别讲话人的唇部动作。
在配音翻译中加入口型匹配功能。
LipDub能够准确识别视频中的语音。

·利用GPT-4将其翻译成其他措辞，并利用"zero-shot model(零样本模型)"算法将翻译后的语音与视频人物的口型进行匹配。

·利用大略上传一段视频选择目标措辞，得到带有新语音和口型同步的翻译视频。

·3、Verbalate和LipDub和HeyGen一样。
Verbalate可将用户的视频配音成目标措辞。
不同之处在于Verbalate可处理长达30分钟的视频。
Verbalate创始人Hair·成立该平台最初的想法是出于疫情期间澳大利亚封锁期间的无聊。

更多人工智能领域讯息，敬请关注"大众号"AI时期2023"。

每期AI知识网