杀疯了谷歌卷视频到语音逼真音效让AI视频拜别无声

编辑：杨文

AI圈这各处着花的大好局势，让吃瓜群众们甚是惊喜。
这几天，大洋彼岸杀疯了！
Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。
（查看详情请移步：Runway 版 Sora 发布：高保真、超强同等性，Gen-3 Alpha 震荡到网友了）
更没想到的是，一觉醒来，Google DeepMind 也有了新，悄咪咪地发布了视频天生语音（V2A）技能的进展。
虽然这一功能还未向"大众年夜众开放，不过从官方放出的视频 Demo 来看，效果那是相称丝滑。
同时，Google DeepMind 强调，所有示例均由 V2A 技能和他们最前辈的天生视频模型 Veo 联手打造。
音频提示: 紧张刺激的胆怯片配乐，脚步声在混凝土上回响。
（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）
视频加载中...
黑灯瞎火的废弃仓库中，一个黑衣人犹如鬼魅般缓行，再配上诡异的音乐和脚步声，胆怯气氛拉满。
音频提示: 狼在月光下的长嚎。
（Wolf howling at the moon）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
视频 Demo 一出，评论区清一水的追问：啥时候能用？
还有网友寄希望于开源社区当一回赛博菩萨，复制谷歌的这一技能。
实在，就在 Google DeepMind 官宣没多久，AI 音频领域的「扛把子」ElevenLabs 横插一脚，开源了一个上传视频自动配音的项目，可以为视频天生得当的音效。
链接：
https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects
如今 AI 圈子的竞争已呈白热化，大小厂的你追我赶将会创造更加公正的竞争环境，而一旦这些技能成熟，AI 视频领域将会有无限可能。
AI 视频告别无声电影
众所周知，视频天生模型正以惊人的速率发展。
不过，无论是年初惊艳众人的 Sora，还是近期的可灵、Luma、Gen-3 Alpha，天生的全是「无声电影」，无一例外。
而 Google DeepMind 的视频天生音频 (V2A) 技能，使得同步的视听天生成为可能。
它可以结合视频像素和自然措辞文本提示，为屏幕上的动作天生丰富的配音。
从技能运用上来说，V2A 技能能够与 Veo 等视频天生模型结合，创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。
它还能为档案材料、无声电影等传统影像天生音轨，拓宽创作的可能。
音频提示: 可爱的幼年恐龙在丛林中啁啾，伴随着蛋壳的分裂声。
（Cute baby dinosaur chirps, jungle ambience, egg cracking）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
音频提示: 汽车打滑声、引擎轰鸣声，伴随着天使般的电子音乐。
（cars skidding, car engine throttling, angelic electronic music）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
音频提示: 日落时分，草原上响起悠扬的口琴声。
（a slow mellow harmonica plays as the sun goes down on the prairie）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
V2A 技能能够为任何视频输入天生无限数量的音轨。
用户可以选择定义「正向提示」来勾引天生期望的声音，或者「负向提示」来避免不期望的声音。
这种灵巧性让用户对音频输出有了更多的掌握，可以快速考试测验不同的音频输出，并选择最佳匹配。
音频提示：一艘宇宙飞船在浩瀚的太空中奔跑，星星在它周围划过，高速翱翔，充满科幻感。
（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
音频提示：天籁般的大提琴氛围（Ethereal cello atmosphere）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
音频提示：一艘宇宙飞船在广袤的太空中高速穿梭，星星在它周围飞速掠过，具有科幻感。
（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
背后的事情事理
研究团队考试测验了自回归和扩散方法，以创造最可扩展的 AI 架构。
扩散方法在音频天生上给出了最真实和引人入胜的结果，用于同步视频和音频信息。
V2A 系统首先将视频输入编码成压缩表示，然后扩散模型从随机噪声中迭代细化音频。
这个过程由视觉输入和给定的自然措辞提示辅导，天生与提示紧密对齐的同步、逼真音频。
终极，音频输出被解码成音频波形，并与视频数据结合。
为了天生更高质量的音频并勾引模型天生特定声音，研究团队在演习过程中添加了更多信息，包括 AI 天生的注释，详细描述声音和对话文本。
通过在视频、音频和额外注释上的演习，该技能学会将特定的音频事宜与各种视觉场景关联起来，同时相应注释或文本中供应的信息。
谷歌方面强调，他们的技能与现有的视频到音频办理方案都不同，由于它可以理解原始像素，并且添加文本提示是可选的。
此外，该系统不须要手动对天生的声音与视频进行对齐，极大地简化了创作流程。
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
不过，谷歌的这一技能也并非完美，他们仍在努力办理一些 bug。
例如，视频输入的质量直接影响音频输出的质量，视频中的伪影或失落真可能导致音频质量低落。
同时，他们也在优化唇形同步功能。
V2A 技能考试测验从输入文本中天生语音，并将其与角色的口型动作进行同步，但若视频模型未针对文本内容进行相应的调度，就可能导致口型与语音不同步。
他们正改进这一技能，以提升唇形同步的自然度。
音频提示：音乐，文本转录「这只火鸡看起来好极了，我好饿。
」（Music, Transcript: “this turkey looks amazing, I’m so hungry”）
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd
或许是由于深度假造技能带来诸多社会问题，Google DeepMind 求生欲满满，一个劲承诺将负任务开拓和支配 AI 技能，在向公众年夜众开放之前，V2A 技能将经由严格的安全评估和测试。
此外，他们还整合了 SynthID 工具包到 V2A 研究中，为所有 AI 天生的内容添加水印，以防止技能的滥用。
参考链接：
https://deepmind.google/discover/blog/generating-audio-for-video/
https://x.com/GoogleDeepMind/status/1802733643992850760

每期AI知识网

杀疯了谷歌卷视频到语音逼真音效让AI视频拜别无声

成吉思汗的女儿们若何使他成为东方霸主成吉思汗

京剧包装CD包装设计/海报设计/传统文化宣传