DeepMind 写道:\"大众视频天生模型正以惊人的速率发展,但目前的许多系统只能天生无声输出。V2A技能[可能]成为让天生的电影维妙维肖的一种有出息的方法\"大众。
DeepMind的V2A技能可以将配乐描述(例如\公众水母在水下跳动、海洋生物、海洋\公众)与视频配对,创造出与视频中的人物和语气相匹配的音乐、音效乃至对话,并通过DeepMind的SynthID深度防伪技能打上水印。DeepMind 表示,为 V2A 供应动力的人工智能模型(一种扩散模型)是在声音和对话文本以及视频剪辑的组合上演习出来的。
DeepMind 写道:\公众通过对视频、音频和附加注释进行演习,我们的技能学会了将特定音频事宜与各种视觉场景联系起来,同时对注释或文本中供应的信息做出相应。\"大众关于演习数据是否受版权保护,以及数据创建者是否被奉告 DeepMind 的事情,目前还不得而知。
人工智能驱动的声音天生工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款,ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中天生说话和唱歌视频,Pika和GenreX等平台已经演习出模型,可以获取视频并预测特定场景中适宜的音乐或效果。
但 DeepMind 声称,其 V2A 技能的独特之处在于,它可以理解视频中的原始像素,并自动将天生的声音与视频同步,还可以选择不加解释。
V2A 并不完美,DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过演习,因此它并不能为这些视频天生特殊高质量的音频。出于这些缘故原由,同时也为了防止滥用,DeepMind 表示不会在短期内(如果有的话)向"大众年夜众发布这项技能。
DeepMind 写道:\公众为了确保我们的 V2A 技能能够对创意社区产生积极影响,我们正在网络来自顶尖创作者和电影制作人的各种不雅观点和见地,并利用这些宝贵的反馈见地来辅导我们正在进行的研究和开拓事情。在考虑向更广泛的"大众开放之前,我们的 V2A 技能将接管严格的安全评估和测试。\公众
DeepMind 的 V2A 技能对付档案管理员和处理历史片段的人来说是一种特殊有用的工具。但是,按照这种思路进行的天生式人工智能也有可能颠覆电影和电视行业。要想确保天生式媒体工具不会肃清事情岗位,或者说,肃清全体职业,就须要一些强有力的劳动保护方法。