编辑:张倩、陈萍
天生式 AI 进入视频时期了。
提到视频天生,很多人首先想到的可能是 Gen-2、Pika Labs。但刚刚,Meta 宣告,他们的视频天生效果超过了这两家,而且编辑起来还更加灵巧。
这个「吹小号、舞蹈的兔子」是 Meta 发布的最新 demo。从中可以看出,Meta 的技能既支持灵巧的图像编辑(例如把「兔子」变成「吹小号的兔子」,再变成「吹彩虹色小号的兔子」),也支持根据文本和图像天生高分辨率视频(例如让「吹小号的兔子」欢畅地舞蹈)。
实在,这个中涉及两项事情。
灵巧的图像编辑由一个叫「Emu Edit」的模型来完成。它支持通过笔墨对图像进行自由编辑,包括本地和全局编辑、删除和添加背景、颜色和几何转换、检测和分割等等。此外,它还能精确遵照指令,确保输入图像中与指令无关的像素保持不变。
给鸵鸟穿裙子
高分辨率的视频则由一个名叫「Emu Video」的模型来天生。Emu Video 是一个基于扩散模型的文生视频模型,能够基于文本天生 512x512 的 4 秒高分辨率视频(更长的视频在论文中也有谈论)。一项严格的人工评估表明,与 Runway 的 Gen-2 以及 Pika Labs 的天生效果比较,Emu Video 在天生质量和文本虔诚度方面的得分都更高。以下是它的天生效果:
在官方博客中,Meta 展望了这两项技能的运用前景,包括让社交媒体用户自己天生动图、表情包,按照自己的意愿编辑照片和图像等等。关于这点,Meta 在之前的 Meta Connect 大会上发布 Emu 模型时也提到过(拜会:《Meta 版 ChatGPT 来了:Llama 2 加持,接入必应搜索,小扎现场演示》)。
接下来,我们将分别先容这两个新模型。
EmuVideo
大型文生图模型在网络规模的图像 - 文本对上经由演习,可天生高质量的多样化图像。虽然这些模型可以通过利用视频 - 文本对进一步适用于文本 - 视频(T2V)天生,但视频天生在质量和多样性方面仍旧掉队于图像天生。与图像天生比较,视频天生更具寻衅性,由于它须要建模更高维度的时空输出空间,而能依据的仍旧只是文本提示。此外,视频 - 文本数据集常日比图像 - 文本数据集小一个数量级。
视频天生的主流模式是利用扩散模型一次天生所有视频帧。与此形成光鲜比拟的是,在 NLP 中,长序列天生被表述为一个自回归问题:以先前预测的单词为条件预测下一个单词。因此,后续预测的条件旗子暗记(conditioning signal)会逐渐变强。研究者假设,加强条件旗子暗记对高质量视频天生也很主要,由于视频天生本身便是一个韶光序列。然而,利用扩散模型进行自回归解码具有寻衅性,由于借助此类模型天生单帧图像本身就须要多次迭代。
因此,Meta 的研究者提出了 EMU VIDEO,通过显式的中间图像天生步骤来增强基于扩散的文本到视频天生的条件。
论文地址:https://emu-video.metademolab.com/assets/emu_video.pdf
项目地址:https://emu-video.metademolab.com/
详细来说,他们将文生视频问题分解为两个子问题:(1) 根据输入的文本提示天生图像;(2) 根据图像和文本的强化条件天生视频。直不雅观地说,给模型一个起始图像和文本会使视频天生变得更随意马虎,由于模型只需预测图像在未来将如何演化即可。
Meta 的研究者将文生视频分为两步:首先天生以文本 p 为条件的图像 I,然后利用更强的条件 —— 天生的图像和文本 —— 来天生视频 v。为了以图像约束模型 F,他们暂时对图像进行补零,并将其与一个二进制掩码(指示哪些帧是被补零的)以及带噪声的输入连接起来。
由于视频 - 文本数据集比图像 - 文本数据集要小得多,研究者还利用权重冻结的预演习文本 - 图像 (T2I) 模型初始化了他们的文本 - 视频模型。他们确定了关键的设计决策 —— 改变扩散噪音调剂和多阶段演习 —— 直接天生 512px 高分辨率的视频。
与直接用文本天生视频的方法不同,他们的分解方法在推理时会显式地天生一张图像,这使得他们能够轻松保留文生图模型的视觉多样性、风格和质量(如图 1 所示)。这使得 EMU VIDEO 纵然在演习数据、打算量和可演习参数相同的情形下,也能超越直接 T2V 方法。
这项研究表明,通过多阶段的演习方法,文生视频的天生质量可以得到大幅提高。该方法支持直接天生 512px 的高分辨率视频,不须要先前方法中利用的一些深度级联模型。
研究者设计了一个稳健的人工评估量划 ——JUICE,哀求评估者在两两比较中做出选择时证明他们的选择是精确的。如图 2 所示,EMU VIDEO 在质量和文本虔诚度方面的均匀胜率分别为 91.8% 和 86.6%,大大超越了包括 Pika、Gen-2 等商业办理方案在内的所有前期事情。除 T2V 外,EMU VIDEO 还可用于图像 - 视频天生,即模型根据用户供应的图像和文本提示天生视频。在这种情形下,EMU VIDEO 的天生结果有 96% 优于 VideoComposer。
从展示的 demo 中可以看到,EMU VIDEO 已经可以支持 4 秒的视频天生。在论文中,他们还磋商了增加视频时长的方法。作者表示,通过一个小的架构修正,他们可以在 T 帧上约束模型并扩展视频。因此,他们演习 EMU VIDEO 的一个变体,以「过去」16 帧为条件天生未来 16 帧。在扩展视频时,他们利用与原始视频不同的未来文本提示,效果如图 7 所示。他们创造,扩展视频既遵照原始视频,也遵照未来文本提示。
Emu Edit :精确的图像编辑
每天都有数百万人利用图像编辑。然而,盛行的图像编辑工具要么须要相称多的专业知识,利用起来很耗时,要么非常有限,仅供应一组预定义的编辑操作,如特定的过滤器。现阶段,基于指令的图像编辑试图让用户利用自然措辞指令来办理这些限定。例如,用户可以向模型供应图像并指示其「给鸸鹋穿上消防员服装」这样的指令(见图 1)。
然而,虽然像 InstructPix2Pix 这类基于指令的图像编辑模型可以用来处理各种给定的指令,但它们常日很难准确地阐明和实行指令。此外,这些模型的泛化能力有限,常日无法完成与演习时略有不同的任务(见图 3),例如让小兔子吹彩虹色的小号,其他模型要么把兔子染成彩虹色,要么是直接天生彩虹色的小号。
为理解决这些问题,Meta 引入了 Emu Edit,这是首个在广泛且多样化的任务上演习而成的图像编辑模型,Emu Edit 可以根据指令进行自由形式的编辑,包括本地和全局编辑、删除和添加背景、颜色改变和几何变换、检测和分割等任务。
论文地址:https://emu-edit.metademolab.com/assets/emu_edit.pdf
项目地址:https://emu-edit.metademolab.com/
与当今许多天生式 AI 模型不同,Emu Edit 可以精确遵照指令,确保输入图像中与指令无关的像素保持不变。例如,用户给出指令「将草地上的小狗移除」,移除物体后的图片险些看不出来有什么变革。
移除图片中左下角的文本,再给图片换个背景,Emu Edit 也能处理得很好:
为了演习这个模型,Meta 开拓了一个包含 1000 万个合成样本的数据集,每个样本都包含一个输入图像、对要实行任务的描述以及目标输出图像。因而 Emu Edit 在指令虔诚度和图像质量方面都显示出前所未有的编辑结果。
在方法层面,Meta 演习的模型可以实行十六个不同的图像编辑任务,这些任务涵盖基于区域的编辑任务、自由格式编辑任务和打算机视觉任务,所有这些任务都被表述为天生任务,Meta 还为每个任务开拓了一个独特的数据管理 pipeline 。Meta 创造,随着演习任务数量的增加,Emu Edit 的性能也会随之提高。
其次,为了有效地处理各种各样的任务,Meta 引入了学习任务嵌入(learned task embedding)的观点,它用于勾引天生过程朝着精确的天生任务方向发展。详细来说,对付每个任务,本文学习一个独特的任务嵌入向量,并通过交叉把稳力交互将其集成到模型中,并将其添加到韶光步嵌入中。结果证明,学习任务嵌入显著增强了模型从自由格式指令中准确推理并实行精确编辑的能力。
今年 4 月,Meta 上线「分割统统」AI 模型,效果惊艳到很多人开始疑惑 CV 领域到底还存不存在。短短几个月的韶光,Meta 在图像、视频领域又推出 Emu Video 和 Emu Edit ,我们只能说,天生式 AI 领域真的太卷了。
理解更多内容,请查看原论文。