来源:机器之心
本文约2800字,建议阅读5分钟
该团队打造了一个多模态指令图像天生模型:Instruct-Imagen。
用图 2 的风格画图 1 的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像天生模型已经能做到这一点了!
通过引入指令微调技能,多模态大模型可以根据文本指令描述的目标和多张参考图像准确天生新图像,效果堪比 PS 大神抓着你的手助你 P 图。
在利用大型措辞模型(LLM)时,我们都已经见证过了指令微调的主要性。如果运用得当,通过指令微调,我们能让 LLM 帮助我们完成各种不同的任务,让其变成墨客、程序员、剧作家、科研助理乃至投资经理。
现在,大模型已经进入了多模态时期,指令微调是否依然有效呢?比如我们能否通过多模态指令微调掌握图像天生?不同于措辞天生,图像天生一开始就涉及到多模态。我们可否有效地让模型节制多模态的繁芜性?
为理解决这一难题,Google DeepMind 和 Google Research 提出可将多模态指令方法用于图像天生。该方法可将不同模态的信息交织在一起来表达图像天生的条件(图 1 左图给出了几个示例)。
详细来说,多模态指令可增强措辞指令,比如用户可让天生模型按照指定参照图像的风格对所天生的图像进行渲染。如此一来,就能以对人类而言很直不雅观的交互界面有效地为图像天生任务设定多模态条件。
基于这一思路,该团队打造了一个多模态指令图像天生模型:Instruct-Imagen。
论文地址:https://arxiv.org/abs/2401.01952
该模型利用了一种两阶段演习方法:首先增强模型处理多模态指令的能力,然后虔诚地遵照多模态的用户意图。
在第一阶段,该团队采取了一个预演习的文本到图像模型,其任务是处理额外的多模态输入;之后再对其进行微调,使其能准确地相应多模态指令。详细而言,他们采取的预演习模型是一个扩散模型(diffusion model),并利用相似的 (图像,文本) 高下文对其进行了增强,这些高下文取自一个网络规模级的 (图像,文本) 语料库。
在第二阶段,该团队在多种图像天生任务上对模型进行了微调,个中每个任务都搭配了对应的多模态指令 —— 这些指令中席卷了各自任务的关键要素。经由以上步骤,所得到的模型 Instruct-Imagen 可以非常娴熟地处理多种模态的领悟输入(比如草图加用文本指示描述的视觉样式),从而可以天生准确符合高下文且足够亮眼的图像。
如图 1 所示,Instruct-Imagen 表现卓越,能够理解繁芜的多模态指令并天生虔诚遵照人类意图的图像,乃至能很好地处理之前从未见过的指令组合。
根据人类的反馈表明,在许多实例中,Instruct-Imagen 不仅能媲美针对特界说务的模型处理对应任务的表现,乃至还能超越它们。不仅如此,Instruct-Imagen 还表现出了强大的泛化能力,可以用于未曾见过和更繁芜的图像天生任务。
用于天生的多模态指令
该团队利用的预演习模型是扩散模型并且用户可以为其设定输入条件,详细请参看原论文。
对付多模态指令,为了担保通用性和泛化能力,该团队提出了一种统一的多模态指令格式,个中措辞的浸染是明确陈述任务的目标,多模态条件则是作为参考信息。
这种新提出指令格式包含两个关键组件:(1) 有效负载文本指令,其浸染是详细描述任务目标并给出参考信息标识,比如 [ref#?]。(2) 多模态的高下文,带有配对的 (标识 + 文本,图像)。然后,该模型利用一个共享的指令理解模型来处理文本指令和多模态高下文 —— 这里并不会限定高下文的详细模态。
图 2 通过三个示例展示了这一格式可以如何表示之前的各种天生任务,这解释这种格式可以兼容之前的图像天生任务。更主要的是,措辞很灵巧,因此无需针对模态和任务进行任何专门设计,就能将多模态指令扩展用于新任务。
Instruct-Imagen
Instruct-Imagen 的根本是多模态指令。基于此,该团队基于一种预演习的文本到图像扩散模型设计了模型架构,即级联扩散模型(cascaded diffusion model),使其可以完备采取输入的多模态指令条件。
详细来说,他们利用了 Imagen 的一个变体版本,参阅论文《Photorealistic text-to-image diffusion models with deep language understanding》,并基于他们的内部数据源进行了预演习。其完全模型包含两个子组件:(1) 文本到图像组件,其任务是仅利用文本 prompt 天生 128×128 分辨率的图像;(2) 文本条件式超分辨率模型,其可将 128 分辨的图像提升至 1024 分辨率。
至于对多模态指令的编码,可见图 3(右),个中展示了 Instruct-Imagen 编码多模态指令的数据流。
以两阶段方法演习 Instruct-Imagen
Instruct-Imagen 的演习流程分为两个阶段。
第一阶段是检索增强式文本到图像演习,即利用经由增强的检索到的隔壁 (图像,文本) 对连续演习文本到图像的天生。
第二阶段则是对第一阶段的输出模型进行微调,这会用到稠浊的多样化的图像天生任务,个中每个任务都搭配了对应的多模态指令。详细来说,该团队利用了 5 个任务类别的 11 个图像天生数据集,见表 1。
在这两个演习阶段中,模型都是端到端优化的。
实验
该团队对新提出的方法和模型进行了实验评估,并深度剖析了 Instruct-Imagen 的设计和失落败模式。
实验设置
该团队在两种设置下对模型进行了评估,即领域内任务评估和零样本任务评估,个中后一种设置比前一种设置更具寻衅性。
紧张结果
图 4 比较了 Instruct-Imagen 和基准方法及之前的方法,结果表明其在领域内评估和零样本评估上足以媲美之前的方法。
这表明多模态指令演习可以增强模型在演习数据有限的任务(比如风格化天生)上的性能,同时还能坚持在数据丰富的任务(比如天生像照片的图像)上的效果。如果没有多模态指令演习,多任务基准每每会得到较差的图像质量和文本对齐效果。
举个例子,在图 5 的高下文风格化(in-context stylization)示例中,多任务基准难以分辨风格与物体,于是在天生结果中复现了物体。出于类似的缘故原由,其在风格迁移任务上也表现很差。这些不雅观察凸显了指令微调的代价。
不同于依赖针对特界说务确当前方法或演习,Instruct-Imagen 通过利用组合不同任务的目标的指令并在高下文中实行推理,可以高效地管理组合式任务(无需微调,每个示例须要 18.2 秒)。
如图 6 所示,Instruct-Imagen 在指令跟随和输出质量方面总是优于其它模型。
不仅如此,在多模态高下文中存在多个参考的情形下,多任务基准模型无法将文本指令与参考对应起来,导致一些多模态条件被忽略。这些结果进一步展现了新提出的模型的有效性。
模型剖析和溶解研究
该团队对模型的限定和失落败模式进行了剖析。
比如该团队创造,微调后的 Instruct-Imagen 可以编辑图像。如表 2 所示,通过比较之前的 SDXL-inpainting、在 MagicBrush 数据集上微调过的 Imagen 以及微调后的 Instruct-Imagen,可以创造微调后的 Instruct-Imagen 大幅优于专门为基于掩码的图像编辑设计的模型。
但是,微调后的 Instruct-Imagen 却会在编辑后的图像中天生伪影,尤其是超分辨率步骤之后的高分辨率输出,如图 7 所示。研究者表示,这是由于该模型之前没有学习过直接从高下文准确地复制像素。
该团队还创造,检索增强式演习有助于提升泛化能力,结果如表 3 所示。
对付 Instruct-Imagen 的失落败模式,研究者创造,当多模态指令更繁芜时(至少 3 个多模态条件),Instruct-Imagen 难以天生屈服指令的结果。图 8 给出了两个示例。
下面再展示一些在演习中未曾见过的繁芜任务上的结果。
该团队也进行了溶解研究证明其设计组件的主要性。
不过,出于安全性考虑,谷歌目前还没有发布该研究的代码和 API。
请参阅原始论文以获取更多详细信息。