文章的第一作者是上海交通大学博士研究生赵峻图(主页:https://juntuzhao.run),他的研究方向包括打算机视觉和人工智能赋能的生命科学。此外,他还担当上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉(主页:https://dequan.wang)。
设想一下,如果让你画一幅 “茶杯中的冰可乐” 的图片,只管茶杯与冰可乐的组合可能并不恰当,你仍旧会很自然地先画出一个茶杯,然后画上冰块与可乐。那么,当我们给 AI 画家提出 “画出茶杯中的冰可乐” 的哀求时,会发生什么呢?在 2023 年 10 月大规模 AI 图像天生模型刚刚兴起时,我们便进行了这种考试测验,得到了以下结果:
考虑到 AI 模型更新换代带来的性能提升,我们在 2024 年 7 月又利用了最前辈的模型进行了同样的考试测验:
可以看出,纵然是最前辈的 AI 画家(例如 Dall・E 3),也无法凭空构建 “茶杯中的冰可乐” 的场景,它们每每会摸不着头脑,纠结良久后画出一个装满冰可乐的透明玻璃杯。纵然是拥有昂贵数据标注根本以及 ChatGPT-4 加持下的最新 Dall・E 3 也无法稳定地 “将冰可乐装进茶杯里”,这一问题在学术界被归类为文生图模型的文本图像不对齐问题(text-image misalignment)。最近,上海交通大学王德泉老师课题组在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了这一问题的新分支,该论文即将揭橥在 2024 年 10 月份的第 18 届欧洲打算机视觉大会(ECCV)上。
论文链接:https://arxiv.org/abs/2408.00230项目链接:https://lcmis.github.io
文本图像不对齐问题是图像天生领域中的一个主要方向,与传统不对齐问题不同的是,在传统不对齐问题中,人们紧张关注的是一组观点对中两个观点的相互影响,例如给定 “一个苹果和一个梨” 的需求,得到的图像要么是两个苹果,要么是两个梨,不会涌现第三种观点。而在 “茶杯中的冰可乐” 这一例子中,有一个关键的隐蔽变量 “透明玻璃杯”,其从未在文本提示中涌现,却替代 “茶杯” 涌如今了图像中。这种征象在本文中被称为包含隐蔽变量的不对齐问题(Latent Concept Misalignment,简称 LC-Mis)。
为了更深入地探索为什么茶杯会消逝在图像中,我们首先希望网络一些与 “茶杯中的冰可乐” 存在相似问题的数据。然而,“茶杯中的冰可乐” 问题源于人类的奇思妙想与 AI 的去世记硬背之间的冲突,如果仅依赖人类专家冥思苦想来创造新的观点对,效率将会非常低下。因此,我们设计了一个基于大措辞模型(LLMs)的系统,利用 LLMs 体内蕴含的人类思维来帮助我们快速网络与 “茶杯中的冰可乐” 存在类似问题的观点对。在这个别系中,我们首先向 LLMs 阐明 “茶杯中的冰可乐” 问题背后的逻辑,然后大略地将这一问题划分为几个种别,让 LLMs 按照不同类别的逻辑天生更多的种别和观点对,末了我们利用文生图模型来绘制图像进行检讨。然而,我们在后续实验中创造,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定毛病。因此,我们只能采取人工评估的办法,我们对每组观点对天生 20 张图像,并根据这 20 张图中精确画出的数量为这组观点对给予 1 至 5 的评级,个中第 5 级表示所有 20 张图像均未能精确天生。
为了找回图像中的茶杯,我们提出了一种名为 Mixture of Concept Experts (MoCE) 的方法。我们认为,如果不从人类处理问题的角度来进行思考,那么人工智能的统统都是毫无道理的。在当今最火热的文生图模型 diffusion models 中,把稳力机制会同时处理文本提示中的可乐与茶杯,但这并不符合人类按照观点顺序作画的规律。因此,我们将顺序作画的规律融入到 diffusion models 的多步采样过程中,成功地将消逝的茶杯找了回来:
详细来说,LLMs 会首先见告我们该当先画一个茶杯。接下来,我们将茶杯这一观点单独输入给 diffusion models,完成 T-N 步的采样。而在余下的 N 步采样中,再供应完全的文本提示,“茶杯中的冰可乐”,最终生成一张干净的图像。在此过程中,N 起到了至关主要的浸染,由于它决定了为 “茶杯” 分配的采样步数。于是,我们利用一个多模态模型来衡量图像与茶杯以及冰可乐的契合度评分。当图像和两个观点的评分之间相差很大时,解释有一个观点很可能被模型忽略了,于是就须要相应地调度 N 的取值。由于 N 的取值与观点在图中涌现概率之间的关系是正干系的,因此这一调度过程是由二分查找来完成的。
末了,我们利用 MoCE 以及各种 baseline 模型在网络到的数据集上进行了广泛的实验,并展示了以 “茶杯中的冰可乐” 为首的可视化修复结果,以及在全体数据集上人类专家评估的结果比拟。和几种 baseline 模型比较,我们提出的 MoCE 方法显著地降落了第 5 级 LC-Mis 观点对的占比。其余值得把稳的是,MoCE 的性能在一定程度上乃至超越了须要大量数据标注本钱的 Dall・E 3(2023 年 10 月版本):
此外,正如在上文中提到的,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定毛病。我们首先仔细挑选了一些带把的透明玻璃杯图像,它们虽然具有茶杯的形状,但是由于其透明玻璃的材质而不能称之为茶杯。我们将这些图像与 MoCE 天生的 “茶杯中的冰可乐” 图像进行了比拟,如下图所示:
我们利用了两种当前盛行的评价指标,Clipscore 和 Image-Reward,来打算图像与 “冰可乐” 之间的契合程度。图像与冰可乐的契合程度越高,得分就越高。然而,这两种评价指标均对茶杯中的冰可乐给予了明显更低的评分,而对透明玻璃杯中的冰可乐授予了明显更高的评分。因此,这表明现有的自动化评价指标可能无法识别出茶杯中的冰可乐,由于其模型内部仍存在 “冰可乐 = 冰块 + 可乐 + 玻璃杯” 的偏见,从而导致其无法有效参与 LC-Mis 问题的评价。
总的来说,我们受到 “茶杯中的冰可乐” 例子的启示,先容了一种文本图像不对齐问题的新分支,即包含隐蔽观点的不对齐问题 (LC-Mis)。我们在大措辞模型和文生图模型的帮助下,开拓了一个别系来网络 LC-Mis 观点对。接下来,我们受到人类绘画规律的启示,将绘画顺序引入 diffusion models 的采样过程,提出了 MoCE 的方法,缓解了 LC-Mis 问题。末了,我们还通过代表例子 “茶杯中的冰可乐” 展示了当下文本图像对齐问题的评价指标存在的毛病。在未来的事情中,我们将持续深入研究天生式 AI 技能,推动 AI 更好地知足人类的实际需求,通过不断的努力和创新,我们期待见证 AI 在理解和再现人类创造力方面的打破。