机器之心编辑部
「能不能把这张图里的产品,都放到另一张图的桌子上?」
面对这样的哀求,设计师肯定会脑瓜嗡嗡的。
把指定物品放进另一张图片不像贴张贴纸一样大略,想要做到无缝接入,贴图的形状、材质、光影等等都须要在编辑软件里细致地调度。
如果有一种能让贴图穿进背景图里,它们根据你的指令自动摆好姿势、站位的「邪术」呢?
来自喷鼻香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品,只须要一张照片,就能被传送到另一张图片的天下中。
论文链接:https://arxiv.org/pdf/2307.09481.pdf项目链接:https://damo-vilab.github.io/AnyDoor-Page/
例如,想让这只柯基按照涂鸦的姿势,在墙角站卧坐躺,没有问题。
让哆啦 A 梦从背动手换成向你打呼唤的姿势,分分钟搞定,还保留了原来的毛毡材质质感。
交流位置,移动物品,也是小 case。
不须要实物的多角度照片,也不须要 3D 建模,就可以看到这只鞋子的正面和侧面。
把野餐布上的另一只小熊换成这只鞋,再给它做个镜像效果,画个框,就可以静待邪术天生了。重新合成后,餐布的褶皱没有产生明显的形变。
试穿衣服也能玩成贴画游戏版本,给照片贴上想要的衣服,立体的上死后果立即可见。
随着扩散模型的发展,图像编辑界卷出了不少新成果。此前的模型已经可以根据文本提示或给定图像重新天生局部的图像区域。但是这些方法对付不在演习数据内的新图象,泛化性较差,或者须要输入多个图像,在近一个小时后,才能等到天生结果。
Anydoor 做到的是「工具传送」,这意味着将目标工具准确无缝地放置在场景图像的期望位置。详细来说,Anydoor 以目标工具为模板,重新天生场景图像被框中的局部区域,在图像合成、效果图像渲染、海报制作、虚拟试穿等运用处景都很实用。
方法简介
对付给定目标工具、场景和位置,Anydoor 实现了高保真度和多样化的零样本工具 - 场景合成。为了做到这一点,作者的核心思想是用身份和细节高度干系的特色来表示目标工具,然后将它们组合到与背景场景的交互之中。作者用一个 ID 提取器光降盆有区分度的 ID token,并设计了一个以频率感知的细节提取器来获取细节图作为补充。再将 ID token 和提取器得到的细节图注入一个预演习好的文本到图像扩散模型中,辅导天生所需的图像。
为了使定制工具天生泛化性更强,作者从视频中网络了同一工具的图像对,方便模型学习天生工具的外不雅观变革。在担保场景多样性方面,他们利用了大规模统计图像。为了提高视频和图像学习效率,作者们还设计了一个自适应韶光步长采样器,对不同的演习数据源采纳不同的去噪步骤。
身份提取特色
作者采取了预演习的视觉编码器来提取目标工具的身份信息。由于 CLIP 的演习数据是粗略描述的文本图像对,只能嵌入语义级别的信息,而难以保留有区分度的工具身份表示。为了战胜这一寻衅,作者在目标图像输入 ID 提取器之前,利用了分割器以去除背景,并将工具对齐到图像中央。此操作有助于提取更简洁和更有辨别性的特色。
在保留高辨别度特色方面,自监督模型展现了更强大的能力。因此,作者选择了 DINO-V2 作为 ID 提取器的底座,利用单个线性层将 ID 提取器的 token 对齐到预演习的文本到图像的 UNet 中。
细节特色提取
由于 ID token 会失落去空间分辨率,很难保持目标工具的风雅细节,作者考试测验了将移除过背景的工具拼接到场景图像的给定位置。虽然天生保真度有了显著提高,但天生的结果与给定的目标过于相似,缺少多样性。为此,作者设计了一个表示工具的高频图,它可以保持风雅的细节,同时许可灵巧的局部变体,如手势、照明、方向等。
特色注入
在得到 ID token 和细节图后,须要将它们注入一个预先演习好的文本到图像扩散模型中来辅导天生。作者选择了 Stable Diffusion 将图像投影到潜在空间中,并利用 UNet 进行概率采样。
演习策略
在这项事情中,本文利用视频数据集来捕获包含同一工具的不同帧,数据准备流程如图 4 所示:
完全数据列在表 1 中,涵盖了自然场景、虚拟试穿、多视图工具等多种领域。
实验
该研究选择 Stable Diffusion V2.1 作为根本天生器。图 5 展示了与基于参考的图像天生方法的比拟结果。Paint-by-Example 和 Graphit 支持与本文相同的输入格式,它们以目标图像作为输入来编辑场景图像的局部区域,而无需参数调度。此外,本文还与 Stable Diffusion 进行了比较。
图 6 表明,AnyDoor 兼具基于参考和基于调度的方法的优点,无需进行参数调度即可天生多主题合成的高保真结果。详细而言,Paint-by-Example 对付经由演习的种别(如狗和猫)(第 3 行)表现良好,但对付新观点(第 1-2 行)表现不佳。DreamBooth、Custom Diffusion 和 Cones 为新观点供应了更好的保真度,但仍旧存在多主体稠浊的问题。
表 2 表明本文模型在保真度和数量上,尤其是保真度方面具有明显的上风。然而,由于其他方法只保持了语义同等性,而本文方法保留了实例身份,因此它们自然具有更大的多样性空间。在这种情形下,AnyDoor 仍旧得到了比 Graphit 更高的速率,并且得到了与 Paint-by-Example 有竞争力的结果,这验证了本文方法的有效性。
参考链接:
https://arxiv.org/pdf/2307.09481.pdf
https://github.com/damo-vilab/AnyDoor/tree/main
https://damo-vilab.github.io/AnyDoor-Page/
https://twitter.com/alexcarliera/status/1737244116189372895