给一句prompt,用Stable Diffusion可以直接天生单个或多个透明图层(PNG)!

本项目一推出就受到了一波高度关注(SD发热友狂喜)

这项新项目名叫LayerDiffusion,是ControlNet 作者Lvmin Zhang提出的新项目,它使得大规模预演习的Stable Diffusion能够天生单个透明图像或多个透明层,且支持前后景的图片领悟和图层拆分——划重点:不是抠图,是天生!

看这完美的图像拆分,人物PNG图像放大细看,发丝都根根分明。

设计师狂喜LayerDiffusion插件AI绘画可一键创作透明背景图

再强调一遍,LayerDiffusion绝不是抠图那么大略,重点在于天生。

正如网友所说:这是现在动画、视频制作最核心的工序之一。
这一步能够过,可以说SD同等性就不再是问题了。

LayerDiffusion究竟是怎么做到的呢?

LayerDiffusion的核心,是一种叫做潜在透明度(latent transparency)的方法。
大略来说,它可以许可在不毁坏预演习潜在扩散模型(如Stable Diffusion)的潜在分布的条件下,为模型添加透明度。

在详细实现上,可以理解为在潜在图像上添加一个精心设计过的小扰动(offset),这种扰动被编码为一个额外的通道,与RGB通道一起构成完全的潜在图像。

通过这种方法,任何潜在扩散模型都可以被转换为透明图像天生器,只需对其进行微调以适应调度后的潜在空间。

并且,潜在透明度的观点还可以扩展到天生多个透明图层,以及与其他条件掌握系统结合,实现更繁芜的图像天生任务,如前景/背景条件天生、联合图层天生、图层内容的构造掌握等。

值得一提的是,作者还展示了如何把ControlNet引入进来,丰富LayerDiffusion的功能:

那么,LayerDiffusion与传统抠图上究竟有哪些差异呢?

首先,是原生天生VS后期处理

LayerDiffusion:是一种原生的透明图像天生方法,它直接在天生过程中考虑并编码透明度信息。
这意味着模型在天生图像的同时就创建了透明度通道(alpha channel),从而产生了具有透明度的图像。
传统的抠图方法:常日涉及师长西席成或获取一个图像,然后通过图像编辑技能(如色键、边缘检测、用户指定的遮罩等)来分离前景和背景。
这种方法常日须要额外的步骤来处理透明度,并且可能在繁芜背景或边缘处产生不自然的过渡。

其次,是潜在空间操作 vs. 像素空间操作

LayerDiffusion:在潜在空间(latent space)中进行操作,这是一个中间表示,它许可模型学习并天生更繁芜的图像特色。
通过在潜在空间中编码透明度,模型可以在天生过程中自然地处理透明度,而不须要在像素级别上进行繁芜的打算。
传统的抠图技能:常日在像素空间中进行,这可能涉及到对原始图像的直接编辑,如颜色更换、边缘平滑等。
这些方法可能在处理半透明效果(如火焰、烟雾)或繁芜边缘时碰着困难。

末了,LayerDiffusion具有更高的灵巧性和掌握能力

LayerDiffusion:供应了更高的灵巧性和掌握能力,由于它许可用户通过文本提示(text prompts)来辅导图像的天生,并且可以天生多个图层,这些图层可以被稠浊和组合以创建繁芜的场景。
传统的抠图方法:可能在掌握方面更为有限,尤其是在处理繁芜的图像内容和透明度时。

末了,也是大家最关心的,LayerDiffusion在哪里可以利用呢?

作为开源项目,现在 LayerDiffusion 已经支持在WebUI Forge和 ComfyUI 中利用了,SD WebUI 暂不支持。

一、WebUI Forge

Forge 是 WebUI 的一个分支,其操作逻辑和交互与 Web UI 完备相同,只是在底层进行了一些修正以提高天生速率。
插件在运行时会自动下载所需模型。
LayerDiffusion 项目现在已经成功整合到 Forge 的扩展中,这一功能可以直接天生具有透明背景的图片。

插件地址:

https://github.com/layerdiffusion/sd-forge-layerdiffusion

二、ComfyUI

ComfyUI的LayerDiffusion透明图层天生插件也已经发布了,目前还只支持天生。

通过 Git URL 安装选择,输入以下地址,点击确定安装就可以了:

https://github.com/huchenlei/ComfyUI-layerdiffuse

末了的末了,

https://arxiv.org/abs/2402.17113

感兴趣的小伙伴们可以一起来研究了~