Hello~ 同学们,欢迎回到趣闻屋。
趣闻经由大约一个月的利用 Stable Diffusion webUI,创造txt2img还是有些知识点不太熟习。于是决定记录下学习过程,写一篇关于生产图像的 txt2img 的随笔,加深理解。是条记也是为与同学们分享,给大家供应一些启示和帮助。好好学习,每天向上!
欧耶~
(本文总字数6000字,建议同学们收藏下来逐步看)
什么是Stable Diffusion?Stable Diffusion 是一种用于天生高质量图像的神经网络模型,它基于扩散过程,在保持图像特色的同时增强了图像细节。它由3个部分组成:变分自编码器(VAE)、U-Net和一个文本编码器(CLIP)。
1. Variational Autoencoder(VAE) 是一种用于天生模型的神经网络构造,通过学习数据的潜在表示来天生新的数据。在 Stable Diffusion 中,它被用作概率编码器(Encoder)和解码器(Decoder)。VAE 通过将输入数据映射到潜在空间中进行编码,然后将编码的向量与潜在变量的高斯分布进行重参数化,以便可以直接从潜在空间中进行采样。
2. Unet 是一种基于卷积神经网络的图像分割模型,采取了一种分外的“U”形构造,使得输入的分辨率逐步减小而输出的分辨率逐步增加。在 Stable Diffusion 中,Unet 能够对图像进行部分特色提取,同时在解码器的过程中,能够对天生的图像进行重构,以得到高的生成品质。
3. CLIP检索网络是一种文本-图像匹配的神经网络算法,可以将输入的文本和图像进行语义干系性匹配,从而使其能够实现对照片、视频、插画等图像内容的理解。在 Stable Diffusion 中,CLIP检索网络不仅用于评估天生的图像,也可以用于辅导数据的采样,以提高天生的图像的多样性和干系性。
详细来说,Stable Diffusion 在演习模型时,将原始图像通过不断的随机扩散和反向扩散来进行图像变形,将图像的细节信息逐渐压缩到低频区域。通过这一过程,Stable Diffusion 不仅能够提取图像的潜在表示,而且能够将图像的噪声和细节信息分离出来。
逆概率沿扩散(Inverse probability flow along diffusion)是用于Stable Diffusion模型的逆模型。这个模型是一个自回归模型,可以根据当前帧的噪声和之前帧的天生图像预测下一帧的噪声。通过逆概率扩散,Stable Diffusion 可以天生高质量的图像。
前向扩散过程将图像转换到低维潜空间
逆扩散通过逐步减去图像中的预测噪声天生图像
提示词技巧
Stable Diffusion 中,在前面的提示词,会得到更多的权重,其次是末端的提示词,在中间的权重比较小。如果我们给的提示词很多,那SD会忽略掉中间的一些提示词来减少打算量。
提示词权重:前 > 后 > 中
趣闻屋习气把提词分成五个大块:1.画风和画质 2.主题 3.背景场景 4.细节 5.艺术家
1.画风画质
画风:拍照、抽象、写实、抱负、超现实主义、古典、等
画质:8K分辨率、高画质细节、纹理丰富、高光表现、真实阴影、景深、光芒追踪、高质量的反射和折射
Style:photography, abstraction, realism, fantasy, surrealism, classical,...
Image quality: 8K resolution, high-quality details, rich textures, high dynamic range, realistic shadows, depth of field, ray tracing, high-quality reflections and refractions...
2.主题
一个穿着时尚的女生
带着微笑的孩子
中国古建筑
a fashionable girl
a child with a smile
ancient Chinese architecture
3.背景场景
城市、村落庄、星空、海洋、山水、雪山、自然、建筑、宫殿、等等
City, Countryside, Starry Sky, Ocean, Landscape, Snow Mountain, Nature, Architecture, Palace、...
4.细节
渲染引擎:Blender、Maya、3ds Max、Cinema4D、Unreal engine、等
材质:金属、玻璃、石头、木材、塑料、皮革、蕾丝
视角:鸟瞰、侧面、仰视、俯角、倾斜、近景、向下看
润色词:可爱、精细、浪漫、柔美、华美、生动、极简、电影效果
装饰品:项链、耳环、眼镜、发卡、帽子、手环...
Material: metal, glass, stone, wood, plastic, leather, lace
Perspective: bird's-eye view, side view, looking up, looking down, tilted, close-up, look down from abov.
Modifiers: cute, sophisticated, romantic, feminine, gorgeous, vivid, minimalist, cinematic,...
Decorations: necklaces, earrings, glasses, hairpins, hats, bracelets,
5.艺术家
艺术家网站:
https://aipromptguide.com
同学们可以到这上面挑选自己喜好的艺术家风格,各有所爱嘛
趣闻比较喜好:WLOP、Aleksi Briclot...
举个提示词利用栗子输入画风和主体,先不输入反向提示词:
photograph,A beautiful girl
运气不错,得到一张看着挺不错的图:
后面有花,那我们就把背景放到花园吧:
photograph,A beautiful girl,garden
景深感有些欠缺,我们加上景深:
photograph, a beautiful girl, garden, depth of field,
溘然变革就挺大的。哈哈,这便是AI,总能给我们意想不到的惊喜。连续加细节:可爱的、项链、帽子
photograph,A beautiful girl, garden, depth of field, cute, necklaces , hats
很好。但有些模糊,色彩也有些单调,我们加些高清词,表明更多的细节和低质量反向提示词
photograph,A beautiful girl, garden, depth of field, cute,necklaces , hats, 8k, HD, highly detailed,
worst quality, low quality,normal quality
俊秀!
清晰度和色彩度一下子上来了,是不是...总结提示词技巧:
1.画风,一开始就要想,我们想要什么样的画风?
2.主体,想要画什么,一个人?一只猫?还是一份风景?
3.背景,在哪里?
4.细节,为了润色主体,须要增加哪些细节?
5.艺术家,希望模拟哪些艺术家的风格?
末了,大体敲定之后便是一直的加细节,调色彩,待差不多满意之后,再大批量天生。这便是AI绘画的好处,批量生产。哈哈~
采样器详解(Sampling method)趣闻屋用的SD版本,嵌入了20个采样器:
采样器的差异和利用场景:
1. Euler a
Euler a 采样器是 Euler 采样器的一种变体,利用了一种不同的扩散器。相对付 Euler 采样器,在图像品质上有所提升,但仍可能涌现品质丢失的情形。它适用于大略的图像数据天生场景,例如图形识别、根本天生等。
2. Euler
Euler 采样器基于欧拉插值,是一种大略、快速但可能会失落去一些品质的采样器。它适用于天生相对大略的图像、须要快速迭代的场景。
3. LMS
LMS 采样器(Langevin Monte Carlo Sampler)基于 Langevin 梯度低落算法,可以处理非线性/多峰/稠浊分布,并且具有较好的灵巧性和多样性。但由于打算负载较大,可能会运行较慢。它适用于对图像品质和多样性有较高哀求的场景,例如天生高品质的繁芜图像。
4. Heun
Heun 采样器(Heun's method)是欧拉插值的一种变体,相对付 Euler 采样器,在图像品质上有所提升,同时其运行速率相对较快且打算负载相对较小。它适用于大规模天生、较为大略的图像数据。
5. DMP2
DMP2 采样器是 DMP 采样器的改进版,利用更少的内存、更少的打算负载和更快的采样速率。它适用于天生算法相对根本、对速率较为嫩的场景。
6. DPM2 a、DPM++ 2S a
DPM2 a 和 DPM++ 2S a 采样器是基于扩散过程实现的算法,能够快速天生高品质图像。它们适用于须要处理多种别任务的场景,例如物体检测、语义分割。
7. DPM++ 2M
DPM++ 2M 采样器是 DPM++ 2S a 的一种改进版,增加了相邻层之间的信息通报。它适用于对数据繁芜性有严格哀求的场景,例如用于医学图像剖析、自然场景天生的运用。
8. DPM++ SDE
DPM++ SDE 采样器是一款基于稳定性差分方程(Stochastic Differential Equation, SDE)的算法,可以天生高度逼真的图像,并且对图像品质和多样性的哀求有严格哀求的场景。例如,须要用于虚拟现实、视频游戏等运用的场景。
9. DPM fast、DPM adaptive
DPM fast 和 DPM adaptive 采样器是一种快速天生高品质图像的采样器,适用于产生短韶光内须要大量图像数据的场景,例如数据增强、演习图像天生等运用。
10. LMS Karras、DPM2 Karras、DPM2 a Karras、DPM++ 2S a Karras、DPM++ 2M Karras、DPM++ SDE Karras
Karras 系列采样器是一系列基于 Langevin Monte Carlo Sampler 和扩散过程的改进版算法,能够快速天生高品质图像。它们适用于对数据品质有高哀求的场景,例如医学图像剖析、自然场景天生的运用。
11. DDIM
DDIM 采样器(Diffusion Denoising for Image Manipulation)能够在扩散的同时对两个空间维度和一维动态调度韶光步长。增加了视频剪辑风格的操作,扩展了 Stable Diffusion 的根本结果。DDIM 采样器适用于须要实现繁芜操作、天生流程的场景,例如天生类似视频流的图像数据。
12. PLMS
PLMS 采样器(Preconditioned Langevin Monte Carlo Sampler)利用了一种更高等的梯度采样方法,能够更好地处理非线性/多峰/稠浊分布,减少了噪音。它可以天生具有非常高保真度且可控多样性的图像,但是比其他采样器更慢。PLMS 采样器适用于对图像品质和多样性有严格哀求的场景,例如须要高保真度图像的运用或者对付天生面部或彩色图像的运用等。
13. UniPC
UniPC 采样器(Unified Perceptual Control)采取了一种感知实验中的掌握方案来调度温度和扩散器系数。这种方法可以天生更逼真的图像,并提高了采样速率。但是,UniPC 采样器可能不如其他采样器那么灵巧。它适用于对图像逼真度和采样速率都有需求的场景,例如天生与人形体有关的运用。
在利用下面参数的做输入,趣闻屋选了几个常用的采样器在steps为:10、17、15、32、40下合图比拟:
CFG scale: 7, Face restoration: CodeFormer, Size: 360x540, Model: Chilloutmix, Denoising strength: 0.5, Hires upscale: 2, Hires steps: 10, Hires upscaler: R-ESRGAN 4x+,
采样器总结:
除了LMS、DMP2 a 和PLMS在20步以下涌现明显的瑕疵,其他的都很不错。
UniPC 的创意性更足,基本上5个step给了5个惊喜。
最常用的DPM++ SDE Karras,在20 step之后很稳定,构图基本没变革。
采样步数(Sampling steps)
一样平常采样步数选择20-50之间,也是视大模型而定。
但AI技能始终在进化,SD最新嵌入的UniPC采样器,听说10步以内就能得到很好的出图。
趣闻屋试了下,确实给力。但反向提示词不能给的太多,反向提示词太多步数少会变形。下面给出3个反向提示词和给99个的比拟。
这是只给3个反向提示词的情形下,表现很好:
下面是给99个反向提示词之后,15 steps及以下涌现变形:
人脸修复(Restore faces)SD供应了两个人脸修复的方法:GFPGAN、CodeFormer。
1.GFPGAN (Guided Filtering and Progressive Growing Generative Adversarial Networks) 是基于人类视觉系统的图像天生方法,它利用了勾引滤波器 (Guided Filter) 和渐进增长天生对抗网络 (Progressive Growing GAN) 的技能来天生高质量的图像。
2.CodeFormer 的紧张事理是在编码器 (Encoder) 和解码器 (Decoder) 中采取自把稳力机制,使模型能够有选择地关注输入图像的主要区域,从而减少了模型的冗余操作。同时,CodeFormer 还提出了一种新的丢失函数来提升图像天生的效果。
效果比拟如下:
趣闻屋利用 CodeFormer,无脑选择。
详解仓库:
GFPGAN:https://github.com/TencentARC/GFPGAN
CodeFormer:https://github.com/sczhou/CodeFormer
高分辨率修复(Hires. fix)SD默认情形下,txt2img 以非常高的分辨率(宽高大于756像素)制作图像,会涌现多手多肢体怪物,以是官方建议如果制作高分辨率的图像,打开Hires. fix选项。
高清化算法(Upscaler):
1. Latent
Latent 是一种基于 VAE 模型的图像增强算法,通过将原始图像编码成潜在向量,并对其进行随机采样和重构,从而增强图像的质量、比拟度和清晰度。这种算法适用于对低清、模糊、低比拟度和有噪音的图像进行提升和增强。
2. Lanczos
Lanczos 是一种基于一种低通滤波算法的图像升级算法,在升级图像尺寸时可以保留更多的细节和构造信息,因此可以增强图像的分辨率和细节。这种算法适用于升级分辨率较低的图像、文档或照片,以得到更高质量、更清晰的图像。
3. Nearest
Nearest 是一种基于图像插值的图像升级算法,它利用插值技能将低分辨率的图像升级到高分辨率。虽然它可以快速天生高分辨率图像,但也带来了一些缺陷,如图像边缘模糊、细节丢失或图像瑕疵等。因此,这种算法常日适用于对速率需求较高而不须要过多细节的场景下。
4. LDSR
LDSR( Low-Dose CT Super-Resolution) 是一种用于医学图像重修的算法,它通过卷积神经网络和自把稳力机制,以低剂量扫描 CT 图像为输入,实现加速重修低剂量 CT 图像过程,从而提高图像的准确度和清晰度。这种算法适用于对 CT、MRI 等医学图像进行重修和处理。
5. ESRGAN_4x, R-ESRGAN 4x+ 和 R-ESRGAN 4x+ Anime6B
ESRGAN_4x、R-ESRGAN 4x+ 和 R-ESRGAN 4x+ Anime6B 都是神经网络算法,用于实现图像超分辨率。它们可以将低分辨率的图像升级到更高的分辨率,并可以保留更多的细节和纹理信息。这些算法的不同之处在于采取的网络构造、演习方法以及对不同类型图像处理的效果。ESRGAN_4x 适用于一样平常的图像超分辨率场景,R-ESRGAN 4x+ 紧张用于增强细节和保留更多纹理信息,而 R-ESRGAN 4x+ Anime6B 则适用于对动漫和卡通图像进行超分辨率处理。
6. ScuNET GAN 和 ScuNET PSNR
ScuNET GAN 和 ScuNET PSNR 都是基于天生对抗网络(GAN)的图像超分辨率算法。它们可以以更高的分辨率天生更真实、更清晰的图像,其演习方法和网络构造相对付其他超分辨率算法更加繁芜。ScuNET GAN 适用于比拟较繁芜、高精度的图像超分辨率场景,ScuNET PSNR 则适用于对保持更多的图像细节、纹理、颜色等信息的处理场景。
7. SwinIR 4x
SwinIR 4x 是一种最新的基于 Transformer 模型的图像超分辨率算法,它采取多尺度、多方向的把稳力机制和局部位置感知来增强图像的清晰度、细节和纹理。与传统的 CNN 网络不同,Transformer 网络可以更好地处理长期依赖关系和全局信息。SwinIR 4x 适用于对繁芜、高清晰度图像的处理场景。
高分辨率采样步数(Hires steps):一样平常建议在5-15 steps
重绘强度(Denoising strength):数值越高,改变原图内容也就越多,如下图:
放大倍率(Upscale by):放大倍率一样平常选2,提高出图效率。后面想要更大的分辨率,到附加功能(extras)里放大就可以。
末了的细节宽高:视选择的大模型而定,大模型演习的图片是512512时,建议选择尺寸不要超过768768,须要大分辨率的利用高分辨率修复(Hires. fix)。
天生批次(Batch count):天生多少批,显卡显存少可以选这个多批次出图。
每批数量(Batch):这个和 Batch count 差异是,一个批次出多少张图,须要大显存支持。
提示词勾引系数(CFG Scale):用于掌握图像增强的程度,一样平常建议在3-11,视大模型而定。当 CFG Scale 的数值较高时,图像增强程度也会相应增加,使得图像的亮度、比拟度等增强效果更加明显。CFG Scale 数值过高也会带来一些问题:
1. 图像过度增强:当 CFG Scale 数值过高时,图像的亮度、比拟度增强效果会过度提升,使得图像细节和构造的自然效果被毁坏,从而使图像看起来过度处理或过于极度。
2. 噪声和伪影:在一些情形下,CFG Scale 数值过高会使图像涌现噪声和伪影,这会影响图像的视觉效果并影响后续处理过程。
图像天生种子(Seed): seed 值掌握天生图像的随机性。如果利用相同的 seed,每次天生的图像会附近,利用不同的 seed,则可以得到相差较多的图像,从而天生具有不同风格和特点的图像。
结语
结束。文章很长,能看到这的同学那必须是真爱~[心]
趣闻屋感谢同学们的阅读,有什么遗漏、问题和纠错,欢迎评论区留言。趣闻屋客气求教。[可爱]
古德拜!
我们下期见~~