一、Stable Diffusion 概述

Stable Diffusion 是一款基于深度学习的开源图像天生工具,自 2022 年 8 月由 Stability AI 公司推出以来,在创意设计、视频殊效等多个领域展现出了广泛的运用前景和巨大的上风。

在创意设计领域,Stable Diffusion 为艺术家和设计师供应了强大的创尴尬刁难象。
可以根据用户输入的文本描述,快速天生具有高分辨率和逼真效果的图像,帮助艺术家们更快速地得到灵感,创作出独特而吸引人的作品。
无论是插画、观点艺术还是角色设计,Stable Diffusion 都能发挥主要浸染。
例如,在游戏开拓中,它能够为游戏开拓者供应快速创建游戏资产的能力,天生角色、环境和道具等,加速原型设计和游戏内容的迭代,提高开拓效率。

在视频殊效方面,Stable Diffusion 也有着出色的表现。
2023 年 5 月,Stable Diffusion 已经可以天生视频。
Stability AI 以输出动画的积分值作为收费的依据,用户天生的动画会被换算成一个积分,每 1000 个积分花费 1 美元。
它能够为电影和动画制作供应背景、殊效和角色设计等方面的支持,帮助制作团队更高效地创建出精美的视觉效果,提升作品的质量和吸引力。

AIGC爆款对象Stable Diffusion教程详解

Stable Diffusion 的上风紧张表示在以下几个方面。
首先,它以卓越的天生质量著称,能够天生高分辨率、逼真的图像,具有出色的细节和真实感。
其次,与其他深度学习模型比较,Stable Diffusion 表现出更高的稳定性,在演习过程中更不随意马虎涌现崩溃或模型崩溃的情形,提高了开拓效率。
此外,Stable Diffusion 不仅在图像天生领域表现出色,还在语音处理、自然措辞处理等多个领域有着广泛的运用,是一个多才多艺的模型。

二、硬件与安装准备

(一)硬件配置需求

Stable Diffusion 对硬件有一定的哀求,以确保其能够高效运行。
首先,须要一个多核 CPU,如 Intel i7、i9 或 AMD Ryzen 7、9 系列。
多核 CPU 可以更好地处理数据预处理和其他赞助任务,提高整体系统性能。

对付 GPU,NVIDIA GPU 是首选。
一样平常来说,显存容量越大,能够处理的图像分辨率和批量大小越大。
最低哀求常日为 6GB,但为了更好的性能,建议利用 8GB 或更多显存的 GPU。
例如,NVIDIA RTX 3060(12GB)、RTX 3070(8GB)等都是不错的选择。
如果预算许可,可以考虑更高真个 NVIDIA RTX 4090(24GB)等新一代显卡。

内存方面,推举 32GB 及以上,最低也要 16GB。
足够的内存可以支持处理大型数据集和高分辨率图像,提高性能和稳定性。

存储方面,推举利用 SSD,读写速率快,至少须要 100GB 空间。
Stable Diffusion 的模型文件、天生的图像以及中间结果都须要占用一定的存储空间,因此大容量的 SSD 可以确保系统的顺畅运行。

(二)安装步骤与环境搭建

首先,须要从 GitHub 仓库下载 Stable Diffusion。
打开浏览器,访问 GitHub 上的 Stable Diffusion 仓库(https://github.com/AUTOMATIC1111/stable-diffusion-webui.git),然后利用 git clone 命令将其克隆到本地。

接下来,准备 Python 环境。
安装 Python 3.10.6 版本,安装时一定要勾选 “Add Python to PATH” 选项,以自动配置环境变量。
这样可以确保在命令行中能够顺利运行 Python 命令。

安装好 Python 后,还须要安装一些必要的包。
在命令行中进入 Stable Diffusion 的安装目录,实行 “pip install -r requirements.txt” 命令,安装所需的依赖包。

下载 Stable Diffusion 的权重文件,并将其放在 “models/Stable-diffusion” 目录下。
权重文件可以从 Hugging Face 等平台下载。

末了,启动 WebUI。
在 Stable Diffusion 的安装目录下,输入 “python launch.py --share --xformers” 命令。
“--share” 参数会天生一个公开的 URL,方便外部访问;“--xformers” 参数会启用 xformers 加速天生速率。

启动成功后,打开浏览器,输入终端输出的公开 URL,即可利用 WebUI 进行图像天生等操作。

三、界面与功能

(一)界面布局

Stable Diffusion 的用户界面简洁直不雅观,易于操作。
提示输入区域位于界面的上方,用户可以在这里输入文本描述,作为天生图像的指引。
这个区域支持英文输入,所有符号都需利用英文半角,词语之间用半角逗号隔开。
一样平常来说,越靠前的词汇权重越高。

参数设置区域在界面的一侧,包含了浩瀚可调度的参数。
个中,分辨率、尺寸等参数可以在这里进行设置,以优化图像的细节和质量。
此外,还有采样步数、采样方法等参数可供选择,不同的参数组合会影响天生图像的效果和速率。

结果展示区位于界面的中心,用于展示天生的图像。
用户可以在这里直不雅观地看到图像天生的结果,并根据须要进行调度和优化。

(二)根本功能

文本到图像天生:这是 Stable Diffusion 的核心功能之一。
用户只需在提示输入区域输入描述性的文本,如 “a beautiful sunset over the ocean, with seagulls flying in the sky”,然后调度参数设置,点击天生按钮,系统就会根据文本描述天生相应的图像。
这个功能可以帮助艺术家快速得到灵感,也可以用于广告设计、书本插图等领域。

图像到图像转换:用户可以上传一张参考图像,然后在提示输入区域输入描述性的文本,系统会根据参考图像和文本描述天生新的图像。
例如,上传一张风景照片,然后输入 “turn this landscape into a winter wonderland”,系统就会天生一张冬季风景的图像。
这个功能可以用于图像修复、风格转换等领域。

图像增强:Stable Diffusion 可以对低质量的图像进行增强,提高图像的分辨率和清晰度。
用户只需上传须要增强的图像,然后调度参数设置,点击天生按钮,系统就会对图像进行增强处理。
这个功能可以用于照片修复、老照片数字化等领域。

(三)高等功能探索

个性化设置:Stable Diffusion 供应了丰富的个性化设置选项,用户可以根据自己的需求进行调度。
例如,用户可以选择不同的模型,每个模型都有其独特的风格和特点。
此外,用户还可以调度提示词干系性、学习率等参数,以得到更符合预期的天生结果。

调度参数以优化天生效果:采样步数是一个主要的参数,它掌握着天生图像的细节度与多样性。
高值增加细节,但天生韶光也会相应增加;低值提升速率,但可能会捐躯一些细节。
提示词干系性也是一个关键参数,它调度文本提示的权重,确保天生结果符合预期。
用户可以通过不断考试测验不同的参数组合,找到最适宜自己需求的设置,从而优化天生效果。

四、参数调度与提示词策略

(一)关键参数调度

学习率:学习率影响模型学习速率。
较低的学习率可能导致演习韶光较长,但能更稳定地收敛到较好的结果;较高的学习率则可能使模型在演习初期快速更新,但也随意马虎错过最优解乃至导致模型不稳定。
一样平常来说,初始学习率可以设置在较小的值,如 0.0001,然后根据演习情形进行动态调度。
例如,在演习过程中,如果创造丢失函数低落缓慢,可以适当提高学习率;如果丢失函数颠簸较大,则应降落学习率。

采样步数:采样步数掌握天生图像的细节度与多样性。
采样步数越多,天生的图像细节越丰富,但同时也会增加天生韶光和打算资源花费。
常日情形下,采样步数在 20 到 60 之间可以在图像质量和天生速率之间取得较好的平衡。
对付高细节哀求的图像,可以适当增加采样步数,但也要考虑打算资源的限定。
例如,在天生写实人像或繁芜场景时,可能须要较高的采样步数,如 50 步以上;而对付一些大略的图像或对天生速率哀求较高的情形,可以选择较低的采样步数,如 20 到 30 步。

提示词干系性:提示词干系性指的是输入提示词对天生图像的影响程度。
当提示词干系性较高时,天生的图像将更符合提示信息的样子;相反,如果提示词干系性较低,对应的权重也较小,则天生的图像会更加随机。
一样平常来说,对付人物类的提示词,提示词干系性可以掌握在 7 - 15 之间,以突出人物特色和细节;而对付建筑等大场景类的提示词,一样平常掌握在 3 - 7 旁边,以在一定程度上突出随机性,同时又不会影响天生图像的可视化效果。

(二)提示词编写技巧

正向提示词:利用清晰、详细的描述可以得到更准确的图像。
例如,描述一个人物时,可以包括性别、年事、发型、衣服颜色、样式、身材等特色,以及人物的表情和动作。
同时,还可以设定画面内的其他物品、人物关系、背景等。
例如,“a beautiful young woman with long curly hair, wearing a red dress, smiling, standing in a garden with colorful flowers, holding a book”。
此外,还可以设定方向和风格,如 “front view” 表示正面视角,“watercolor painting art” 表示水彩画风格。

负向提示词:避免不想要的元素,如特定颜色、元素等。
例如,“bad hands, missing fingers, (too many fingers:1.2)” 可以避免天生的图像中涌现手指问题;“(unclear eyes:1.2)” 可以避免五官不清晰的问题;“(worst quality:2), (low quality:2), blurry” 可以避免画质问题。
通过负向提示词,可以让天生的图像更加符合预期。

权重调度方法:可以通过语法来设置关键词的权重。
小括号 “()” 可以增加权重,一个小括号增加 1.1 倍权重,最多套三层小括号也便是 1.331 倍权重;大括号 “{ }” 也增加权重,但比较小括号更轻微,是增加 1.05 倍,三层大括号权重为 1.15 倍;中括号 “[ ]” 是减小权重值的,它会把权重变为原来的 0.9 倍,三层便是 0.729 倍。
此外,还可以利用自定义权重,格式为 “(keyword:factor)”,factor 是权重值,权重取值范围 0.4 - 1.6,权重太小随意马虎被忽略,太大随意马虎拟合图像出错。

(三)提示词拆分方法

Stable Diffusion 自带反堆功能:可以通过将想要拆分的图像拖入反堆,点击按钮来得到天生该图像的提示词。
第一次利用可能会有些慢,须要稍等少焉。
得到的提示词须要进行后期的优化,常用的方法是通过百度翻译后进行增编削,或者输入到 GPT 中进行优化,优化后将提示词放入相应的框内进行图像输出。

三方网站:可以借助三方网站,如 https://replicate.com/ 来进行拆分。
拆分好后,同 Stable Diffusion 自带反堆功能一样,进行增编削,然后对两种方法进行比较,通过比较后,可以进行词汇的筛选与合并。

干系工具:利用 GPT 或文心一言等干系工具,将想要描述的长句输入,末了加一句描述,请将这句话拆分为 Stable Diffusion 的提示词。
如果不满意可以连续规复优化提示词,或者换一批干系描述,然后将转换好的提示词同 Stable Diffusion 自带反堆功能一样进行增编削。

五、结果预览与优化

(一)实时预览与导出试验

Stable Diffusion 的实时预览功能为用户供应了极大的便利。
在天生图像的过程中,用户可以即时查看天生结果,从而能够根据实际情形对参数进行调度。
例如,当用户创造天生的图像细节不足丰富时,可以增加采样步数;如果图像的色彩不符合预期,可以调度提示词中的颜色描述。

导出试验功能许可用户保存不同参数组合天生的图像,以便进行比拟优化。
据统计,通过考试测验不同的参数组合,用户能够提高约 30% 的图像天生质量满意度。
比如,用户可以设置不同的学习率、采样步数和提示词干系性,然后分别导出生成的图像。
在比拟这些图像时,可以清晰地看到不同参数对图像质量、细节度和速率的影响。
对付追求高质量图像的用户来说,这个功能是非常实用的,可以帮助他们找到最适宜自己需求的参数组合。

(二)行列步队管理与结果重做

行列步队管理功能是 Stable Diffusion 的一个主要特性。
它可以记录天生过程,方便用户重新处理或调度结果。
例如,当用户同时进行多个图像天生任务时,可以将这些任务添加到行列步队中,系统会依次处理这些任务。
如果用户在某个任务的天生过程中创造问题,可以停息该任务,进行参数调度后重新加入行列步队进行处理。

结果重做功能则为用户供应了更多的灵巧性。
如果用户对天生的结果不满意,可以选择重做该任务。
在重做过程中,用户可以调度参数、改换提示词或者选择不同的模型,以得到更满意的结果。
据实际利用情形反馈,约有 40% 的用户会利用结果重做功能来优化他们的图像天生结果。

通过实时预览、导出试验、行列步队管理和结果重做等功能,用户可以更加高效地利用 Stable Diffusion 进行图像天生,不断优化天生效果,知足自己的创意需求。

六、实战运用与扩展

(一)图生图运用

图生图是 Stable Diffusion 的一项强大功能。
其事理紧张基于扩散模型的框架,通过编码源图片和提示词、逆扩散过程以及解码过程来天生新的图像。
在这个过程中,模型会接管一张源图片作为额外条件,从而天生与源图干系联且符合提示哀求的新图像。

步骤如下:首先,用户须要供应一张源图片和相应的提示词。
源图片通过图像编码器天生隐空间特色,同时提示词通过 CLIP Text Encoder 编码为文本特色。
然后,在逆扩散过程中,模型利用噪声预测器逐步去除隐空间中的噪声,同时根据提示词的语义信息辅导天生过程。
末了,经由逆扩散过程后,得到的隐空间特色通过图像解码器转换回像素空间,天生终极的图像。

随机种子在图生图中也起着重要浸染。
当随机种子固定时,天生的图像具有更高的可重复性。
例如,用户对一张源图片进行图生图操作,设置了特定的提示词和随机种子。
如果再次利用相同的源图片、提示词和随机种子进行图生图,天生的图像将基本相同。
这使得用户可以在不同的参数调度过程中,保持图像的某些特定特色,方便进行比拟和优化。

图生图的扩展运用非常广泛,比如物体拟人化。
用户可以上传一张物体的图片,如一个苹果,然后输入提示词 “一个可爱的苹果女孩,穿着赤色的裙子,有着绿色的叶子头发”。
通过图生图功能,Stable Diffusion 可以将苹果转化为一个可爱的拟人化女孩形象,为创意设计供应了更多的可能性。

(二)模型的利用

Stable Diffusion 的模型文件格式紧张有两种,分别是 ckpt 和 safetensors。
ckpt 是 pytoch 利用 pickle 序列化存储的格式,大略易用,但可能会序列化某些 python 实行代码。
safetensors 是 HuggingFace 推出的新的模型存储格式,不会包含实行代码,不须要反序列化,加载更快,目前已经是主流的 Stable Diffusion 模型存储格式。

在一些网站平台上可以下载和利用 Stable Diffusion 模型。
例如 C 站(civitai.com)和拥抱脸(huggingface.co),但须要科学上网。
如果是用整合包安装的 Stable Diffusion,可以在 SD-WebUI 启动器中的模型管理页面下载。
此外,网上也可以搜集整理模型,资源非常丰富。

在类目推举方面,用户可以根据自己的需求选择不同类型的模型。
比如,想要天生逼真的人脸图像,可以选择善于人物画风的根本模型;如果想要特定的风格,如二次元画风,可以选择相应的 Lora 模型。
下载好模型后,须要根据模型类型放置到对应的目录中。
例如,根本模型放置到 “models/Stable-diffusion” 目录下,VAE 模型放置到 “models/VAE” 目录下,Lora 模型放置到 “models/Lora” 目录下。

(三)B 端图标天生

利用 Stable Diffusion 天生 B 端图标是其在实际运用中的一个范例案例。
首先,须要对电脑配置有一定的理解,由于 Stable Diffusion 对硬件有一定哀求。
一样平常来说,须要一个多核 CPU,如 Intel i7、i9 或 AMD Ryzen 7、9 系列;对付 GPU,NVIDIA GPU 是首选,显存容量越大越好,建议利用 8GB 或更多显存的 GPU;内存方面,推举 32GB 及以上;存储方面,推举利用 SSD,读写速率快,至少须要 100GB 空间。

下载设置模型文件,包括 SD 模型、外挂 VAE 模型、Refiner 模型、ControlNet 模型等。
链接:https://pan.baidu.com/s/1fQh9-fnGXJS8sh8CwO1Wtg?pwd=7605 提取码:7605。
将模型文件放置在相应的目录下,并在 SD 中进行设置。
采样方法可以选 DPM++ 3M SDE Karras,画面会柔和一些,背景更干净,细节也相对减少,速率和 DPM++ 2M Karras 一样,以是迭代步数推举在 30 或以上。

准备底图素材,用 ControlNet 控图,须要明确图标的线稿。
可以利用已有图标进行优化,利用 PS 进行图标线稿处理,再对其形状等关键特色进行组合或者添加自己的创意。
对付特殊繁芜的图形,建议避免利用过于繁芜的模型。
只需有根本的轮廓图,就可以快速创建 B 端图标。
把稳尽可能把闭合形状的轮廓处理的粗细同等且清晰可见;模糊的区域可以用橡皮擦或者蒙版处理干净;立体图形的迁移转变处连接处要明确。

构思关键词,可以利用下方的关键词,并更换自己想要的内容和颜色等。
如果无法找到得当的关键词或创意,可以先在网上网络一些干系的设计参考图片,在图生图界面中,将这些参考图片导入并点击 CLIP 反推提示词。
选择天生的关键词,然后将其输入到文生图的 Prompt 中。
这样可以快速得到空想的设计方案。

正向关键词:(a shield icon:1.1),dark blue frosted glass texture,dark blue gradient,(softedges:1.2),3D,best quality,many details,4k,blender,octane render,C4D,transparentglass texture,DDicon,frosted glass,transparent technology sense,industrialdesign,white background,studio lighting,sunshine,flat,minimal,quasi-object,Datafile。

负正向关键词:lowres,bad anatomy,((bad hands)),(worst quality:2),(low quality:2),(normal quality:2),paintings,sketches,lowres,bad anatomy,bad hands,text,error,missing fingers。

在选择好刚才的模型和参数后,填入关键词,并在 ControlNet 中上传已经处理好的线稿,点击爆炸图标,得到控图线稿,再点击右上角的天生,就可以进行抽卡生图啦。
对已天生的图标,可以用 PS 进行处理;也可以将方案放到图生图中局部重绘一下细节,得到更符合预期的效果。

整体的制作思路可以大概拆解为 6 个步骤:找到类似参考 - 线稿处理 - 提炼关键词 - 利用 ControlNet 掌握线稿 - 重新优化图标方案 - 实际运用。

七、入门教程与资源

(一)新手入门指南

Stable Diffusion 的安装对付初学者来说可能会有一定的寻衅,但只要按照精确的步骤进行操作,也并非难事。
如果选择在谷歌做事器上支配 Stable Diffusion,以下是详细的步骤:

准备事情:首先须要一个顺畅的网络环境,由于会用到谷歌的一些干系做事。
同时,还须要一个谷歌账号,如果还没有谷歌账号,可以去谷歌注册一个账号,无论是否利用大陆手机号,都是可以注册成功的。

进入谷歌主页:在头像左边,点击谷歌运用的按钮,然后在弹出的小页面中选择云端硬盘。
如果是第一次进入云端硬盘,会有一个欢迎解释文件,可直接点下一步或直接关掉。
每一个账号谷歌会给到我们 15G 的利用空间,这个空间对付安装 Stable Diffusion 的程序是完备够的。

安装 Stable Diffusion 一键安装包:进入 Stable Diffusion 一键安装包主页,看到程序解释中的表格里有三个链接,先点击第一个,右键单击在新建标签中打开链接。
浏览器会新开一个页面,这便是安装程序。
为了方便后期利用,可以先备份一下,点击上方的 “复制到云端硬盘”,稍等两三秒,副本创建完成后页面会跳转。
返回云端硬盘,可以看到多了一个 “Install 的副本”。
回到副本的安装页面,点击左上角的运行按钮。

等待安装:在等待几秒之后,谷歌会跳出一个对话框,向我们要求访问 Google 硬盘的权限。
在这个窗口里,选择我们的账号,拖到最底下点击许可。
然后可以看到代码已经开始运行了,须要轻微等待一下。
大概等 7 到 8 分钟的韶光,等待程序自动支配完成。
由于这是第一次支配,须要下载很多东西,以是韶光相对会比较长。
在后期利用过程中,韶光会大大缩短。
如果涌现失落败情形,可能是由于当下资源比较紧缺,可以考试测验换一个韶光重新支配。

汉化步骤:安装汉化措辞包、双语翻译。
点击 “extensions”——“Available”——“Load from” 加载插件;在搜索框中输入 “hans”,取消勾选;点击 “Install”;搜索 “bilingual”;点击第一个 “Install”,安装;点击 “Installed”,可以看到刚刚安装的插件;在 settings 选项栏下找到 bilingual-localization,不才拉菜单选择刚刚的 zh_CN(找不到的话点击一下阁下的刷新按钮),运用设置并重启 UI。

(二)学习资源推举

对付初学者来说,丰富的学习资源可以帮助他们更快地节制 Stable Diffusion。
以下是一些推举的资源:

Stable Diffusion 文档中央:这里供应了详细的软件解释、功能先容和利用教程,是初学者理解软件的主要路子。
文档中央常日会涵盖软件的各个方面,包括安装步骤、界面先容、参数调度、功能详解等。

利用手册:利用手册常日会以简洁明了的办法先容软件的操作方法和把稳事变。
它可以帮助用户快速上手软件,理解如何进行基本的图像天生操作,以及如何调度各种参数以得到更好的效果。

提示词大全:提示词在 Stable Diffusion 的图像天生过程中起着至关主要的浸染。
提示词大全可以为用户供应丰富的词汇参考,帮助他们更好地描述想要天生的图像内容。
提示词大全可以包括各种主题的词汇,如风景、人物、动物、建筑等,以及不同风格的描述词汇,如写实、卡通、水彩画等。

插件手册:Stable Diffusion 拥有丰富的插件生态,这些插件可以为软件增加更多的功能和灵巧性。
插件手册可以先容各种插件的安装方法、利用解释和功能特点,帮助用户根据自己的需求选择和利用插件。

(三)社区与互换

加入 Stable Diffusion 的用户社区对付初学者来说是非常主要的。
在社区中,用户可以分享自己的作品和学习成果,与其他用户互换履历和技巧,共同推动技能的发展。

分享作品:将自己天生的图像分享到社区中,可以得到其他用户的反馈和建议,从而不断提高自己的创作水平。
同时,也可以从其他用户的作品中得到灵感,拓展自己的创作思路。

互换履历:在社区中,用户可以与其他用户互换利用 Stable Diffusion 的履历和技巧,办理碰着的问题。
例如,如何调度参数以得到更好的效果、如何利用插件、如何进行图生图等。

共同推动技能发展:用户社区是一个开放的平台,用户可以在这里提出自己的想法和建议,为软件的发展贡献自己的力量。
同时,也可以关注软件的更新和发展动态,及时理解新的功能和技能。