目录

Stable Diffusion 制作记录:从配置到出图的全过程复盘

stable-diffusion-制作记录-从配置到出图的全过程复盘

其实我最早接触 Stable Diffusion 是因为被 Midjourney 的订阅劝退了,想着干脆自己搞一套本地出图的环境,也顺带折腾一下显卡。没想到这一折腾,配置+优化+修 bug,一套流程直接拉满。下面这篇就当是我整个部署 + 制作流程的一个复盘,也方便你们避坑。


讲真,WebUI 看起来很香,什么 Civitai、Mage.space 一堆站都能跑图。但限制也不少:

  • 免费版图片尺寸低、不能批量出图;
  • 动不动排队、卡顿严重;
  • 想玩 LoRA 和 ControlNet,根本不够灵活。

所以我干脆本地装一套,一开始选了 stable-diffusion-webui,因为社区最大,教程最多。


我在 Windows 上搭的,主要为了兼容剪辑软件和显卡驱动,系统是 Win11 + RTX 4060,16G 内存。

基本流程如下:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

然后跑一次 webui-user.bat,就会自动下载Python和依赖包。这里我建议手动改下参数,指定 GPU 计算:

set COMMANDLINE_ARGS=--xformers --opt-sdp-attention --medvram

安装完第一次运行的时候,模型权重是空的,我直接丢了个官方的 v1-5-pruned.ckptmodels/Stable-diffusion/ 目录。

如果你不想自己找,可以看这篇 stable-diffusion快速入门到精通,那篇里有很多靠谱的模型源推荐。

别一上来就把 CFG Scale 改到 20,Steps 设到 50,那是显卡杀手行为……我初期设置一般如下:

  • Sampling method:Euler a
  • Steps:20
  • CFG scale:7
  • Size:512x768(竖图更好出人像)
  • Batch count:3(有显存就拉满)

LoRA、T2I-Adapter、ControlNet 我都是后面才逐步加上的,建议新手一开始先学会 base model 出图,再搞插件。


后来我入了 LoRA 的坑,想自己训练一个微调模型,但发现工程量比想象的大很多。

你可以参考这篇 gpt-sovits声音模型训练,虽然是声音的,但很多关于训练流程、环境配置的问题其实是类似的。

我个人建议:先用别人的 LoRA 跑跑,了解参数效果,再考虑自己训练。不然真的是配环境都能劝退你。


我在玩 ControlNet 的时候,发现直接 pip 装的有些插件版本不兼容,比如 torch==2.1 会导致报错 cuda runtime error,最后我退回到 torch==1.13.1 才稳定。

还有一次图生成失败是因为用了旧版本的 xformers,报错花了我两个小时才定位到。建议大家用最新版但也别乱升,稳为主。


有些人喜欢一张图反复调 prompt,我是喜欢批量生成 + 后期筛图。

Stable Diffusion 自带批量出图功能,我一般设置:

  • Batch size = 3
  • Batch count = 4
  • 然后用 Hires.fix 拉高分辨率

搭配 video-retalking一键整合包下载,后期还能给图加上嘴型、生成小视频,出图完直接做视频。

折腾这套流程下来,我确实也遇到了不少问题,有些插件版本乱、有些模型下载慢,还有环境切换之间的 bug……但好在,所有的问题最终都能解决。

只要你不是太着急,花两天时间认真弄一下,Stable Diffusion 本地部署其实没你想的那么难。真的推荐。


相关内容