Stable Diffusion 制作记录:从配置到出图的全过程复盘
其实我最早接触 Stable Diffusion 是因为被 Midjourney 的订阅劝退了,想着干脆自己搞一套本地出图的环境,也顺带折腾一下显卡。没想到这一折腾,配置+优化+修 bug,一套流程直接拉满。下面这篇就当是我整个部署 + 制作流程的一个复盘,也方便你们避坑。
1 1. 为什么不用Web端,非得折腾本地部署?
讲真,WebUI 看起来很香,什么 Civitai、Mage.space 一堆站都能跑图。但限制也不少:
- 免费版图片尺寸低、不能批量出图;
- 动不动排队、卡顿严重;
- 想玩 LoRA 和 ControlNet,根本不够灵活。
所以我干脆本地装一套,一开始选了 stable-diffusion-webui,因为社区最大,教程最多。
2 2. 安装环境那点事儿(Windows版)
我在 Windows 上搭的,主要为了兼容剪辑软件和显卡驱动,系统是 Win11 + RTX 4060,16G 内存。
基本流程如下:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
然后跑一次 webui-user.bat
,就会自动下载Python和依赖包。这里我建议手动改下参数,指定 GPU 计算:
set COMMANDLINE_ARGS=--xformers --opt-sdp-attention --medvram
安装完第一次运行的时候,模型权重是空的,我直接丢了个官方的 v1-5-pruned.ckpt
到 models/Stable-diffusion/
目录。
如果你不想自己找,可以看这篇 stable-diffusion快速入门到精通,那篇里有很多靠谱的模型源推荐。
3 3. 控制参数和生成设置:建议从默认值开始
别一上来就把 CFG Scale 改到 20,Steps 设到 50,那是显卡杀手行为……我初期设置一般如下:
- Sampling method:Euler a
- Steps:20
- CFG scale:7
- Size:512x768(竖图更好出人像)
- Batch count:3(有显存就拉满)
LoRA、T2I-Adapter、ControlNet 我都是后面才逐步加上的,建议新手一开始先学会 base model 出图,再搞插件。
4 4. LoRA 和模型微调
后来我入了 LoRA 的坑,想自己训练一个微调模型,但发现工程量比想象的大很多。
你可以参考这篇 gpt-sovits声音模型训练,虽然是声音的,但很多关于训练流程、环境配置的问题其实是类似的。
我个人建议:先用别人的 LoRA 跑跑,了解参数效果,再考虑自己训练。不然真的是配环境都能劝退你。
5 5. 真正的坑来了:显卡兼容性 + 扩展插件崩溃
我在玩 ControlNet 的时候,发现直接 pip 装的有些插件版本不兼容,比如 torch==2.1
会导致报错 cuda runtime error
,最后我退回到 torch==1.13.1
才稳定。
还有一次图生成失败是因为用了旧版本的 xformers
,报错花了我两个小时才定位到。建议大家用最新版但也别乱升,稳为主。
6 6. 出图策略:保守派和创意派的混搭法
有些人喜欢一张图反复调 prompt,我是喜欢批量生成 + 后期筛图。
Stable Diffusion 自带批量出图功能,我一般设置:
- Batch size = 3
- Batch count = 4
- 然后用
Hires.fix
拉高分辨率
搭配 video-retalking一键整合包下载,后期还能给图加上嘴型、生成小视频,出图完直接做视频。
折腾这套流程下来,我确实也遇到了不少问题,有些插件版本乱、有些模型下载慢,还有环境切换之间的 bug……但好在,所有的问题最终都能解决。
只要你不是太着急,花两天时间认真弄一下,Stable Diffusion 本地部署其实没你想的那么难。真的推荐。