Stable Diffusion 制作记录：从配置到出图的全过程复盘

alex 收录于类别 Ai Aigc

2025-07-09 2025-07-09 约 1209 字预计阅读 6 分钟

stable-diffusion-制作记录-从配置到出图的全过程复盘

其实我最早接触 Stable Diffusion 是因为被 Midjourney 的订阅劝退了，想着干脆自己搞一套本地出图的环境，也顺带折腾一下显卡。没想到这一折腾，配置+优化+修 bug，一套流程直接拉满。下面这篇就当是我整个部署 + 制作流程的一个复盘，也方便你们避坑。

1 1. 为什么不用Web端，非得折腾本地部署？

讲真，WebUI 看起来很香，什么 Civitai、Mage.space 一堆站都能跑图。但限制也不少：

所以我干脆本地装一套，一开始选了 stable-diffusion-webui，因为社区最大，教程最多。

我在 Windows 上搭的，主要为了兼容剪辑软件和显卡驱动，系统是 Win11 + RTX 4060，16G 内存。

基本流程如下：

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

然后跑一次 webui-user.bat，就会自动下载Python和依赖包。这里我建议手动改下参数，指定 GPU 计算：

set COMMANDLINE_ARGS=--xformers --opt-sdp-attention --medvram

安装完第一次运行的时候，模型权重是空的，我直接丢了个官方的 v1-5-pruned.ckpt 到 models/Stable-diffusion/ 目录。

如果你不想自己找，可以看这篇 stable-diffusion快速入门到精通，那篇里有很多靠谱的模型源推荐。

别一上来就把 CFG Scale 改到 20，Steps 设到 50，那是显卡杀手行为……我初期设置一般如下：

LoRA、T2I-Adapter、ControlNet 我都是后面才逐步加上的，建议新手一开始先学会 base model 出图，再搞插件。

后来我入了 LoRA 的坑，想自己训练一个微调模型，但发现工程量比想象的大很多。

你可以参考这篇 gpt-sovits声音模型训练，虽然是声音的，但很多关于训练流程、环境配置的问题其实是类似的。

我个人建议：先用别人的 LoRA 跑跑，了解参数效果，再考虑自己训练。不然真的是配环境都能劝退你。

我在玩 ControlNet 的时候，发现直接 pip 装的有些插件版本不兼容，比如 torch==2.1 会导致报错 cuda runtime error，最后我退回到 torch==1.13.1 才稳定。

还有一次图生成失败是因为用了旧版本的 xformers，报错花了我两个小时才定位到。建议大家用最新版但也别乱升，稳为主。

有些人喜欢一张图反复调 prompt，我是喜欢批量生成 + 后期筛图。

Stable Diffusion 自带批量出图功能，我一般设置：

搭配 video-retalking一键整合包下载，后期还能给图加上嘴型、生成小视频，出图完直接做视频。

折腾这套流程下来，我确实也遇到了不少问题，有些插件版本乱、有些模型下载慢，还有环境切换之间的 bug……但好在，所有的问题最终都能解决。

只要你不是太着急，花两天时间认真弄一下，Stable Diffusion 本地部署其实没你想的那么难。真的推荐。