{/* This page is auto-generated from the skill's SKILL.md by website/scripts/generate-skill-docs.py. Edit the source SKILL.md, not this page. */}

Stable Diffusion 图像生成

通过 HuggingFace Diffusers 使用 Stable Diffusion 模型实现最先进的文本到图像生成。适用于从文本 prompt（提示词）生成图像、执行图像到图像转换、图像修复（inpainting），或构建自定义扩散 pipeline。

Skill 元数据


来源	可选 — 通过 `hermes skills install official/mlops/stable-diffusion` 安装
路径	`optional-skills/mlops/stable-diffusion`
版本	`1.0.0`
作者	Orchestra Research
许可证	MIT
依赖项	`diffusers>=0.30.0`, `transformers>=4.41.0`, `accelerate>=0.31.0`, `torch>=2.0.0`
平台	linux, macos, windows
标签	`Image Generation`, `Stable Diffusion`, `Diffusers`, `Text-to-Image`, `Multimodal`, `Computer Vision`

参考：完整 SKILL.md

信息

以下是 Hermes 在触发此 skill 时加载的完整 skill 定义。这是 agent 在 skill 激活时所看到的指令内容。

Stable Diffusion 图像生成

使用 HuggingFace Diffusers 库通过 Stable Diffusion 生成图像的综合指南。

何时使用 Stable Diffusion

在以下情况下使用 Stable Diffusion：

从文本描述生成图像

执行图像到图像转换（风格迁移、增强）

Inpainting（填充遮罩区域）

Outpainting（将图像扩展至边界之外）

创建现有图像的变体

构建自定义图像生成工作流

核心功能：

文本到图像：从自然语言 prompt 生成图像

图像到图像：在文本引导下转换现有图像

Inpainting：用上下文感知内容填充遮罩区域

ControlNet：添加空间条件控制（边缘、姿态、深度）

LoRA 支持：高效微调与风格适配

多模型支持：支持 SD 1.5、SDXL、SD 3.0、Flux

改用以下替代方案：

DALL-E 3：无需 GPU 的 API 生成

Midjourney：艺术化、风格化输出

Imagen：Google Cloud 集成

Leonardo.ai：基于 Web 的创意工作流

快速开始

安装

基础文本到图像

使用 SDXL（更高质量）

架构概览

三支柱设计

Diffusers 围绕三个核心组件构建：

Pipeline (orchestration)
├── Model (neural networks)
│   ├── UNet / Transformer (noise prediction)
│   ├── VAE (latent encoding/decoding)
│   └── Text Encoder (CLIP/T5)
└── Scheduler (denoising algorithm)

Pipeline 推理流程

Text Prompt → Text Encoder → Text Embeddings
                                    ↓
Random Noise → [Denoising Loop] ← Scheduler
                      ↓
               Predicted Noise
                      ↓
              VAE Decoder → Final Image

核心概念

Pipeline

Pipeline 编排完整工作流：

Pipeline	用途
`StableDiffusionPipeline`	文本到图像（SD 1.x/2.x）
`StableDiffusionXLPipeline`	文本到图像（SDXL）
`StableDiffusion3Pipeline`	文本到图像（SD 3.0）
`FluxPipeline`	文本到图像（Flux 模型）
`StableDiffusionImg2ImgPipeline`	图像到图像
`StableDiffusionInpaintPipeline`	Inpainting

Scheduler

Scheduler 控制去噪过程：

Scheduler	步数	质量	适用场景
`EulerDiscreteScheduler`	20-50	良好	默认选择
`EulerAncestralDiscreteScheduler`	20-50	良好	更多变化
`DPMSolverMultistepScheduler`	15-25	优秀	快速、高质量
`DDIMScheduler`	50-100	良好	确定性生成
`LCMScheduler`	4-8	良好	极速生成
`UniPCMultistepScheduler`	15-25	优秀	快速收敛

切换 Scheduler

生成参数

关键参数

参数	默认值	说明
`prompt`	必填	目标图像的文本描述
`negative_prompt`	None	图像中需要避免的内容
`num_inference_steps`	50	去噪步数（越多质量越好）
`guidance_scale`	7.5	Prompt 遵循程度（通常为 7-12）
`height`, `width`	512/1024	输出尺寸（8 的倍数）
`generator`	None	用于可复现性的 Torch generator
`num_images_per_prompt`	1	批量大小

可复现生成

Negative prompt

图像到图像

在文本引导下转换现有图像：

Inpainting

填充遮罩区域：

ControlNet

添加空间条件控制以实现精确控制：

可用的 ControlNet

ControlNet	输入类型	适用场景
`canny`	边缘图	保留结构
`openpose`	姿态骨架	人体姿态
`depth`	深度图	3D 感知生成
`normal`	法线图	表面细节
`mlsd`	线段	建筑线条
`scribble`	粗略草图	草图到图像

LoRA 适配器

加载微调风格适配器：

多个 LoRA

内存优化

启用 CPU 卸载

Attention 切片

xFormers 内存高效 Attention

大图像的 VAE 切片

模型变体

加载不同精度

加载特定组件

批量生成

高效生成多张图像：

常见工作流

工作流 1：高质量生成

工作流 2：快速原型验证

常见问题

CUDA 内存不足：

黑色/噪声图像：

生成速度慢：

参考资料

高级用法 - 自定义 pipeline、微调、部署

故障排查 - 常见问题与解决方案

资源

文档：https://huggingface.co/docs/diffusers

代码仓库：https://github.com/huggingface/diffusers

模型中心：https://huggingface.co/models?library=diffusers

Discord：https://discord.gg/diffusers

"Stable Diffusion 图像生成"

Stable Diffusion 图像生成#

Skill 元数据#

参考：完整 SKILL.md#

Stable Diffusion 图像生成#

何时使用 Stable Diffusion#

快速开始#

安装#

基础文本到图像#

使用 SDXL（更高质量）#

架构概览#

三支柱设计#

Pipeline 推理流程#

核心概念#

Pipeline#

Scheduler#

切换 Scheduler#

生成参数#

关键参数#

可复现生成#

Negative prompt#

图像到图像#

Inpainting#

ControlNet#

可用的 ControlNet#

LoRA 适配器#

多个 LoRA#

内存优化#

启用 CPU 卸载#

Attention 切片#

xFormers 内存高效 Attention#

大图像的 VAE 切片#

模型变体#

加载不同精度#

加载特定组件#

批量生成#

常见工作流#

工作流 1：高质量生成#

工作流 2：快速原型验证#

常见问题#

参考资料#

资源#

Stable Diffusion 图像生成

Skill 元数据

参考：完整 SKILL.md

Stable Diffusion 图像生成

何时使用 Stable Diffusion

快速开始

安装

基础文本到图像

使用 SDXL（更高质量）

架构概览

三支柱设计

Pipeline 推理流程

核心概念

Pipeline

Scheduler

切换 Scheduler

生成参数

关键参数

可复现生成

Negative prompt

图像到图像

Inpainting

ControlNet

可用的 ControlNet

LoRA 适配器

多个 LoRA

内存优化

启用 CPU 卸载

Attention 切片

xFormers 内存高效 Attention

大图像的 VAE 切片

模型变体

加载不同精度

加载特定组件

批量生成

常见工作流

工作流 1：高质量生成

工作流 2：快速原型验证

常见问题

参考资料

资源