Stable Diffusion是最灵活也最技术化的AI图像生成器。与Midjourney或DALL-E 3的简化用户体验不同,Stable Diffusion让你对生成的每个方面都拥有精细控制——但这需要掌握特定的提示词语法和其他模型不使用的技术参数。
自动生成器:我们的Stable Diffusion提示词生成器可以创建包含加权语法、质量标签和适配你SD版本的负面提示词的优化提示词。上传参考图像即可开始。
加权语法详解
加权语法是Stable Diffusion在AI图像生成器中独一无二的特点。它允许你增加或降低提示词中每个术语的相对重要性。
基本语法
格式为(term:weight),其中权重是一个小数。默认值为1.0。
(golden hour:1.3)— 将"golden hour"的重要性提高30%(bokeh:0.7)— 将"bokeh"的重要性降低30%(masterpiece:1.2), (best quality:1.1)— 带权重的质量标签
权重快捷方式
Stable Diffusion还支持多重括号的快捷方式:
(term)=(term:1.1)((term))=(term:1.21)(((term)))=(term:1.33)[term]=(term:0.9)— 降低权重
权重使用规则
权重是强大的工具,但需要审慎使用:
- 保持在0.5到1.5之间:超出范围可能导致视觉瑕疵和失真
- 少用权重:如果所有内容都设为1.3,则没有什么真正被突出
- 用权重解决问题:如果某个元素没有出现,增加其权重。如果某个元素过于主导,降低权重
完整示例
(masterpiece:1.2), (best quality:1.1), 1girl, (flowing red hair:1.2), green eyes, (medieval dress:1.1), standing in a (enchanted forest:1.3), (golden hour lighting:1.2), (bokeh:0.8), detailed face, soft shadows
掌握负面提示词
负面提示词是Stable Diffusion(及其衍生模型)独有的功能。它们告诉模型你不想在图像中看到什么。这通常是业余结果和专业结果之间的差别。
通用负面提示词
这个负面提示词适合作为大多数生成的基础:
(worst quality:1.4), (low quality:1.4), (normal quality:1.2), lowres, bad anatomy, bad hands, extra digits, fewer digits, cropped, watermark, signature, username, blurry, deformed, jpeg artifacts
专用负面提示词
人像:
(worst quality:1.4), (low quality:1.4), bad anatomy, bad hands, extra fingers, mutated hands, poorly drawn face, ugly, disfigured, cross-eyed, asymmetric face, extra limbs, fused fingers
风景:
(worst quality:1.4), (low quality:1.4), blurry, watermark, text, logo, oversaturated, distorted horizon, unnatural colors
动漫:
(worst quality:1.4), (low quality:1.4), bad anatomy, bad hands, extra digits, missing fingers, poorly drawn face, simple background, flat colors, bad proportions
核心质量标签
质量标签是能提升图像整体质量的关键词。其效果因Stable Diffusion版本和使用的检查点而异。
最有效的标签
| 标签 | 效果 | 有效模型 |
|---|---|---|
masterpiece |
最高质量,精心构图 | SD 1.5,部分SDXL |
best quality |
精细细节,干净渲染 | SD 1.5,SDXL |
highly detailed |
提高细节层次 | 全部 |
sharp focus |
增强清晰度 | 全部 |
8k uhd |
高分辨率外观 | SD 1.5,SDXL效果不定 |
intricate details |
复杂精细的细节 | 全部 |
SD 1.5、SDXL和SD 3.5的区别
SD 1.5
拥有最大的检查点和LoRA生态系统的最成熟版本。SD 1.5提示词严重依赖质量标签和加权语法。原生分辨率:512x512。
典型提示词:(masterpiece:1.2), (best quality:1.1), highly detailed, 1girl, long blonde hair, blue eyes, white dress, standing in flower field, golden hour, (bokeh:0.8), sharp focus
SDXL
原生分辨率1024x1024,自然语言理解能力显著提升。SDXL对质量标签的需求较少,但仍可通过权重进行精确控制。双文本编码器系统(CLIP ViT-L和OpenCLIP ViT-bigG)提供了更好的语义理解。
典型提示词:beautiful young woman with long blonde hair, wearing an elegant white dress, standing in a sunlit wildflower meadow, (golden hour:1.2), soft bokeh background, detailed skin texture, professional photography
SD 3.5
最新版本使用MMDiT(多模态扩散Transformer)架构,对自然语言的理解大幅提升。传统质量标签的影响力降低。详细的自然语言描述效果最好。
典型提示词:A beautiful young woman with flowing blonde hair and bright blue eyes stands in a vast field of wildflowers during golden hour. She wears an elegant white summer dress that catches the warm breeze. The background is softly blurred with warm amber tones. Professional portrait photography with detailed skin texture and natural soft lighting.
检查点兼容性
检查点(自定义模型)是Stable Diffusion的核心优势。每个检查点都以特定的提示词偏好进行训练。
- Realistic Vision:擅长详细的摄影提示词和相机术语(
Canon EOS R5, 85mm f/1.4, RAW photo) - DreamShaper:多功能,艺术/摄影混合提示词效果好
- Anything V5:为动漫优化,使用danbooru标签(
1girl, long_hair, blue_eyes, school_uniform) - Juggernaut XL:热门SDXL检查点,偏好自然语言加适度质量标签
关键建议:始终在CivitAI上阅读检查点页面,了解推荐提示词和首选质量标签。一个对某检查点完美的提示词在另一个上可能完全无效。
CFG Scale、Steps和采样器
CFG Scale(无分类器引导)
CFG Scale控制模型对提示词的遵从程度。这是许多初学者忽略的基础参数。
- CFG 3-5:创意性强,自由发挥——模型对提示词有较大自主权
- CFG 7-9:均衡——创意与忠实度的最佳折衷(推荐)
- CFG 10-15:严格——紧密跟随提示词但可能过饱和
- CFG 15+:不推荐——频繁出现瑕疵和不自然色彩
Steps(扩散步数)
步数影响生成时间和结果质量:
- 15-20 steps:快速,质量可接受,适合测试
- 25-35 steps:质量/速度的最佳平衡(推荐)
- 40-50 steps:高质量,生成时间较长
- 50+ steps:收益递减——很少需要
采样器
采样器的选择影响结果的质量和风格。2026年最受欢迎的采样器:
- DPM++ 2M Karras:标准选择——快速且质量优秀
- Euler a:富有创意,适合艺术构图
- DPM++ SDE Karras:精细细节和纹理表现优异
- UniPC:快速高效,适合原型制作
高级提示词模板
写实人像(SD 1.5)
正面提示词:(masterpiece:1.2), (best quality:1.1), (RAW photo:1.2), portrait of a 30 year old woman, (detailed skin texture:1.2), natural skin, freckles, green eyes, auburn hair, (natural lighting:1.1), f/2.8, Canon EOS R5, 85mm lens, shallow depth of field
负面提示词:(worst quality:1.4), (low quality:1.4), bad anatomy, deformed iris, extra fingers, poorly drawn face, airbrushed skin, plastic skin, doll-like
奇幻风景(SDXL)
正面提示词:majestic fantasy landscape, ancient ruins overgrown with luminescent plants, (floating islands:1.2) in a purple twilight sky, waterfalls cascading into mist, (volumetric lighting:1.3), ethereal atmosphere, concept art quality, highly detailed, 8k
负面提示词:(worst quality:1.4), blurry, watermark, text, oversaturated, flat lighting
动漫角色(Anything V5)
正面提示词:(masterpiece:1.2), (best quality:1.1), 1girl, long silver hair, violet eyes, detailed eyes, (fantasy armor:1.2), glowing runes, dynamic pose, magical particles, night sky background, (bloom:0.8), detailed face
负面提示词:(worst quality:1.4), (low quality:1.4), bad anatomy, extra limbs, poorly drawn hands, simple background, flat shading
常见问题
Stable Diffusion的加权语法是如何工作的?
加权语法使用括号和冒号来增加或减少术语的重要性。(term:1.3)将权重提高30%,(term:0.7)将权重降低30%。默认值为1.0。避免使用超过1.5的权重,因为会导致视觉瑕疵和失真。
Stable Diffusion最好的负面提示词是什么?
通用负面提示词基础:(worst quality:1.4), (low quality:1.4), (normal quality:1.2), lowres, bad anatomy, bad hands, extra digits, fewer digits, cropped, watermark, signature, blurry, deformed。对于人像,添加extra fingers, mutated hands, poorly drawn face等专用术语。根据使用的检查点进行调整。
SD 1.5、SDXL和SD 3.5在提示词方面有什么区别?
SD 1.5需要高度结构化的提示词,包含质量标签并对加权语法反应良好。SDXL更好地理解自然语言,对质量标签的需求较少。SD 3.5使用新系统,偏好详细的自然语言描述(类似Flux),对技术标签的依赖更少。
如何为Stable Diffusion提示词选择合适的CFG Scale?
CFG Scale控制模型对提示词的遵从程度。低值(3-5)给出创意性强但不太忠实的结果。中等值(7-9)是大多数场景的最佳平衡点。高值(10-15)非常忠实但可能导致过饱和。从7开始,根据结果调整。