你打开Midjourney,输入“a cool dragon”,然后按下回车。结果……还行。很普通。你的朋友输入了完全不同的内容,却得到了一幅令人惊叹的电影级杰作。区别在哪里?提示词。
撰写有效的AI图像提示词是一项可以学习的技能。它不是魔法,你也不需要是艺术家或程序员。本教程将带你从撰写单词提示词产生平庸结果,进阶到撰写详细、有结构的提示词,始终生成你心中的画面。
在本指南结束时,你将了解每个优秀提示词包含的五个核心元素、如何逐步构建提示词,以及如何使用ImageToPrompt等工具从你喜欢的图像中逆向生成提示词。
为什么好的提示词很重要(以及什么是糟糕的提示词)
像Midjourney、Stable Diffusion、DALL-E 3和Flux这样的AI图像生成器不是读心术。它们是在数十亿张图像及其标题上训练的模式匹配引擎。当你输入提示词时,模型会搜索其学习到的关联,生成统计上与你描述匹配的图像。
糟糕的提示词会在三个方面失败:
- 太模糊: “a landscape”可以是任何东西——水彩画、照片、像素艺术、白天或夜晚、山脉或海滩。模型会猜测。
- 矛盾: “dark bright neon photorealistic cartoon”将模型推向多个方向。输出会很困惑。
- 缺少上下文: “a woman”没有告诉模型关于年龄、表情、服装、场景、光线或风格的任何信息。你会得到最平平无奇的女性在最平平无奇的场景中。
好的提示词是具体的、一致的和层次分明的。它告诉模型你想看到什么、它应该看起来怎么样、以及它需要匹配你愿景的技术参数。
优秀AI图像提示词的5个元素
优秀的提示词由五个构建块组成。你不总是需要全部五个——有时一个强大的两元素提示词比一个薄弱的五元素提示词更有效——但理解所有五个会给你完全的控制权。
1. 主体
主体是你图像中的主要事物:一个人、一个物体、一个生物、一个地方或一个抽象概念。这是最关键的元素。要具体。
- 弱:“a dog”
- 较好:“a golden retriever puppy”
- 强:“a golden retriever puppy sitting in autumn leaves, looking up at the camera with tongue out”
2. 风格
风格告诉模型使用什么视觉语言。没有风格,模型会为你选择一个——通常是写实或训练数据中最常见的。
- 摄影风格:portrait photography、street photography、macro photography、aerial photography
- 插画风格:watercolor、ink illustration、flat design、editorial illustration
- 绘画风格:oil painting、impressionist、acrylic painting、gouache
- 数字艺术风格:concept art、digital painting、3D render、pixel art
3. 构图
构图描述主体在图像中的框架方式。这是许多初学者跳过的部分,但它会极大地影响最终输出。
- 镜头类型:close-up、medium shot、full body、wide shot、establishing shot
- 相机角度:eye level、low angle、high angle、bird’s eye view、Dutch angle
- 构图技巧:rule of thirds、centered composition、golden ratio、negative space
- 景深:shallow depth of field、deep focus、bokeh background
4. 光线
光线可以将图像从平淡无奇转变为情感强烈。专业摄影师痴迷于光线,因为它定义了一切的外观。
- 时间:golden hour、blue hour、midday、nighttime、overcast
- 光源:studio lighting、natural light、candlelight、neon lighting、bioluminescence
- 质量:soft light、hard light、diffused light、dramatic shadows、high contrast
- 方向:front-lit、backlit、side-lit (Rembrandt lighting)、rim light
5. 技术参数
技术参数是模型特定的指令,控制输出质量和格式。这些因平台而异,通常包括宽高比、质量修饰符和渲染风格。
- 宽高比:16:9(横版)、9:16(竖版/故事)、1:1(正方形)、4:5(Instagram竖版)
- 质量标记(Midjourney):--quality 2、--stylize 750
- 质量令牌(Stable Diffusion):“masterpiece, best quality, ultra-detailed”
- 渲染:8K resolution、photorealistic、hyperrealistic、cinematic
从简单开始:单主体提示词及如何扩展
学习提示词撰写的最好方法是从单个主体开始,逐步增加复杂度。这是一个实时示例:
| 迭代 | 提示词 | 变化 |
|---|---|---|
| 1 | a lighthouse | 起点 |
| 2 | a lighthouse on rocky cliffs | 添加了环境 |
| 3 | a lighthouse on rocky cliffs during a storm | 添加了天气/情绪 |
| 4 | a lighthouse on rocky cliffs during a storm, dramatic waves crashing, oil painting | 添加了风格 |
| 5 | a lighthouse on rocky cliffs during a storm, dramatic waves crashing, oil painting, golden light breaking through clouds, low angle shot | 添加了光线和构图 |
| 6 | a lighthouse on rocky cliffs during a storm, dramatic waves crashing, oil painting by J.M.W. Turner, golden light breaking through storm clouds, low angle wide shot, highly detailed, impasto texture | 添加了艺术家参考和纹理细节 |
每次迭代都增加了具体性,而不会矛盾前面的元素。最终的提示词会产生比第一个提示词好得多的结果。不确定如何开始?试试我们的文字转提示词工具——输入简单描述,几秒钟内获得专业提示词。
理解不同AI模型如何解释提示词
并非所有AI图像生成器的工作方式都相同。相同的提示词在不同平台上会产生非常不同的结果,理解这些差异可以节省你数小时的挫败。
Midjourney
Midjourney对美学和情感语言响应良好。它在高质量精选艺术和摄影上训练,因此有强大的美学默认值。它使用参数标志(--ar、--style、--chaos)和双冒号(::)权重。自然语言描述效果很好。
Stable Diffusion
Stable Diffusion使用逗号分隔的令牌列表而非自然语言句子。提示词开头的质量令牌对输出有很大影响。它有单独的反向提示词字段用于排除不想要的元素。像(important:1.3)这样的令牌权重给你精细控制。
DALL-E 3
DALL-E 3(在ChatGPT中使用)对自然语言的理解非常好,并字面地遵循指令。它是初学者最好的模型,因为你可以用对话式的提示词。
Flux
Flux(由Black Forest Labs开发)像DALL-E 3一样处理自然语言,但产生更具摄影真实感的图像。它在用自然英语描述的复杂构图场景中表现出色。详见我们的Flux AI提示词指南。


你的第一个提示词:逐步演练
让我们从零开始构建一个完整的提示词。目标:一幅在外星球上的女宇航员的电影级人像。
第1步:定义主体
“a female astronaut in a worn spacesuit”
第2步:添加环境
“standing on the surface of a red alien planet, jagged rock formations in the background, two moons visible in the sky”
第3步:选择构图
“medium shot, low camera angle looking slightly up at her, rule of thirds”
第4步:定义光线
“warm orange sunset light from the left, long shadows, rim light from a distant star”
第5步:选择风格
“cinematic photography, hyperrealistic, 8K, sharp focus”
第6步:添加氛围
“epic, solitary, awe-inspiring”
完整提示词
a female astronaut in a worn spacesuit standing on the surface of a red alien planet, jagged rock formations in the background, two moons visible in the sky, medium shot, low camera angle looking slightly up at her, warm orange sunset light from the left, long shadows, rim light from a distant star, cinematic photography, hyperrealistic, 8K, sharp focus, epic, solitary, awe-inspiring
这个提示词会产生比“an astronaut on a planet”好得多的结果。每个词都有它的价值。
初学者常见错误及如何避免
错误1:只用形容词不用名词
“Beautiful, amazing, stunning”——这些没有告诉模型什么看起来很美。应该:“beautiful detailed oil painting”或“stunning golden hour portrait photography”。
错误2:要求你不想要的东西
“A portrait without sunglasses”会迫使模型想到太阳镜。应该描述你想要的:“a portrait, eyes visible and expressive”。在Stable Diffusion中,将不想要的元素移到反向提示词。
错误3:堆砌矛盾的风格
“Photorealistic watercolor 3D render illustration”——选择一两个兼容的风格。真实摄影和水彩画是相反的。
错误4:忽略宽高比
风景场景用正方形格式会失去一半的影响力。始终指定宽高比:--ar 16:9用于横版,--ar 9:16用于竖版/故事,--ar 1:1用于社交媒体。
错误5:一次改变所有内容
当图像不如意时,同时修改10个内容会让你无法知道是什么起了作用。每次只改变一个元素并迭代。
错误6:只信任文字描述
如果你心中有参考图像,就使用它。像ImageToPrompt这样的工具可以分析任何图像并提取定义其风格的确切提示词元素——你可以然后为自己的项目进行调整。
练习练习:5个马上可以尝试的提示词
练习1:人像挑战
使用以下公式编写人像提示词:一种人物类型 + 一个场景 + 一种光线类型 + 一种风格。然后生成它,识别你会改变什么,然后迭代两次。
示例: elderly fisherman, harbor at dawn, golden hour backlight, documentary photography
练习2:风格切换
取相同的主体,用3种完全不同的风格生成它。注意仅仅风格就能改变多少感觉。
主体: a cat sitting on a windowsill in rain → 尝试:watercolor illustration、dark moody photography、neon-lit digital art
练习3:光线研究
取一个简单的主体(“a wooden table with a vase of flowers”),用5种不同的光线条件生成它。比较情感上的差异。
练习4:细节递增
从3个词的提示词开始。逐一添加元素,每次添加后生成,直到有8个以上的元素。记录每次添加如何改变输出。
练习5:逆向工程
找到一张你喜欢的图像。使用ImageToPrompt提取其提示词。研究提取的提示词以理解是什么让那张图像如此出色,然后为不同的主体进行调整。
使用ImageToPrompt从喜欢的图像中学习
提升提示词撰写能力最快的方法之一是分析已经看起来符合你期望的图像。ImageToPrompt正是做这件事的:你上传任何图像,Claude Vision会分析它并提取详细、可用的AI生成提示词。
以下是将其作为学习工具的方法:
- 找到具有你想要复制的美学的图像(在Behance、Pinterest、Artstation等上)
- 将它们上传到ImageToPrompt
- 仔细阅读提取的提示词——注意哪些元素创造了你喜欢的风格
- 从多张类似图像中发现的模式构建提示词模板
- 将该模板适配到你的新主体
这个工作流程将美丽的图像转化为个人提示词词汇库。坚持一周的练习,你就会有一套能可靠产生你追求的美学的短语库。