你打开Midjourney,输入“a cool dragon”,然后按下回车。结果……还行。很普通。你的朋友输入了完全不同的内容,却得到了一幅令人惊叹的电影级杰作。区别在哪里?提示词。

撰写有效的AI图像提示词是一项可以学习的技能。它不是魔法,你也不需要是艺术家或程序员。本教程将带你从撰写单词提示词产生平庸结果,进阶到撰写详细、有结构的提示词,始终生成你心中的画面。

在本指南结束时,你将了解每个优秀提示词包含的五个核心元素、如何逐步构建提示词,以及如何使用ImageToPrompt等工具从你喜欢的图像中逆向生成提示词。

为什么好的提示词很重要(以及什么是糟糕的提示词)

像Midjourney、Stable Diffusion、DALL-E 3和Flux这样的AI图像生成器不是读心术。它们是在数十亿张图像及其标题上训练的模式匹配引擎。当你输入提示词时,模型会搜索其学习到的关联,生成统计上与你描述匹配的图像。

糟糕的提示词会在三个方面失败:

好的提示词是具体的、一致的和层次分明的。它告诉模型你想看到什么、它应该看起来怎么样、以及它需要匹配你愿景的技术参数。

快速测试: 在写下一个提示词之前,问自己:“这个描述可以适用于1,000张不同的图像吗?”如果是,那它太模糊了。目标是让它只能合理地适用于10-20张图像。

优秀AI图像提示词的5个元素

优秀的提示词由五个构建块组成。你不总是需要全部五个——有时一个强大的两元素提示词比一个薄弱的五元素提示词更有效——但理解所有五个会给你完全的控制权。

1. 主体

主体是你图像中的主要事物:一个人、一个物体、一个生物、一个地方或一个抽象概念。这是最关键的元素。要具体。

2. 风格

风格告诉模型使用什么视觉语言。没有风格,模型会为你选择一个——通常是写实或训练数据中最常见的。

3. 构图

构图描述主体在图像中的框架方式。这是许多初学者跳过的部分,但它会极大地影响最终输出。

4. 光线

光线可以将图像从平淡无奇转变为情感强烈。专业摄影师痴迷于光线,因为它定义了一切的外观。

5. 技术参数

技术参数是模型特定的指令,控制输出质量和格式。这些因平台而异,通常包括宽高比、质量修饰符和渲染风格。

从简单开始:单主体提示词及如何扩展

学习提示词撰写的最好方法是从单个主体开始,逐步增加复杂度。这是一个实时示例:

迭代提示词变化
1a lighthouse起点
2a lighthouse on rocky cliffs添加了环境
3a lighthouse on rocky cliffs during a storm添加了天气/情绪
4a lighthouse on rocky cliffs during a storm, dramatic waves crashing, oil painting添加了风格
5a lighthouse on rocky cliffs during a storm, dramatic waves crashing, oil painting, golden light breaking through clouds, low angle shot添加了光线和构图
6a lighthouse on rocky cliffs during a storm, dramatic waves crashing, oil painting by J.M.W. Turner, golden light breaking through storm clouds, low angle wide shot, highly detailed, impasto texture添加了艺术家参考和纹理细节

每次迭代都增加了具体性,而不会矛盾前面的元素。最终的提示词会产生比第一个提示词好得多的结果。不确定如何开始?试试我们的文字转提示词工具——输入简单描述,几秒钟内获得专业提示词。

理解不同AI模型如何解释提示词

并非所有AI图像生成器的工作方式都相同。相同的提示词在不同平台上会产生非常不同的结果,理解这些差异可以节省你数小时的挫败。

Midjourney

Midjourney对美学和情感语言响应良好。它在高质量精选艺术和摄影上训练,因此有强大的美学默认值。它使用参数标志(--ar、--style、--chaos)和双冒号(::)权重。自然语言描述效果很好。

Stable Diffusion

Stable Diffusion使用逗号分隔的令牌列表而非自然语言句子。提示词开头的质量令牌对输出有很大影响。它有单独的反向提示词字段用于排除不想要的元素。像(important:1.3)这样的令牌权重给你精细控制。

DALL-E 3

DALL-E 3(在ChatGPT中使用)对自然语言的理解非常好,并字面地遵循指令。它是初学者最好的模型,因为你可以用对话式的提示词。

Flux

Flux(由Black Forest Labs开发)像DALL-E 3一样处理自然语言,但产生更具摄影真实感的图像。它在用自然英语描述的复杂构图场景中表现出色。详见我们的Flux AI提示词指南

基础提示词结果——没有具体指导的AI默认解释
基础提示词:普通、平淡、无趣
完善提示词结果——添加了风格、光线、构图和氛围
完善提示词:添加风格、光线、构图——效果显著提升

你的第一个提示词:逐步演练

让我们从零开始构建一个完整的提示词。目标:一幅在外星球上的女宇航员的电影级人像。

第1步:定义主体

“a female astronaut in a worn spacesuit”

第2步:添加环境

“standing on the surface of a red alien planet, jagged rock formations in the background, two moons visible in the sky”

第3步:选择构图

“medium shot, low camera angle looking slightly up at her, rule of thirds”

第4步:定义光线

“warm orange sunset light from the left, long shadows, rim light from a distant star”

第5步:选择风格

“cinematic photography, hyperrealistic, 8K, sharp focus”

第6步:添加氛围

“epic, solitary, awe-inspiring”

完整提示词

a female astronaut in a worn spacesuit standing on the surface of a red alien planet, jagged rock formations in the background, two moons visible in the sky, medium shot, low camera angle looking slightly up at her, warm orange sunset light from the left, long shadows, rim light from a distant star, cinematic photography, hyperrealistic, 8K, sharp focus, epic, solitary, awe-inspiring

这个提示词会产生比“an astronaut on a planet”好得多的结果。每个词都有它的价值。

初学者常见错误及如何避免

错误1:只用形容词不用名词

“Beautiful, amazing, stunning”——这些没有告诉模型什么看起来很美。应该:“beautiful detailed oil painting”或“stunning golden hour portrait photography”。

错误2:要求你不想要的东西

“A portrait without sunglasses”会迫使模型想到太阳镜。应该描述你想要的:“a portrait, eyes visible and expressive”。在Stable Diffusion中,将不想要的元素移到反向提示词。

错误3:堆砌矛盾的风格

“Photorealistic watercolor 3D render illustration”——选择一两个兼容的风格。真实摄影和水彩画是相反的。

错误4:忽略宽高比

风景场景用正方形格式会失去一半的影响力。始终指定宽高比:--ar 16:9用于横版,--ar 9:16用于竖版/故事,--ar 1:1用于社交媒体。

错误5:一次改变所有内容

当图像不如意时,同时修改10个内容会让你无法知道是什么起了作用。每次只改变一个元素并迭代。

错误6:只信任文字描述

如果你心中有参考图像,就使用它。像ImageToPrompt这样的工具可以分析任何图像并提取定义其风格的确切提示词元素——你可以然后为自己的项目进行调整。

练习练习:5个马上可以尝试的提示词

练习1:人像挑战

使用以下公式编写人像提示词:一种人物类型 + 一个场景 + 一种光线类型 + 一种风格。然后生成它,识别你会改变什么,然后迭代两次。

示例: elderly fisherman, harbor at dawn, golden hour backlight, documentary photography

练习2:风格切换

取相同的主体,用3种完全不同的风格生成它。注意仅仅风格就能改变多少感觉。

主体: a cat sitting on a windowsill in rain → 尝试:watercolor illustration、dark moody photography、neon-lit digital art

练习3:光线研究

取一个简单的主体(“a wooden table with a vase of flowers”),用5种不同的光线条件生成它。比较情感上的差异。

练习4:细节递增

从3个词的提示词开始。逐一添加元素,每次添加后生成,直到有8个以上的元素。记录每次添加如何改变输出。

练习5:逆向工程

找到一张你喜欢的图像。使用ImageToPrompt提取其提示词。研究提取的提示词以理解是什么让那张图像如此出色,然后为不同的主体进行调整。

使用ImageToPrompt从喜欢的图像中学习

提升提示词撰写能力最快的方法之一是分析已经看起来符合你期望的图像。ImageToPrompt正是做这件事的:你上传任何图像,Claude Vision会分析它并提取详细、可用的AI生成提示词。

以下是将其作为学习工具的方法:

  1. 找到具有你想要复制的美学的图像(在Behance、Pinterest、Artstation等上)
  2. 将它们上传到ImageToPrompt
  3. 仔细阅读提取的提示词——注意哪些元素创造了你喜欢的风格
  4. 从多张类似图像中发现的模式构建提示词模板
  5. 将该模板适配到你的新主体

这个工作流程将美丽的图像转化为个人提示词词汇库。坚持一周的练习,你就会有一套能可靠产生你追求的美学的短语库。