Flux.1由Black Forest Labs于2024年中期发布时改变了游戏规则,到2026年它已成为追求真实摄影效果、更好的文字渲染和更精确提示词跟随能力的用户的首选生成器。但Flux的优势——其精密的自然语言理解——也会让从Midjourney或Stable Diffusion转来的用户感到困惑,因为他们习惯了基于标签的提示词方式。本指南将确切展示Flux的工作原理,以及如何撰写能始终产出惊艳结果的提示词。
我们将涵盖使Flux表现不同的架构差异、它最善于响应的特定词汇、10个完整分析的示例提示词,以及如何使用ImageToPrompt从任何参考图像自动生成Flux优化的提示词。
自动生成Flux提示词: 我们的Flux提示词生成器可以从任何图像或文字描述创建优化的提示词。
Flux.1变体:Dev、Pro和Schnell
Black Forest Labs发布了三个Flux.1变体,各自在质量、速度和可访问性之间有不同的平衡。了解你使用的是哪个变体很重要,因为它们对提示词的敏感度略有不同。
| 变体 | 速度 | 质量 | 许可证 | 最佳用途 | 典型步数 |
|---|---|---|---|---|---|
| Flux.1 Dev | ~20–40秒(GPU) | ★★★★★ | 非商业 | 高质量个人项目、实验 | 20–50步 |
| Flux.1 Pro | ~15–30秒(API) | ★★★★★ | 商业(API) | 生产工作、商业项目 | API管理 |
| Flux.1 Schnell | ~2–5秒(GPU) | ★★★★☆ | Apache 2.0(开源) | 快速原型设计、大量生成 | 4步 |
对于大多数创意工作,Flux.1 Dev是最佳选择——在本地运行时,它的质量与Pro相当,且无每张图像的API成本。Flux.1 Schnell的速度令人惊叹(4个推理步骤vs大多数模型的50个),但细节略软,对微妙的提示词差异响应较弱。Pro适合需要许可证的商业生产管道。
三个变体共享相同的基本提示词逻辑——差异在于生成质量和速度,而非处理文本的方式。
为什么Flux使用自然语言(以及为什么这很重要)
Flux.1基于Diffusion Transformer(DiT)架构,而非Stable Diffusion 1.5和SDXL使用的UNet架构。关键的是,Flux使用T5-XXL文本编码器——与Google研究中使用的相同类型的大语言模型——而不是CLIP。
CLIP主要在短标题与图像匹配上进行训练,它适合简短的描述性标签,但在处理复杂关系、长句和细腻的构图指令时表现力不从心。T5-XXL在大规模文本语料上训练,能够理解句法、语法、句子结构和上下文。
这一架构差异解释了为什么:
- Flux能在图像中准确渲染文字(这是所有扩散模型的历史性弱点)
- Flux能遵循复杂的多子句构图指令
- Flux能理解关系性语言:“一个人站在一辆红色汽车的左边”
- Flux不会像SD 1.5模型那样从逗号分隔的标签中受益
- Flux不会从
(keyword:weight)语法中受益——它会忽略权重标记
Flux提示词结构:三部分公式
最可靠的Flux提示词遵循三部分结构:主体和场景,然后是技术摄影细节,最后是风格和氛围。这类似于专业摄影师或电影摄影指导描述镜头的方式。
[主体和场景描述] + [相机和技术细节] + [风格和氛围]
具体示例:
A middle-aged Japanese chef in a traditional white uniform carefully plating a bowl of ramen in a small Tokyo restaurant, steam rising from the broth, warm incandescent light overhead, other diners blurred in the background. Shot on Sony A7R V with 85mm f/1.4 lens, shallow depth of field, natural documentary lighting. Warm amber color grading, intimate storytelling mood, photojournalism style.
解析为什么这个提示词有效:
- “carefully plating” —— 副词比单纯的“plating”更能捕捉姿势和动作
- “steam rising from the broth” —— Flux会字面渲染的氛氛细节
- “other diners blurred in the background” —— Flux将此理解为景深指令
- 相机/镜头规格 —— 传达真实摄影意图和特定的散景特征
- “intimate storytelling mood” —— 构图和色调指令
在Flux中有效的相机术语
指定真实相机设备是Flux最强大的技巧之一。T5编码器能识别特定的相机型号及其相关的视觉特征——传感器尺寸、动态范围、色彩科学——并将这些特质应用到输出中。
相机机身
Sony A7R V—— 高分辨率、细节丰富、中性色彩Canon EOS R5—— 温暖、悦目的肤色、自然渲染Nikon Z9—— 强劲对比度、出色的动态范围Fujifilm X-T5—— 胶片般色彩,富士色彩科学Hasselblad X2D—— 中画幅外观、出色的色调过渡Leica M11—— 经典、略微淡雅、纪实美学
镜头及其效果
24mm f/1.4 wide angle—— 环境上下文,轻微边缘畸变,戏剧性透视35mm f/2—— 经典街头摄影,自然透视50mm f/1.2—— 中性透视,优秀的散景,多用途85mm f/1.4—— 讨喜的人像压缩,柔滑的背景虚化135mm f/2—— 强压缩,主体隔离,如画般的散景200mm f/2.8 telephoto—— 背景压缩,运动/野生动物美学
相机设置
ISO 3200, high grain—— 添加胶片般的噬点纹理,粗糙/纪实美学long exposure, motion blur—— 捕捉运动、光迹f/22, deep depth of field, everything in focus—— 风景/建筑外观f/1.2, razor-thin focus plane—— 主体与背景的极端分离
提升Flux输出的光线描述符
光线可以说是摄影提示词中最有影响力的元素。Flux在摄影和电影摄影内容上的训练意味着它对光线条件有丰富的词汇。
自然光
golden hour light—— 温暖、有方向的低角度阳光,长阴影blue hour—— 柔和、冷色的日落后薄暮overcast diffused light—— 均匀、无阴影、柔和——非常适合人像harsh midday sun, high contrast shadows—— 戏剧性、夏日炎热美学dappled light through tree canopy—— 森林光线,流动的阴影图案window light, one-sided illumination—— 经典的室内人像照明
人工和工作室灯光
Rembrandt lighting—— 以眼下的三角形光斑为特征的经典人像照明split lighting, half shadow—— 戏剧性,一侧全亮,一侧阴影ring light, flat frontal lighting—— 时尚/美妆外观,眼中有环形反光neon sign reflections, colored light—— 城市夜间摄影candlelight, single flame source—— 温暖、闪烁、亲密bioluminescent glow—— 冷色蓝绿,科幻或奇幻
电影灯光
volumetric light, god rays—— 透过大气/雾霾的可见光束chiaroscuro—— 明暗区域的极端对比,如油画般practical lighting from below—— 恐怖/惊悚外观,不讨喜的阴影motivated lighting, warm practical sources—— 真实的室内电影摄影
在Flux中有效的风格描述符
与Stable Diffusion需要特定检查点的风格令牌不同,Flux通过其语言模型理解风格描述。这些描述符能稳定产生可识别的结果:
摄影风格
photojournalism, documentary stylefashion editorial, high-end commercialstreet photography, candid momentfine art photography, gallery print qualityanalog film photography, 35mm grainmedium format film, Kodak Portra 400 colors
艺术和插画风格
oil painting, visible brushwork, museum qualitywatercolor illustration, soft edges, paper texturedigital concept art, highly detailed, ArtStation qualitygraphic novel illustration, bold lines, flat colorArt Nouveau style, ornamental, flowing lines
电影风格
cinematic film still, anamorphic lens flaremovie poster compositionin the visual style of a Wes Anderson film—— 对称、淡色、平面noir film aesthetic, black and white, hard shadows
Flux提示词中不该做的事
如果你从Stable Diffusion或Midjourney转过来,这些习惯会影响你的Flux效果:
- 不要使用(keyword:weight)语法。 Flux完全忽略括号中的权重修饰符。
(beautiful:1.4)和beautiful在Flux中产生相同的结果。 - 不要使用--ar、--v、--style参数。 这些是Midjourney特定的参数。它们会作为字面文字出现在Flux输出中。
- 不要在Flux Dev/Schnell中使用反向提示词。 标准Flux不像SD那样支持反向提示词。使用描述性的积极语言替代:说“clean, sharp background”而不是尝试反向提示“blurry background”。
- 不要在开头堆砌质量令牌。 “masterpiece, best quality, ultra detailed, 1girl”是SD语法。Flux会将其解释为字面句子,可能生成标注“masterpiece”的图像。
- 不要写极短的提示词。 Flux的T5编码器在更丰富的上下文信息下表现更好。50词的提示词通常比10词的在复杂场景中表现更好。
- 不要罗列没有语法结构的逗号分隔标签。 “woman, forest, sunlight, beautiful, high quality”给Flux的信息少于“a woman standing in a sunlit forest, late afternoon, high quality photograph”。
另一面: Flux处理非常长、详细的提示词的能力超过了任何前代模型。不要害怕写100+词的提示词,它们读起来像详细的场景指导——Flux会准确执行。


Flux Dev vs Pro vs Schnell对比
| 方面 | Flux | Midjourney | Stable Diffusion |
|---|---|---|---|
| 提示词风格 | 详细的自然语言 | 描述符+参数 | 加权标签 |
| 真实摄影感效果 | 出色 | 很好 | 好(需要好的检查点) |
| 相机参数理解 | 非常好 | 部分支持 | 效果较弱 |
| 反向提示词 | 不支持 | --no |
专用字段 |
10个示例提示词及分析
1. 人像摄影
A 30-year-old woman with natural red hair sits by a rain-streaked window in a coffee shop, looking contemplative, hands wrapped around a ceramic mug. Late afternoon, overcast daylight from the left side, warm tungsten interior lights creating a color contrast. Shot on Fujifilm GFX 100S, 110mm f/2 equivalent, shallow depth of field. Kodak Portra 400 film emulation, slightly desaturated greens, intimate documentary feel.
为什么有效:具体的主体描述、精确的光线设置及方向、命名的胶片用于色彩指导、末尾的氛围描述符。
2. 建筑摄影
The interior of a modernist cathedral, concrete brutalist architecture, shafts of light cutting through narrow vertical windows high on the walls, casting long geometric shadows on the textured concrete floor. Shot on Canon EOS R5, 17mm tilt-shift lens, all vertical lines corrected, f/11, everything in sharp focus. Monochromatic, high contrast black and white, fine art architectural photography.
3. 奇幻风景
A vast alien landscape at twilight: twin moons rising over a plateau covered in bioluminescent blue-purple vegetation, a lone explorer in a spacesuit standing at the edge, small against the scale of the environment. The atmosphere is thick and hazy, creating atmospheric perspective and layered depth. Painted in a style combining photorealistic digital art with concept art looseness, cinematic composition, epic scale, ultra-detailed foreground plants.
4. 街头摄影
A crowded Tokyo crossing at rush hour, motion blur on the pedestrians suggesting movement, one sharply focused businessman in the center looking directly at the camera, surprised expression. Heavy rain, reflected neon signs on wet pavement, shallow depth. Shot on Leica Q3, 28mm f/1.7, ISO 6400, available light only. Black and white with deep shadows, photojournalism aesthetic.
5. 产品摄影
A single glass bottle of amber whiskey on a dark walnut table, dramatic side lighting from a single spotlight source creating a strong specular highlight on the glass, warm amber liquid glowing. Dark background fading to black. Shot on Phase One IQ4, 120mm macro, f/8. Commercial product photography, ultra-clean, advertising quality, every glass bubble and label detail sharp.
6. 野生动物摄影
A Bengal tiger wading through shallow water in a misty forest, early morning light filtering through dense canopy, water droplets frozen mid-splash around its legs. The tiger is alert, head turned slightly toward the camera. Shot on Nikon Z9, 500mm f/4 telephoto, 1/2000s to freeze motion, natural forest light. National Geographic quality wildlife photography, tack-sharp eyes, motion-blurred water.
7. 美食摄影
A bowl of handmade pasta with cherry tomatoes, basil, and olive oil on a rough linen tablecloth, afternoon light from a kitchen window at 45 degrees, casting soft shadows. Steam rising from the pasta. Overhead angle, 45-degree composition. Shot on Sony A7R V, 90mm macro f/2.8. Warm editorial food photography, slightly desaturated background to make the food pop, Bon Appétit magazine aesthetic.
8. 科幻概念艺术
Interior of a colossal generation ship, showing the agricultural rings with forests and fields curving upward in the centrifugal section, sunlight simulated by a central light tube, people as small figures walking between trees. The scale is breathtaking — the curvature of the interior visible. Detailed digital concept art, matte painting quality, warm environmental lighting, realistic atmospheric haze for scale, inspired by classic sci-fi illustration.
9. 时尚摄影
A model in a dramatic black structured coat stands in an empty white marble corridor, strong directional light from a large window to the right, creating graphic shadows across the floor. Editorial, minimal composition, confident pose with coat flowing slightly. Shot on Hasselblad X2D, 80mm f/2.8, balanced ambient and natural light. High fashion editorial, Vogue quality, exceptional tonal range, no distracting elements.
10. 微距自然
Extreme macro photography of a single dewdrop on a spider web strand, inside the dewdrop a perfectly formed reflection of the surrounding forest and morning sky visible. Overcast soft light, maximum detail in the water surface tension and web filaments. Shot on Canon MP-E 65mm 5x macro, f/11, focus-stacked for complete depth of field. Scientific illustration quality, razor-sharp details, magical natural world mood.
使用ImageToPrompt从参考图像生成Flux提示词
手动撰写Flux提示词需要了解这些特定词汇——相机型号、光线术语、风格参考。当你有一张参考图像并想在Flux中生成类似内容时,ImageToPrompt.dev会自动处理词汇转换。
当你在ImageToPrompt中选择Flux作为目标模型时:
- 该工具使用Claude Vision分析你的参考图像
- 它识别摄影特征:表观焦距、照明设置、景深、色彩分级
- 它将这些特征匹配到适当的Flux词汇:特定相机设备、光线术语、风格描述符
- 它将输出格式化为连贯的自然语言段落,而非标签列表
Flux新手常见错误
- 把Flux当Midjourney用。 没有--ar参数,没有--style参数,没有--v 6.1。Flux需要纯描述性文本。
- 把Flux当Stable Diffusion用。 没有(quality:1.4)令牌,没有逗号标签列表,没有反向提示词字段。
- 场景描述不足。 “A beautiful landscape”给Flux的信息很少。“A rocky coastal cliff at dawn, tide pools reflecting the pink sky, a lone lighthouse in the distance”给Flux一个可以构建的场景。
- 没有在UI设置中指定宽高比。 Flux从设置而非提示词确定宽高比。如果想要竖版人像,在生成设置中设置9:16——不要写在提示词中。
- 期望立即完美。 即使有优秀的提示词,Flux生成也受益于运行3-5次变体。扩散的随机性意味着质量在不同种子之间会变化。
- 忽略引导比例(CFG)。 Flux Dev在CFG值3.5-4.0时效果最好。在SD中有效的较高值(7.0+)会在Flux中产生过饱和、伴有伪影的结果。
- 仅使用艺术家名字作为风格捷径而不加描述。 “by Greg Rutkowski”对Flux来说比“epic fantasy concept art with warm lighting and dramatic composition”更模糊——虽然结合两者通常效果最好。
常见问题
为Flux AI撰写提示词的最佳方式是什么?
Flux AI对详细的自然语言响应最好,而非用逗号分隔的标签。像写段落一样描述你的场景,包括主体、构图、光线、镜头(如Canon 85mm f/1.4)和氛围。
Flux支持反向提示词吗?
不支持,Flux不像Stable Diffusion那样支持反向提示词。要避免不想要的元素,应用积极、精确的语言来描述你确切想看到的内容。
Flux Dev和Flux Pro有什么区别?
Flux Dev是免费的开源模型,质量略低。Flux Pro是商业模型,具有更好的一致性、更强的指令跟随能力和更高的分辨率。两者的提示词技巧是相同的。
Flux提示词中的相机参数真的有效果吗?
是的,Flux非常擅长理解相机技术参数。指定像Canon 85mm f/1.4这样的镜头会产生逼真的散景效果,而24mm f/8则会生成更锐利、更大景深的图像。