Flux.1由Black Forest Labs于2024年中期发布时改变了游戏规则,到2026年它已成为追求真实摄影效果、更好的文字渲染和更精确提示词跟随能力的用户的首选生成器。但Flux的优势——其精密的自然语言理解——也会让从Midjourney或Stable Diffusion转来的用户感到困惑,因为他们习惯了基于标签的提示词方式。本指南将确切展示Flux的工作原理,以及如何撰写能始终产出惊艳结果的提示词。

我们将涵盖使Flux表现不同的架构差异、它最善于响应的特定词汇、10个完整分析的示例提示词,以及如何使用ImageToPrompt从任何参考图像自动生成Flux优化的提示词。

自动生成Flux提示词: 我们的Flux提示词生成器可以从任何图像或文字描述创建优化的提示词。

Flux.1变体:Dev、Pro和Schnell

Black Forest Labs发布了三个Flux.1变体,各自在质量、速度和可访问性之间有不同的平衡。了解你使用的是哪个变体很重要,因为它们对提示词的敏感度略有不同。

变体 速度 质量 许可证 最佳用途 典型步数
Flux.1 Dev ~20–40秒(GPU) ★★★★★ 非商业 高质量个人项目、实验 20–50步
Flux.1 Pro ~15–30秒(API) ★★★★★ 商业(API) 生产工作、商业项目 API管理
Flux.1 Schnell ~2–5秒(GPU) ★★★★☆ Apache 2.0(开源) 快速原型设计、大量生成 4步

对于大多数创意工作,Flux.1 Dev是最佳选择——在本地运行时,它的质量与Pro相当,且无每张图像的API成本。Flux.1 Schnell的速度令人惊叹(4个推理步骤vs大多数模型的50个),但细节略软,对微妙的提示词差异响应较弱。Pro适合需要许可证的商业生产管道。

三个变体共享相同的基本提示词逻辑——差异在于生成质量和速度,而非处理文本的方式。

为什么Flux使用自然语言(以及为什么这很重要)

Flux.1基于Diffusion Transformer(DiT)架构,而非Stable Diffusion 1.5和SDXL使用的UNet架构。关键的是,Flux使用T5-XXL文本编码器——与Google研究中使用的相同类型的大语言模型——而不是CLIP。

CLIP主要在短标题与图像匹配上进行训练,它适合简短的描述性标签,但在处理复杂关系、长句和细腻的构图指令时表现力不从心。T5-XXL在大规模文本语料上训练,能够理解句法、语法、句子结构和上下文。

这一架构差异解释了为什么:

Flux提示词结构:三部分公式

最可靠的Flux提示词遵循三部分结构:主体和场景,然后是技术摄影细节,最后是风格和氛围。这类似于专业摄影师或电影摄影指导描述镜头的方式。

[主体和场景描述] + [相机和技术细节] + [风格和氛围]

具体示例:

A middle-aged Japanese chef in a traditional white uniform carefully plating a bowl of ramen in a small Tokyo restaurant, steam rising from the broth, warm incandescent light overhead, other diners blurred in the background. Shot on Sony A7R V with 85mm f/1.4 lens, shallow depth of field, natural documentary lighting. Warm amber color grading, intimate storytelling mood, photojournalism style.

解析为什么这个提示词有效:

在Flux中有效的相机术语

指定真实相机设备是Flux最强大的技巧之一。T5编码器能识别特定的相机型号及其相关的视觉特征——传感器尺寸、动态范围、色彩科学——并将这些特质应用到输出中。

相机机身

镜头及其效果

相机设置

提升Flux输出的光线描述符

光线可以说是摄影提示词中最有影响力的元素。Flux在摄影和电影摄影内容上的训练意味着它对光线条件有丰富的词汇。

自然光

人工和工作室灯光

电影灯光

在Flux中有效的风格描述符

与Stable Diffusion需要特定检查点的风格令牌不同,Flux通过其语言模型理解风格描述。这些描述符能稳定产生可识别的结果:

摄影风格

艺术和插画风格

电影风格

Flux提示词中不该做的事

如果你从Stable Diffusion或Midjourney转过来,这些习惯会影响你的Flux效果:

另一面: Flux处理非常长、详细的提示词的能力超过了任何前代模型。不要害怕写100+词的提示词,它们读起来像详细的场景指导——Flux会准确执行。

Flux.1 Dev输出——风景场景展示具有真实摄影效果的渲染
Flux.1 Dev:真实摄影效果,细节准确
Flux.1 Dev输出——建筑场景展示精确的空间渲染
Flux能够准确处理复杂的空间指令

Flux Dev vs Pro vs Schnell对比

方面 Flux Midjourney Stable Diffusion
提示词风格 详细的自然语言 描述符+参数 加权标签
真实摄影感效果 出色 很好 好(需要好的检查点)
相机参数理解 非常好 部分支持 效果较弱
反向提示词 不支持 --no 专用字段

10个示例提示词及分析

1. 人像摄影

A 30-year-old woman with natural red hair sits by a rain-streaked window in a coffee shop, looking contemplative, hands wrapped around a ceramic mug. Late afternoon, overcast daylight from the left side, warm tungsten interior lights creating a color contrast. Shot on Fujifilm GFX 100S, 110mm f/2 equivalent, shallow depth of field. Kodak Portra 400 film emulation, slightly desaturated greens, intimate documentary feel.

为什么有效:具体的主体描述、精确的光线设置及方向、命名的胶片用于色彩指导、末尾的氛围描述符。

2. 建筑摄影

The interior of a modernist cathedral, concrete brutalist architecture, shafts of light cutting through narrow vertical windows high on the walls, casting long geometric shadows on the textured concrete floor. Shot on Canon EOS R5, 17mm tilt-shift lens, all vertical lines corrected, f/11, everything in sharp focus. Monochromatic, high contrast black and white, fine art architectural photography.

3. 奇幻风景

A vast alien landscape at twilight: twin moons rising over a plateau covered in bioluminescent blue-purple vegetation, a lone explorer in a spacesuit standing at the edge, small against the scale of the environment. The atmosphere is thick and hazy, creating atmospheric perspective and layered depth. Painted in a style combining photorealistic digital art with concept art looseness, cinematic composition, epic scale, ultra-detailed foreground plants.

4. 街头摄影

A crowded Tokyo crossing at rush hour, motion blur on the pedestrians suggesting movement, one sharply focused businessman in the center looking directly at the camera, surprised expression. Heavy rain, reflected neon signs on wet pavement, shallow depth. Shot on Leica Q3, 28mm f/1.7, ISO 6400, available light only. Black and white with deep shadows, photojournalism aesthetic.

5. 产品摄影

A single glass bottle of amber whiskey on a dark walnut table, dramatic side lighting from a single spotlight source creating a strong specular highlight on the glass, warm amber liquid glowing. Dark background fading to black. Shot on Phase One IQ4, 120mm macro, f/8. Commercial product photography, ultra-clean, advertising quality, every glass bubble and label detail sharp.

6. 野生动物摄影

A Bengal tiger wading through shallow water in a misty forest, early morning light filtering through dense canopy, water droplets frozen mid-splash around its legs. The tiger is alert, head turned slightly toward the camera. Shot on Nikon Z9, 500mm f/4 telephoto, 1/2000s to freeze motion, natural forest light. National Geographic quality wildlife photography, tack-sharp eyes, motion-blurred water.

7. 美食摄影

A bowl of handmade pasta with cherry tomatoes, basil, and olive oil on a rough linen tablecloth, afternoon light from a kitchen window at 45 degrees, casting soft shadows. Steam rising from the pasta. Overhead angle, 45-degree composition. Shot on Sony A7R V, 90mm macro f/2.8. Warm editorial food photography, slightly desaturated background to make the food pop, Bon Appétit magazine aesthetic.

8. 科幻概念艺术

Interior of a colossal generation ship, showing the agricultural rings with forests and fields curving upward in the centrifugal section, sunlight simulated by a central light tube, people as small figures walking between trees. The scale is breathtaking — the curvature of the interior visible. Detailed digital concept art, matte painting quality, warm environmental lighting, realistic atmospheric haze for scale, inspired by classic sci-fi illustration.

9. 时尚摄影

A model in a dramatic black structured coat stands in an empty white marble corridor, strong directional light from a large window to the right, creating graphic shadows across the floor. Editorial, minimal composition, confident pose with coat flowing slightly. Shot on Hasselblad X2D, 80mm f/2.8, balanced ambient and natural light. High fashion editorial, Vogue quality, exceptional tonal range, no distracting elements.

10. 微距自然

Extreme macro photography of a single dewdrop on a spider web strand, inside the dewdrop a perfectly formed reflection of the surrounding forest and morning sky visible. Overcast soft light, maximum detail in the water surface tension and web filaments. Shot on Canon MP-E 65mm 5x macro, f/11, focus-stacked for complete depth of field. Scientific illustration quality, razor-sharp details, magical natural world mood.

使用ImageToPrompt从参考图像生成Flux提示词

手动撰写Flux提示词需要了解这些特定词汇——相机型号、光线术语、风格参考。当你有一张参考图像并想在Flux中生成类似内容时,ImageToPrompt.dev会自动处理词汇转换。

当你在ImageToPrompt中选择Flux作为目标模型时:

  1. 该工具使用Claude Vision分析你的参考图像
  2. 它识别摄影特征:表观焦距、照明设置、景深、色彩分级
  3. 它将这些特征匹配到适当的Flux词汇:特定相机设备、光线术语、风格描述符
  4. 它将输出格式化为连贯的自然语言段落,而非标签列表

Flux新手常见错误

  1. 把Flux当Midjourney用。 没有--ar参数,没有--style参数,没有--v 6.1。Flux需要纯描述性文本。
  2. 把Flux当Stable Diffusion用。 没有(quality:1.4)令牌,没有逗号标签列表,没有反向提示词字段。
  3. 场景描述不足。 “A beautiful landscape”给Flux的信息很少。“A rocky coastal cliff at dawn, tide pools reflecting the pink sky, a lone lighthouse in the distance”给Flux一个可以构建的场景。
  4. 没有在UI设置中指定宽高比。 Flux从设置而非提示词确定宽高比。如果想要竖版人像,在生成设置中设置9:16——不要写在提示词中。
  5. 期望立即完美。 即使有优秀的提示词,Flux生成也受益于运行3-5次变体。扩散的随机性意味着质量在不同种子之间会变化。
  6. 忽略引导比例(CFG)。 Flux Dev在CFG值3.5-4.0时效果最好。在SD中有效的较高值(7.0+)会在Flux中产生过饱和、伴有伪影的结果。
  7. 仅使用艺术家名字作为风格捷径而不加描述。 “by Greg Rutkowski”对Flux来说比“epic fantasy concept art with warm lighting and dramatic composition”更模糊——虽然结合两者通常效果最好。

自动生成Flux提示词

上传图像或描述你的想法,几秒钟内获得优化的Flux提示词。

Flux提示词生成器 →

常见问题

为Flux AI撰写提示词的最佳方式是什么?

Flux AI对详细的自然语言响应最好,而非用逗号分隔的标签。像写段落一样描述你的场景,包括主体、构图、光线、镜头(如Canon 85mm f/1.4)和氛围。

Flux支持反向提示词吗?

不支持,Flux不像Stable Diffusion那样支持反向提示词。要避免不想要的元素,应用积极、精确的语言来描述你确切想看到的内容。

Flux Dev和Flux Pro有什么区别?

Flux Dev是免费的开源模型,质量略低。Flux Pro是商业模型,具有更好的一致性、更强的指令跟随能力和更高的分辨率。两者的提示词技巧是相同的。

Flux提示词中的相机参数真的有效果吗?

是的,Flux非常擅长理解相机技术参数。指定像Canon 85mm f/1.4这样的镜头会产生逼真的散景效果,而24mm f/8则会生成更锐利、更大景深的图像。