AIで画像を作りたいのに、思い通りの結果が得られない。そんな経験はありませんか?問題はおそらくモデルではなく、プロンプトの書き方にあります。AIプロンプトの作成は学べるスキルであり、このガイドを読めば今日から素晴らしい結果を得るための基礎が身につきます。

近道: プロンプトの作成にまだ慣れていない方は、当サイトのText to Promptジェネレーターを使えば、シンプルなアイデアを任意のモデル向けに最適化されたプロンプトに変換できます。作りたいものを数語で説明するだけです。

AIプロンプトとは?

プロンプトとは、AI画像生成ツールに何を作りたいかを伝えるテキスト指示です。モデルとのコミュニケーション手段であり、プロンプトが明確で詳細であるほど、結果はあなたのビジョンに近づきます。

プロンプトは、非常に才能があるけれども非常に字義通りに受け取るアーティストへの指示だと考えてください。言われた通りのことを正確に実行します。「猫」とだけ言えば、一般的な猫が出てきます。しかし「an orange tabby cat sitting on a windowsill, golden hour sunlight, watercolor style, soft warm tones」と指定すれば、はるかに具体的で魅力的な結果が得られます。

良いプロンプトの構造

効果的なプロンプトは単なる説明ではありません。画像のあらゆる側面についてモデルを導く、構造化された一連の指示です。基本的な公式は以下の通りです。

被写体 + ディテール + 環境 + スタイル + 照明 + テクニカルパラメータ

シンプルな例:a cat in a garden — 一般的で予測不可能な結果。

構造化された例:a fluffy orange tabby cat sitting among blooming lavender in a cottage garden, soft golden hour sunlight, shallow depth of field, oil painting style, warm color palette — 具体的でコントロールされた結果。

違いは歴然です。2つ目のプロンプトは、被写体(fluffy orange tabby cat)、アクション(sitting)、環境(blooming lavender、cottage garden)、照明(golden hour)、テクニック(shallow depth of field)、スタイル(oil painting)について正確な情報をモデルに与えています。

6つの必須要素

1. 被写体

被写体は画像の核心です。できるだけ具体的に記述しましょう。「a woman」の代わりに「a young woman with curly red hair wearing a vintage dress」と書いてみてください。具体性が曖昧さを排除し、モデルに明確な方向性を与えます。

2. 環境

被写体はどこにいますか?スタジオ、魔法の森、未来都市?環境はコンテキストを定義し、画像の雰囲気に深く影響します。キーワードの例:in a misty foreston a busy city streetinside a cozy cabinfloating in deep space

3. スタイル

スタイルは全体的な美的表現を決定します。AI生成ツールは古典的なものからモダンなものまで、数百のスタイルを認識します。初心者におすすめのスタイル:

4. 照明

照明は、アマチュアとプロの結果を分ける決定的な要素です。最も便利な照明用語:

5. 構図

構図はフレーミングとパースペクティブに影響します。便利な用語:

6. カラーパレット

支配的な色を定義すると、モデルが一貫した雰囲気を作り出すのに役立ちます。例:warm earth tonescool blue palettemuted pastel colorsvibrant saturated colorsmonochromatic

モデル別の構文

各AI画像生成ツールには独自の構文があります。正しいフォーマットを使用することが、良い結果を得るために不可欠です。

Midjourney

Midjourneyはカンマ区切りの記述と、--の後のパラメータを使用します。特殊な構文は不要で、自然言語がうまく機能します。

例:a majestic eagle soaring over snow-capped mountains, dramatic sky, golden hour lighting, cinematic --ar 16:9 --v 6.1 --style raw

主要パラメータ:--ar(アスペクト比)、--v(モデルバージョン)、--style raw(リテラル解釈)、--stylize(アーティスティックレベル)、--chaos(変動性)。

Stable Diffusion

Stable Diffusionは括弧を使った重み付け構文を使用します。要素の重要度を上下させることができます。

例:(masterpiece:1.2), (best quality:1.1), majestic eagle soaring over mountains, (dramatic sky:1.3), golden hour, (cinematic lighting:1.2)

ネガティブプロンプト:(worst quality:1.4), (low quality:1.4), blurry, deformed, extra limbs

Flux

Black Forest LabsのFluxは、自然言語による長く詳細な記述を好みます。特殊な構文は必要ありません。

例:A majestic bald eagle with wings fully spread soaring high above a dramatic mountain range capped with fresh snow. The scene is bathed in warm golden hour light with dramatic clouds stretching across the sky. Shot with a telephoto lens, shallow depth of field, cinematic quality.

DALL-E 3

DALL-E 3は自然言語と完全な文章を理解します。正確な指示に従うことと、画像内のテキスト生成に優れています。

例:A photorealistic image of a majestic eagle soaring above snow-covered mountains during golden hour, with dramatic cloud formations and warm light illuminating its wings

初心者向けテンプレート

以下のテンプレートをすぐに応用して、良い結果を得ることができます。

ポートレート

portrait of [被写体の説明], [表情], [服装], [照明], [スタイル], [色合い]

例:portrait of an elderly fisherman with weathered skin, thoughtful expression, wearing a knit sweater, golden hour side lighting, cinematic photography, warm earth tones

風景

[風景の種類], [季節/時間帯], [天候], [照明], [スタイル], [雰囲気]

例:misty mountain valley at dawn, autumn colors, light fog rolling through pine trees, soft diffused light, landscape photography, peaceful serene mood

コンセプトアート

[シーンの種類], [ジャンル], [建築/デザインの詳細], [雰囲気], concept art, [インスピレーション元]

例:ancient floating temple above the clouds, high fantasy, ornate stone carvings, mystical atmosphere, concept art, volumetric lighting, epic scale

よくある間違い

  1. 曖昧すぎる。 「A beautiful landscape」ではモデルにほとんど方向性を与えられません。どのような風景か、何時か、どのような照明か、どのスタイルかを具体的に指定しましょう。追加する各ディテールが結果を改善します。
  2. プロンプトを詰め込みすぎる。 逆の問題もあります。矛盾する指示を含む200語のプロンプトはモデルを混乱させます。30〜50語の適切に選ばれた言葉から始め、徐々に追加しましょう。
  3. アスペクト比を無視する。 横長フォーマットのポートレートや正方形フォーマットの風景は不自然な構図になります。Midjourneyではポートレートに--ar 2:3、風景に--ar 16:9を使いましょう。
  4. イテレーションしない。 最初のプロンプトが完璧なことはほぼありません。生成し、評価し、一度に1つの要素を調整して再生成する。これは反復的なプロセスです。
  5. 理解せずにプロンプトをコピーする。 オンラインで共有されているプロンプトは学習の出発点として優れていますが、各用語を理解しなければ、自分のニーズに合わせて応用することはできません。

実践演習

学ぶ最善の方法は実践です。以下は段階的な3つの演習です。

演習1:プログレッシブプロンプト

最小限のプロンプトから始め、生成ごとに1つの要素を追加します。各追加がどのように結果に影響するか観察しましょう。

  1. a cat
  2. a fluffy orange cat sitting on a windowsill
  3. a fluffy orange cat sitting on a windowsill, golden hour sunlight
  4. a fluffy orange cat sitting on a windowsill, golden hour sunlight, oil painting style
  5. a fluffy orange cat sitting on a windowsill, golden hour sunlight, oil painting style, warm amber and cream tones

演習2:スタイルスワップ

被写体を固定し、スタイルだけを変更します。スタイルキーワードの影響力がわかります。

演習3:ライティングトランスフォーム

同じ被写体と同じスタイルで、照明だけを変更します。光が画像をどれほど変えるかがわかります。

今すぐ制作を始めましょう

Text to Promptツールを使ってシンプルなアイデアを最適化されたプロンプトに変換するか、参照画像をアップロードしてすぐに使えるプロンプトを取得しましょう。

Text to Promptを試す →

よくある質問

AIプロンプトの理想的な長さはどれくらいですか?

理想的な長さはモデルによって異なります。Midjourneyでは20〜60語が効果的です。Stable Diffusionでは、切り詰められないように75トークン(約60語)以内に収めましょう。FluxとDALL-E 3では、50〜100語の長い記述でも適切に処理されます。一般的には、短いプロンプトから始めて徐々に詳細を追加するのがおすすめです。

プロンプトは英語と日本語のどちらで書くべきですか?

すべての主要なAI画像生成ツールにおいて英語が推奨されます。モデルは主に英語のデータで学習されているため、英語のプロンプトの方がより正確で一貫した結果を生成します。DALL-E 3やMidjourneyは日本語も理解しますが、アートや写真の専門用語は英語の方がより正確に認識されます。

結果が悪いプロンプトを改善するにはどうすればよいですか?

3つの主要な戦略があります。1) 具体性を高める — 曖昧な表現を正確な記述に置き換えましょう。2) 照明と雰囲気を調整する — これらの要素は結果を劇的に変えます。3) Stable Diffusionではネガティブプロンプトを使ってblurry, deformed, low qualityのような不要な要素を除外しましょう。

初心者に最適なAI画像生成ツールはどれですか?

DALL-E 3(ChatGPT経由)は特殊な構文なしで自然言語を理解するため、最もアクセスしやすいです。Midjourneyはシンプルなプロンプトで優れた結果を出しますがDiscordが必要です。Stable Diffusionは最も高い制御性を持ちますが学習曲線が急です。Fluxは自然言語プロンプトとフォトリアルな結果のバランスが良い選択肢です。