⚙️ オープンソースに最適

無料 Stable Video Diffusionプロンプトジェネレーター

モーション量、フレームレート、コンディショニングパラメーターを指定してStable Video Diffusionのプロンプトを生成。ComfyUI、SD WebUI、ローカル環境でのワークフローに最適です。

使い方を見る

ツールの実際の動作をご覧ください — AIが生成したプロンプト出力の実例です。

Stable Video Diffusionが選ばれる理由

⚙️

完全オープンソース

SVDのモデルウェイトはHugging Faceで無料公開されています。ダウンロード、ローカル実行、ファインチューニング、任意のパイプラインへの統合が自由に可能です。サブスクリプション不要、レート制限なし、完全なプライバシーが保たれます。

🌞

画像コンディショニング

SVDは参照画像(最初のフレーム)を基に動作するため、自分のアートワーク、写真、レンダリング画像のアニメーション化に最適です。開始時のビジュアルは常にあなたが定義した通りになります。

🎮

精密なパラメーター制御

motion_bucket_idでモーション量、fps_idでフレームレート、augmentation_levelでコンディショニング強度を制御できます。推測は不要です。

Stable Video Diffusionとは

Stable Video Diffusion(SVD)は、Stability AIが開発したオープンソースの動画生成モデルです。クラウド上で動作する商用動画モデルとは異なり、SVDは自分のハードウェアにダウンロードして完全にローカルで実行できます。開発者、研究者、プライバシーを重視するクリエイター、動画生成パイプラインを完全に制御したいすべての方にとって最適な選択肢です。

SVDには2つのバリアントがあります。オリジナルのSVD(14フレーム、最大576×1024)とSVD-XT(25フレーム、同解像度)です。SVD-XTはより長く滑らかなアニメーションを生成でき、ハードウェアが許す場合は一般的にこちらが推奨されます。どちらのモデルも画像から動画を生成する仕組みで、コンディショニング画像を最初のフレームとして入力し、適用したいモーションを記述します。

SVDの技術パラメーター

テキストベースの動画モデルとは異なり、SVDの動作はモーション記述に加えて数値パラメーターによって大きく制御されます。これらを理解することで、精密なコントロールが可能になります。

motion_bucket_id
範囲:0〜255。出力全体のモーション量を制御します。低い値(0〜40)=微妙なアンビエントモーション。中間値(60〜120)=自然で適度な動き。高い値(150〜255)=ダイナミックで激しい動き。デフォルトはバランスの取れた結果を得るために約127です。
fps_id
モーションペーシングの解釈に使用されるフレームレートを指定します。一般的な値:6、8、12、24。低いfpsではモーションがやや断続的になり、高いfpsではより滑らかで流れるような動きになります。これは出力ファイルの実際の再生FPSを変更するものではなく、フレーム間でのモーション分配に影響します。
augmentation_level
範囲:0.0〜1.0。コンディショニングフレームに追加されるノイズの量を制御します。0の場合、出力は参照画像に忠実に一致します。値が高いほど、モデルは入力画像のビジュアルディテールからより自由に逸脱できます。忠実な結果には0.02〜0.05、クリエイティブなバリエーションには0.1以上を使用してください。

SVDの強み

SVDプロンプト構成の例

自然のシーン — 森の小道

Reference frame: forest path in morning. Motion: gentle camera push-in along path, leaves swaying, light shifting through canopy. motion_bucket_id: 80, fps: 8, 3 seconds

適度なmotion_bucket_id(80)は自然なアンビエントモーションを生成します。カメラのプッシュインと環境のモーション(葉の揺れ、光の変化)を組み合わせることで、シンプルなシーンを過度に演出することなく映画的な仕上がりになります。

ポートレート — 繊細なアニメーション

Reference frame: portrait of woman. Motion: subtle head turn right, hair movement, eyes blink naturally. motion_bucket_id: 40, fps: 12, 2 seconds

低いmotion_bucket_id(40)は、誇張された動きではなくリアルな繊細さを求めるポートレートアニメーションに適しています。高いFPS(12)により、顔や髪の動きが滑らかで自然になります。

風景 — 海の地平線

Reference frame: ocean horizon. Motion: waves advancing and retreating, camera static, horizon stable. motion_bucket_id: 100, fps: 8, 4 seconds

高めのmotion_bucket_id(100)は、水のダイナミックな動きに適しています。「camera static, horizon stable」と明示することで、SVDがフレーム全体ではなく波にモーションエネルギーを集中させるよう誘導できます。

SVDをローカルで実行するためのヒント

よくある質問

Stable Video Diffusionとは何ですか?

Stable Video Diffusion(SVD)は、Stability AIが開発したオープンソースの動画生成モデルです。主に画像から動画を生成するモデルとして機能し、コンディショニング画像を最初のフレームとして入力すると、指定したモーションタイプ、FPS、モーション量に基づいてSVDが後続のフレームを生成します。オープンソースであるため、モデルの重みをダウンロードし、自分のハードウェアでローカル実行し、特定のユースケースに合わせてファインチューニングすることが可能です。

SVDをローカルで実行するにはどうすればよいですか?

SVDをローカルで実行する最も一般的な方法は、ComfyUIまたはAutomatic1111のSD WebUIにSVD拡張機能を導入する方法です。Hugging FaceからSVDまたはSVD-XTのモデルウェイトをダウンロードし、最低8GB以上のVRAMを搭載したGPU(SVD-XTをフル解像度で使用する場合は16GB推奨)が必要です。ComfyUIはノードベースのワークフローの柔軟性と活発なコミュニティノードエコシステムから特に推奨されています。

motion_bucket_idは何を制御しますか?

motion_bucket_idは、SVDの出力に含まれるモーション量を制御する主要パラメーターです。0から255の値を受け付けます。低い値(0〜40)は微妙で最小限の動き(穏やかなアンビエントアニメーションに最適)を生成します。中間の値(60〜120)は自然で適度な動き(ほとんどのシーンに適切)を生成します。高い値(150〜255)はダイナミックで激しい動きの出力を生成します。

SVDとSVD-XTの違いは何ですか?

SVD(Stable Video Diffusion)は最大576x1024ピクセルで14フレームを生成します。SVD-XT(Extended)は同じ解像度で25フレームを生成し、より長く滑らかなクリップを作成します。SVD-XTはより多くのVRAMと計算時間を必要とします。両モデルとも同じmotion_bucket_idfps_idaugmentation_levelパラメーターを使用します。十分なハードウェアがある場合は一般的にSVD-XTが推奨されます。

他の動画プロンプトジェネレーターを試す