Stable Video Diffusionとは
Stable Video Diffusion(SVD)は、Stability AIが開発したオープンソースの動画生成モデルです。クラウド上で動作する商用動画モデルとは異なり、SVDは自分のハードウェアにダウンロードして完全にローカルで実行できます。開発者、研究者、プライバシーを重視するクリエイター、動画生成パイプラインを完全に制御したいすべての方にとって最適な選択肢です。
SVDには2つのバリアントがあります。オリジナルのSVD(14フレーム、最大576×1024)とSVD-XT(25フレーム、同解像度)です。SVD-XTはより長く滑らかなアニメーションを生成でき、ハードウェアが許す場合は一般的にこちらが推奨されます。どちらのモデルも画像から動画を生成する仕組みで、コンディショニング画像を最初のフレームとして入力し、適用したいモーションを記述します。
SVDの技術パラメーター
テキストベースの動画モデルとは異なり、SVDの動作はモーション記述に加えて数値パラメーターによって大きく制御されます。これらを理解することで、精密なコントロールが可能になります。
motion_bucket_idfps_idaugmentation_levelSVDの強み
- オープンソース/セルフホスト:完全な制御、API費用なし、オフライン動作可能、機密性の高いコンテンツのプライバシーを保護します。
- ファインチューニングによるカスタマイズ:SVDはカスタムデータセットでファインチューニングでき、ドメイン固有のアニメーションスタイルに対応します。VFXパイプラインやクリエイティブツールで活用されています。
- 画像コンディショニングとの優れた相性:参照フレームを基に設計されているため、開始時のビジュアルが常に正確に把握できます。
- ComfyUIおよびSD WebUIとの統合:SVD向けの充実したコミュニティノード、拡張機能、ワークフローを備えた成熟したエコシステムがあります。
- 制御可能なモーション:
motion_bucket_idは、ほとんどの商用モデルでは公開されていないモーション強度の決定的な制御を提供します。
SVDプロンプト構成の例
自然のシーン — 森の小道
Reference frame: forest path in morning. Motion: gentle camera push-in along path, leaves swaying, light shifting through canopy. motion_bucket_id: 80, fps: 8, 3 seconds
適度なmotion_bucket_id(80)は自然なアンビエントモーションを生成します。カメラのプッシュインと環境のモーション(葉の揺れ、光の変化)を組み合わせることで、シンプルなシーンを過度に演出することなく映画的な仕上がりになります。
ポートレート — 繊細なアニメーション
Reference frame: portrait of woman. Motion: subtle head turn right, hair movement, eyes blink naturally. motion_bucket_id: 40, fps: 12, 2 seconds
低いmotion_bucket_id(40)は、誇張された動きではなくリアルな繊細さを求めるポートレートアニメーションに適しています。高いFPS(12)により、顔や髪の動きが滑らかで自然になります。
風景 — 海の地平線
Reference frame: ocean horizon. Motion: waves advancing and retreating, camera static, horizon stable. motion_bucket_id: 100, fps: 8, 4 seconds
高めのmotion_bucket_id(100)は、水のダイナミックな動きに適しています。「camera static, horizon stable」と明示することで、SVDがフレーム全体ではなく波にモーションエネルギーを集中させるよう誘導できます。
SVDをローカルで実行するためのヒント
- ComfyUIが推奨インターフェースです:ComfyUIのSVDノードからすべてのパラメーターに直接アクセスできます。Stability AIリポジトリの公式SVD ComfyUIワークフローを出発点として使用してください。
motion_bucket_id: 100〜127から始める:このバランスの取れた範囲はほとんどのシーンで良好な結果を生み出します。よりダイナミックにするには値を上げ、落ち着いた出力にするには下げてください。- 高品質なコンディショニング画像を使用する:SVDは参照フレームへの忠実度を維持しようとします。ぼやけた低解像度の入力画像はぼやけた出力動画を生成します。
augmentation_levelを低く設定する(0.02):参照画像からのクリエイティブな逸脱を意図しない限り、忠実な結果を得るためにゼロ付近に保ちましょう。- 長いクリップにはSVD-XTを使用:GPUに16GB以上のVRAMがある場合、追加フレームとより滑らかなモーションアークを提供するSVD-XTを選択してください。
- motion_bucket_idでバッチ実験する:小さな増分変更(例:80 vs 100 vs 120)でも大きく異なる結果が得られることがあります。各シーンの最適な設定を見つけるために複数回の生成を実行しましょう。
よくある質問
Stable Video Diffusionとは何ですか?
Stable Video Diffusion(SVD)は、Stability AIが開発したオープンソースの動画生成モデルです。主に画像から動画を生成するモデルとして機能し、コンディショニング画像を最初のフレームとして入力すると、指定したモーションタイプ、FPS、モーション量に基づいてSVDが後続のフレームを生成します。オープンソースであるため、モデルの重みをダウンロードし、自分のハードウェアでローカル実行し、特定のユースケースに合わせてファインチューニングすることが可能です。
SVDをローカルで実行するにはどうすればよいですか?
SVDをローカルで実行する最も一般的な方法は、ComfyUIまたはAutomatic1111のSD WebUIにSVD拡張機能を導入する方法です。Hugging FaceからSVDまたはSVD-XTのモデルウェイトをダウンロードし、最低8GB以上のVRAMを搭載したGPU(SVD-XTをフル解像度で使用する場合は16GB推奨)が必要です。ComfyUIはノードベースのワークフローの柔軟性と活発なコミュニティノードエコシステムから特に推奨されています。
motion_bucket_idは何を制御しますか?
motion_bucket_idは、SVDの出力に含まれるモーション量を制御する主要パラメーターです。0から255の値を受け付けます。低い値(0〜40)は微妙で最小限の動き(穏やかなアンビエントアニメーションに最適)を生成します。中間の値(60〜120)は自然で適度な動き(ほとんどのシーンに適切)を生成します。高い値(150〜255)はダイナミックで激しい動きの出力を生成します。
SVDとSVD-XTの違いは何ですか?
SVD(Stable Video Diffusion)は最大576x1024ピクセルで14フレームを生成します。SVD-XT(Extended)は同じ解像度で25フレームを生成し、より長く滑らかなクリップを作成します。SVD-XTはより多くのVRAMと計算時間を必要とします。両モデルとも同じmotion_bucket_id、fps_id、augmentation_levelパラメーターを使用します。十分なハードウェアがある場合は一般的にSVD-XTが推奨されます。


