Qu'est-ce que Stable Video Diffusion ?
Stable Video Diffusion (SVD) est le modèle de génération vidéo open source de Stability AI. Contrairement aux modèles vidéo commerciaux qui s'exécutent dans le cloud, SVD peut être téléchargé et exécuté entièrement sur votre propre matériel — ce qui en fait le modèle de choix pour les développeurs, les chercheurs, les créateurs soucieux de leur vie privée et toute personne souhaitant un contrôle total sur son pipeline de génération vidéo.
SVD existe en deux variantes : le SVD original (14 images, jusqu'à 576×1024) et SVD-XT (25 images, même résolution). SVD-XT produit des animations plus longues et plus fluides et est généralement préféré lorsque le matériel le permet. Les deux modèles fonctionnent comme des générateurs image-vers-vidéo : vous fournissez une image de conditionnement comme première image, puis décrivez le mouvement que vous souhaitez lui appliquer.
Paramètres techniques SVD
Contrairement aux modèles vidéo axés sur le texte, le comportement de SVD est largement façonné par des paramètres numériques en plus d'une description de mouvement. Les comprendre vous donne un contrôle précis :
motion_bucket_idfps_idaugmentation_levelPoints forts de SVD
- Open source / auto-hébergé : Contrôle total, pas de coûts API, capable de fonctionner hors ligne et préservant la confidentialité pour les contenus sensibles.
- Personnalisable par fine-tuning : SVD peut être fine-tuné sur des jeux de données personnalisés pour des styles d'animation spécifiques à un domaine — utilisé dans les pipelines VFX et les outils créatifs.
- Fonctionne bien avec le conditionnement par image : Parce qu'il est conçu autour d'une image de référence, vous savez toujours exactement quel sera votre visuel de départ.
- Intégration ComfyUI et SD WebUI : Écosystème mature avec des nœuds, extensions et workflows communautaires étendus pour SVD.
- Mouvement contrôlable :
motion_bucket_idoffre un contrôle déterministe sur l'intensité du mouvement que la plupart des modèles commerciaux n'exposent pas.
Exemples de structures de prompts SVD
Scène naturelle — Sentier forestier
Reference frame: forest path in morning. Motion: gentle camera push-in along path, leaves swaying, light shifting through canopy. motion_bucket_id: 80, fps: 8, 3 seconds
Un motion_bucket_id modéré de 80 produit un mouvement ambiant naturel. Le déplacement de caméra combiné au mouvement environnemental (feuilles, lumière) crée un résultat cinématographique sans dramatiser excessivement la scène simple.
Portrait — Animation subtile
Reference frame: portrait of woman. Motion: subtle head turn right, hair movement, eyes blink naturally. motion_bucket_id: 40, fps: 12, 2 seconds
Un motion_bucket_id bas (40) est approprié pour les animations de portrait où vous souhaitez une subtilité réaliste plutôt qu'un mouvement exagéré. Des FPS plus élevés (12) rendent le mouvement facial et des cheveux fluide et naturel.
Paysage — Horizon océanique
Reference frame: ocean horizon. Motion: waves advancing and retreating, camera static, horizon stable. motion_bucket_id: 100, fps: 8, 4 seconds
Un motion_bucket_id plus élevé (100) est approprié pour le mouvement dynamique de l'eau. Indiquer explicitement « camera static, horizon stable » guide SVD pour concentrer l'énergie du mouvement sur les vagues plutôt que sur l'ensemble de l'image.
Conseils pour exécuter SVD localement
- ComfyUI est l'interface recommandée : Le nœud SVD dans ComfyUI donne accès direct à tous les paramètres. Utilisez le workflow SVD officiel de ComfyUI du dépôt Stability AI comme point de départ.
- Commencez avec
motion_bucket_id : 100–127: Cette plage équilibrée produit de bons résultats pour la plupart des scènes. Ajustez vers le haut pour plus de dynamisme, vers le bas pour une sortie plus calme. - Utilisez des images de conditionnement de haute qualité : SVD tentera de maintenir la fidélité à votre image de référence. Les images d'entrée floues ou basse résolution produisent des vidéos de sortie floues.
- Définissez
augmentation_levelbas (0,02) : Sauf si vous souhaitez une déviation créative de votre image de référence, gardez-le près de zéro pour des résultats fidèles. - SVD-XT pour les clips plus longs : Si votre GPU dispose de 16 Go+ de VRAM, préférez SVD-XT pour les images supplémentaires et les arcs de mouvement plus fluides qu'il fournit.
- Expérimentez par lots avec motion_bucket_id : De petits changements incrémentiels (p. ex., 80 vs 100 vs 120) peuvent produire des résultats significativement différents. Exécutez plusieurs générations pour trouver le réglage idéal pour chaque scène.
Questions Fréquentes
Qu'est-ce que Stable Video Diffusion ?
Stable Video Diffusion (SVD) est le modèle de génération vidéo open source de Stability AI. Il fonctionne principalement comme un modèle image-vers-vidéo : vous fournissez une image de conditionnement comme première image, et SVD génère les images suivantes en fonction du type de mouvement, des FPS et de la quantité de mouvement que vous spécifiez. Sa nature open source signifie que vous pouvez télécharger les poids, l'exécuter localement sur votre propre matériel et le fine-tuner pour des cas d'usage spécifiques.
Comment exécuter SVD localement ?
Les moyens les plus populaires pour exécuter SVD localement sont ComfyUI et le SD WebUI d'Automatic1111 avec l'extension SVD. Vous aurez besoin des poids de modèle SVD ou SVD-XT depuis Hugging Face, et d'un GPU avec au moins 8 Go de VRAM (16 Go recommandés pour SVD-XT en pleine résolution). ComfyUI est recommandé pour sa flexibilité de workflow basé sur les nœuds et son écosystème communautaire actif.
Que contrôle motion_bucket_id ?
motion_bucket_id est le paramètre principal pour contrôler la quantité de mouvement dans votre sortie SVD. Il accepte des valeurs de 0 à 255. Les valeurs basses (0–40) produisent un mouvement subtil et minimal — idéal pour les animations ambiantes douces. Les valeurs moyennes (60–120) produisent un mouvement naturel et modéré approprié pour la plupart des scènes. Les valeurs élevées (150–255) produisent une sortie dramatique et très mouvementée.
Quelle est la différence entre SVD et SVD-XT ?
SVD génère 14 images à une résolution maximale de 576x1024 pixels. SVD-XT (Extended) génère 25 images à la même résolution, produisant des clips plus longs et plus fluides. SVD-XT nécessite plus de VRAM et de temps de calcul. Les deux modèles acceptent les mêmes paramètres motion_bucket_id, fps_id et augmentation_level. SVD-XT est généralement préféré lorsque le matériel suffisant est disponible.


