¿Qué es Stable Video Diffusion?
Stable Video Diffusion (SVD) es el modelo de generación de video de código abierto de Stability AI. A diferencia de los modelos de video comerciales que se ejecutan en la nube, SVD se puede descargar y ejecutar completamente en tu propio hardware, lo que lo convierte en la opción preferida de desarrolladores, investigadores, creadores que valoran su privacidad y cualquier persona que desee control total sobre su pipeline de generación de video.
SVD viene en dos variantes: el SVD original (14 fotogramas, hasta 576×1024) y SVD-XT (25 fotogramas, misma resolución). SVD-XT produce animaciones más largas y fluidas y generalmente se prefiere cuando el hardware lo permite. Ambos modelos funcionan como generadores de imagen a video: proporcionas una imagen de condicionamiento como primer fotograma y luego describes el movimiento que deseas aplicarle.
Parámetros técnicos de SVD
A diferencia de los modelos de video basados en texto, el comportamiento de SVD está determinado en gran medida por parámetros numéricos además de una descripción de movimiento. Comprenderlos te da un control preciso:
motion_bucket_idfps_idaugmentation_levelFortalezas de SVD
- Open source / autoalojado: Control total, sin costes de API, funciona sin conexión y preserva la privacidad del contenido sensible.
- Personalizable mediante ajuste fino: SVD se puede ajustar con conjuntos de datos personalizados para estilos de animación específicos de un dominio; se utiliza en pipelines de VFX y herramientas creativas.
- Funciona bien con condicionamiento por imagen: Al estar diseñado en torno a un fotograma de referencia, siempre sabes exactamente cuál será tu punto de partida visual.
- Integración con ComfyUI y SD WebUI: Ecosistema maduro con amplia variedad de nodos, extensiones y flujos de trabajo de la comunidad para SVD.
- Movimiento controlable:
motion_bucket_idproporciona un control determinista sobre la intensidad del movimiento que la mayoría de los modelos comerciales no ofrecen.
Ejemplos de estructuras de prompts para SVD
Escena natural — Sendero en el bosque
Reference frame: forest path in morning. Motion: gentle camera push-in along path, leaves swaying, light shifting through canopy. motion_bucket_id: 80, fps: 8, 3 seconds
Un motion_bucket_id moderado de 80 produce un movimiento ambiental natural. El avance de cámara combinado con el movimiento del entorno (hojas, luz) crea un resultado cinemático sin dramatizar en exceso una escena sencilla.
Retrato — Animación sutil
Reference frame: portrait of woman. Motion: subtle head turn right, hair movement, eyes blink naturally. motion_bucket_id: 40, fps: 12, 2 seconds
Un motion_bucket_id bajo (40) es adecuado para animaciones de retrato donde se busca una sutileza realista en lugar de movimientos exagerados. Un FPS más alto (12) hace que el movimiento facial y del cabello se sienta suave y natural.
Paisaje — Horizonte oceánico
Reference frame: ocean horizon. Motion: waves advancing and retreating, camera static, horizon stable. motion_bucket_id: 100, fps: 8, 4 seconds
Un motion_bucket_id más alto (100) es apropiado para el movimiento dinámico del agua. Indicar explícitamente «camera static, horizon stable» guía a SVD para concentrar la energía del movimiento en las olas en lugar de en todo el fotograma.
Consejos para ejecutar SVD en local
- ComfyUI es la interfaz recomendada: El nodo SVD en ComfyUI da acceso directo a todos los parámetros. Usa el flujo de trabajo oficial de SVD en ComfyUI del repositorio de Stability AI como punto de partida.
- Empieza con
motion_bucket_id: 100–127: Este rango equilibrado produce buenos resultados para la mayoría de las escenas. Sube para más dinamismo, baja para una salida más calmada. - Usa imágenes de condicionamiento de alta calidad: SVD intentará mantener la fidelidad con tu imagen de referencia. Las imágenes de entrada borrosas o de baja resolución producen videos borrosos.
- Configura
augmentation_levelbajo (0,02): A menos que busques una desviación creativa de tu imagen de referencia, mantén este valor cerca de cero para resultados fieles. - SVD-XT para clips más largos: Si tu GPU tiene 16 GB o más de VRAM, usa SVD-XT para obtener fotogramas adicionales y arcos de movimiento más fluidos.
- Experimenta por lotes con motion_bucket_id: Pequeños cambios incrementales (p. ej., 80 vs. 100 vs. 120) pueden producir resultados muy diferentes. Ejecuta varias generaciones para encontrar el ajuste ideal de cada escena.
Preguntas Frecuentes
¿Qué es Stable Video Diffusion?
Stable Video Diffusion (SVD) es el modelo de generación de video de código abierto de Stability AI. Funciona principalmente como un modelo de imagen a video: proporcionas una imagen de condicionamiento como primer fotograma, y SVD genera los fotogramas siguientes en función del tipo de movimiento, los FPS y la cantidad de movimiento que especifiques. Su naturaleza de código abierto significa que puedes descargar los pesos, ejecutarlo en local en tu propio hardware y ajustarlo para casos de uso específicos.
¿Cómo ejecuto SVD en local?
Las formas más populares de ejecutar SVD en local son ComfyUI y el SD WebUI de Automatic1111 con la extensión SVD. Necesitarás los pesos del modelo SVD o SVD-XT desde Hugging Face, y una GPU con al menos 8 GB de VRAM (16 GB recomendados para SVD-XT a resolución completa). ComfyUI es la opción recomendada por su flexibilidad de flujo de trabajo basado en nodos y su activo ecosistema de nodos comunitarios.
¿Qué controla motion_bucket_id?
motion_bucket_id es el parámetro principal para controlar la cantidad de movimiento en la salida de SVD. Acepta valores de 0 a 255. Los valores bajos (0–40) producen un movimiento sutil y mínimo, ideal para animaciones ambientales suaves. Los valores medios (60–120) producen un movimiento natural y moderado, adecuado para la mayoría de las escenas. Los valores altos (150–255) producen una salida dramática y con mucho movimiento.
¿Cuál es la diferencia entre SVD y SVD-XT?
SVD genera 14 fotogramas a una resolución máxima de 576x1024 píxeles. SVD-XT (Extended) genera 25 fotogramas a la misma resolución, produciendo clips más largos y fluidos. SVD-XT requiere más VRAM y tiempo de cálculo. Ambos modelos aceptan los mismos parámetros motion_bucket_id, fps_id y augmentation_level. SVD-XT se prefiere generalmente cuando se dispone del hardware suficiente.


