⚙️ Ideal para Open Source

Generador Gratuito de Prompts Stable Video Diffusion

Genera prompts para Stable Video Diffusion con parámetros de cantidad de movimiento, velocidad de fotogramas y condicionamiento. Perfecto para flujos de trabajo en ComfyUI, SD WebUI y despliegue local.

Ver: Cómo funciona

Mira la herramienta en acción: ejemplo real con la salida de prompt generada por IA.

Por qué elegir Stable Video Diffusion

⚙️

Totalmente open source

Los pesos del modelo SVD están disponibles de forma gratuita en Hugging Face. Descárgalo, ejecútalo en local, ajústalo e intégralo en cualquier pipeline, sin suscripciones, sin límites de uso, con total privacidad.

🌞

Condicionamiento por imagen

SVD parte de una imagen de referencia (el primer fotograma), lo que lo hace ideal para animar tus propias ilustraciones, fotos o renders. El punto de partida visual siempre es exactamente lo que tú defines.

🎮

Control preciso de parámetros

Controla la cantidad de movimiento con motion_bucket_id, la velocidad de fotogramas con fps_id y la fuerza de condicionamiento con augmentation_level, sin conjeturas.

¿Qué es Stable Video Diffusion?

Stable Video Diffusion (SVD) es el modelo de generación de video de código abierto de Stability AI. A diferencia de los modelos de video comerciales que se ejecutan en la nube, SVD se puede descargar y ejecutar completamente en tu propio hardware, lo que lo convierte en la opción preferida de desarrolladores, investigadores, creadores que valoran su privacidad y cualquier persona que desee control total sobre su pipeline de generación de video.

SVD viene en dos variantes: el SVD original (14 fotogramas, hasta 576×1024) y SVD-XT (25 fotogramas, misma resolución). SVD-XT produce animaciones más largas y fluidas y generalmente se prefiere cuando el hardware lo permite. Ambos modelos funcionan como generadores de imagen a video: proporcionas una imagen de condicionamiento como primer fotograma y luego describes el movimiento que deseas aplicarle.

Parámetros técnicos de SVD

A diferencia de los modelos de video basados en texto, el comportamiento de SVD está determinado en gran medida por parámetros numéricos además de una descripción de movimiento. Comprenderlos te da un control preciso:

motion_bucket_id
Rango: 0–255. Controla la cantidad global de movimiento en la salida. Valores bajos (0–40) = movimiento ambiental sutil. Medios (60–120) = movimiento natural y moderado. Altos (150–255) = movimiento dramático y energético. El valor por defecto es alrededor de 127 para resultados equilibrados.
fps_id
Indica la velocidad de fotogramas para la interpretación del ritmo de movimiento. Valores comunes: 6, 8, 12, 24. Un FPS bajo hace que el movimiento se sienta más entrecortado; un FPS alto crea un movimiento más suave y fluido. Esto no cambia los FPS reales de reproducción del archivo de salida, sino cómo se distribuye el movimiento entre los fotogramas.
augmentation_level
Rango: 0,0–1,0. Controla cuánto ruido se añade al fotograma de condicionamiento. Con 0, la salida coincide fielmente con tu imagen de referencia. Valores más altos dan al modelo más libertad para desviarse de los detalles visuales de la imagen de entrada. Usa 0,02–0,05 para resultados fieles; 0,1+ para variaciones creativas.

Fortalezas de SVD

Ejemplos de estructuras de prompts para SVD

Escena natural — Sendero en el bosque

Reference frame: forest path in morning. Motion: gentle camera push-in along path, leaves swaying, light shifting through canopy. motion_bucket_id: 80, fps: 8, 3 seconds

Un motion_bucket_id moderado de 80 produce un movimiento ambiental natural. El avance de cámara combinado con el movimiento del entorno (hojas, luz) crea un resultado cinemático sin dramatizar en exceso una escena sencilla.

Retrato — Animación sutil

Reference frame: portrait of woman. Motion: subtle head turn right, hair movement, eyes blink naturally. motion_bucket_id: 40, fps: 12, 2 seconds

Un motion_bucket_id bajo (40) es adecuado para animaciones de retrato donde se busca una sutileza realista en lugar de movimientos exagerados. Un FPS más alto (12) hace que el movimiento facial y del cabello se sienta suave y natural.

Paisaje — Horizonte oceánico

Reference frame: ocean horizon. Motion: waves advancing and retreating, camera static, horizon stable. motion_bucket_id: 100, fps: 8, 4 seconds

Un motion_bucket_id más alto (100) es apropiado para el movimiento dinámico del agua. Indicar explícitamente «camera static, horizon stable» guía a SVD para concentrar la energía del movimiento en las olas en lugar de en todo el fotograma.

Consejos para ejecutar SVD en local

Preguntas Frecuentes

¿Qué es Stable Video Diffusion?

Stable Video Diffusion (SVD) es el modelo de generación de video de código abierto de Stability AI. Funciona principalmente como un modelo de imagen a video: proporcionas una imagen de condicionamiento como primer fotograma, y SVD genera los fotogramas siguientes en función del tipo de movimiento, los FPS y la cantidad de movimiento que especifiques. Su naturaleza de código abierto significa que puedes descargar los pesos, ejecutarlo en local en tu propio hardware y ajustarlo para casos de uso específicos.

¿Cómo ejecuto SVD en local?

Las formas más populares de ejecutar SVD en local son ComfyUI y el SD WebUI de Automatic1111 con la extensión SVD. Necesitarás los pesos del modelo SVD o SVD-XT desde Hugging Face, y una GPU con al menos 8 GB de VRAM (16 GB recomendados para SVD-XT a resolución completa). ComfyUI es la opción recomendada por su flexibilidad de flujo de trabajo basado en nodos y su activo ecosistema de nodos comunitarios.

¿Qué controla motion_bucket_id?

motion_bucket_id es el parámetro principal para controlar la cantidad de movimiento en la salida de SVD. Acepta valores de 0 a 255. Los valores bajos (0–40) producen un movimiento sutil y mínimo, ideal para animaciones ambientales suaves. Los valores medios (60–120) producen un movimiento natural y moderado, adecuado para la mayoría de las escenas. Los valores altos (150–255) producen una salida dramática y con mucho movimiento.

¿Cuál es la diferencia entre SVD y SVD-XT?

SVD genera 14 fotogramas a una resolución máxima de 576x1024 píxeles. SVD-XT (Extended) genera 25 fotogramas a la misma resolución, produciendo clips más largos y fluidos. SVD-XT requiere más VRAM y tiempo de cálculo. Ambos modelos aceptan los mismos parámetros motion_bucket_id, fps_id y augmentation_level. SVD-XT se prefiere generalmente cuando se dispone del hardware suficiente.

Prueba otros generadores de prompts de video