Stable Video Diffusion이란?
Stable Video Diffusion(SVD)은 Stability AI의 오픈소스 비디오 생성 모델입닅다. 클라우드에서 실행되는 상용 비디오 모델과 달리, SVD는 다운로드하여 자체 하드웨어에서 완전히 실행할 수 있어 — 개발자, 연구원, 개인정보 보호에 민감한 크리에이터, 그리고 비디오 생성 파이프라인을 완전히 통제하고 싶은 모든 사람에게 최적의 선택입닅다.
SVD는 두 가지 변형이 있습닅다: 오리지널 SVD(14프레임, 최대 576×1024)와 SVD-XT(25프레임, 동일 해상도). SVD-XT는 더 길고 부드러운 애니메이션을 생성하며, 하드웨어가 허용하는 경우 일반적으로 선호됩닅다. 두 모델 모두 이미지-투-비디오 생성기로 동작하며, 컨디셔닝 이미지를 첫 프레임으로 제공한 다음 원하는 모션을 설명합니다.
SVD 기술 매개변수
텍스트 중심 비디오 모델과 달리, SVD의 동작은 모션 설명과 함께 숫자 매개변수에 의해 크게 영향받습니다. 이를 이해하면 정밀한 제어가 가능합니다:
motion_bucket_idfps_idaugmentation_levelSVD의 강점
- 오픈소스 / 셀프 호스팅: 완전한 제어, API 비용 없음, 오프라인 가능, 민감한 콘텐츠에 대한 개인정보 보호.
- 파인튜닝으로 커스터마이징 가능: SVD는 도메인별 애니메이션 스타일을 위한 커스텀 데이터셋에서 파인튜닝할 수 있으며, VFX 파이프라인 및 크리에이티브 도구에서 사용됩니다.
- 이미지 컨디셔닝과 우수한 호환성: 참조 프레임을 기반으로 설계되어 시작 비주얼이 항상 정확히 어떤 것인지 알 수 있습니다.
- ComfyUI 및 SD WebUI 통합: SVD를 위한 광범위한 커뮤니티 닅드, 확장 프로그램 및 워크플로를 갖춘 성숙한 생태계.
- 제어 가능한 모션:
motion_bucket_id는 대부분의 상용 모델에서 닅출하지 않는 모션 강도에 대한 결정론적 제어를 제공합니다.
SVD 프롬프트 구조 예시
자연 장면 — 숲길 산책로
Reference frame: forest path in morning. Motion: gentle camera push-in along path, leaves swaying, light shifting through canopy. motion_bucket_id: 80, fps: 8, 3 seconds
적절한 motion_bucket_id 80은 자연스러운 주변 움직임을 생성합니다. 카메라 푸시인과 환경 모션(나릿잇, 빛)이 결합되어 간결한 장면을 과도하게 극화하지 않으면서 영화적인 결과를 만듭니다.
인물 — 미세한 애니메이션
Reference frame: portrait of woman. Motion: subtle head turn right, hair movement, eyes blink naturally. motion_bucket_id: 40, fps: 12, 2 seconds
낮은 motion_bucket_id(40)는 과장된 움직임보다 생동감 있는 미세함을 원하는 인물 애니메이션에 적합합니다. 높은 FPS(12)는 얼굴과 머리카락 모션을 부드럽고 자연스럽게 만듭니다.
풍경 — 바다 수평선
Reference frame: ocean horizon. Motion: waves advancing and retreating, camera static, horizon stable. motion_bucket_id: 100, fps: 8, 4 seconds
더 높은 motion_bucket_id(100)는 역동적인 물의 움직임에 적합합니다. "camera static, horizon stable"을 명시적으로 기술하면 SVD가 전체 프레임이 아닌 파도에 모션 에너지를 집중하도록 안내합니다.
SVD 로컬 실행 팅
- ComfyUI를 권장 인터페이스로 사용하세요: ComfyUI의 SVD 닅드는 모든 매개변수에 직접 접근할 수 있습니다. Stability AI 리포지터리의 공식 SVD ComfyUI 워크플로를 시작점으로 사용하세요.
motion_bucket_id: 100–127로 시작하세요: 이 균형 잡힌 범위는 대부분의 장면에서 좋은 결과를 생성합니다. 더 역동적인 결과를 위해서는 위로, 더 차분한 출력을 위해서는 아래로 조정하세요.- 고품질 컨디셔닝 이미지를 사용하세요: SVD는 참조 프레임에 대한 충실도를 유지하려고 합니다. 흐릿하거나 저해상도 입력 이미지는 흐릿한 출력 비디오를 생성합니다.
augmentation_level을 낮게(0.02) 설정하세요: 참조 이미지에서 창의적으로 벗어나고 싶지 않다면, 충실한 결과를 위해 0에 가까운 값을 유지하세요.- 더 긴 클립에는 SVD-XT: GPU에 16GB 이상의 VRAM이 있다면, 추가 프레임과 더 부드러운 모션 아크를 제공하는 SVD-XT를 선택하세요.
- motion_bucket_id를 배치로 실험하세요: 작은 점진적 변경(예: 80 vs 100 vs 120)이 의미 있게 다른 결과를 생성할 수 있습니다. 각 장면에 맞는 최적의 값을 찾기 위해 여러 번 생성을 실행하세요.
자주 문는 질문
Stable Video Diffusion이란 무엇인가요?
Stable Video Diffusion(SVD)은 Stability AI의 오픈소스 비디오 생성 모델입니다. 주로 이미지-투-비디오 모델로 동작하며, 컨디셔닝 이미지를 첫 프레임으로 제공하면 SVD가 모션 유형, FPS, 모션 양에 따라 후속 프레임을 생성합니다. 오픈소스 특성 덕분에 모델 가중치를 다운로드하여 자체 하드웨어에서 로컬로 실행하고 특정 사용 사례에 맞게 파인튜닝할 수 있습니다.
SVD를 로컬에서 실행하는 방법은?
SVD를 로컬에서 실행하는 가장 일반적인 방법은 ComfyUI와 SVD 확장이 설치된 Automatic1111 SD WebUI입니다. Hugging Face에서 SVD 또는 SVD-XT 모델 가중치가 필요하며, 최소 8GB VRAM의 GPU(전체 해상도 SVD-XT는 16GB 권장)가 필요합니다. 닅드 기반 워크플로의 유연성과 활발한 커뮤니티 닅드 생태계로 ComfyUI가 권장됩니다.
motion_bucket_id는 무엇을 제어하나요?
motion_bucket_id는 SVD 출력에서 모션 양을 제어하는 핵심 매개변수입니다. 0에서 255까지의 값을 허용합니다. 낮은 값(0–40)은 미세하고 최소한의 움직임을 생성하며, 부드러운 주변 애니메이션에 적합합니다. 중간 값(60–120)은 대부분의 장면에 적합한 자연스러운 모션을 생성합니다. 높은 값(150–255)은 극적이고 동적인 출력을 생성합니다.
SVD와 SVD-XT의 차이점은?
SVD는 최대 576x1024 픽셀에서 14프레임을 생성합니다. SVD-XT(Extended)는 동일한 해상도에서 25프레임을 생성하여 더 길고 부드러운 클립을 만듭니다. SVD-XT는 더 많은 VRAM과 연산 시간이 필요합니다. 두 모델 모두 동일한 motion_bucket_id, fps_id, augmentation_level 매개변수를 지원합니다. 충분한 하드웨어가 있다면 일반적으로 SVD-XT가 선호됩니다.


