Mode Seeking meets Mean Seeking for Fast Long Video Generation

https://huggingface.co/papers/2602.24289

Decoupled Diffusion Transformer 기반의 **모드 시킹(Mode Seeking)**과 **평균 시킹(Mean Seeking)**을 결합한 새로운 학습 패러다임을 제안하여, 고품질의 장시간 비디오 생성을 빠르고 효율적으로 구현하였습니다.

이 방법은 **글로벌 플로우 매칭(Flow Matching)**을 통해 긴 영상의 내러티브 구조를 학습하고, **로컬 분포 매칭(Local Distribution Matching)**을 통해 짧은 영상의 세밀한 디테일을 유지하도록 설계되어 있습니다.

이를 통해 제한된 장시간 영상 데이터에서도 장기 일관성과 지역적 사실성을 동시에 확보하며, 몇 단계 만에 빠른 장시간 영상 생성을 가능하게 하는 실용적 가치를 갖습니다.

평가 결과, 기존의 품질-시간 한계를 극복하며 영상의 선명도, 움직임, 일관성을 모두 향상시키는 효과가 입증되었습니다.

자세한 내용과 구현은 프로젝트 웹사이트(https://primecai.github.io/mmm/)에서 확인하실 수 있습니다.

Mode Seeking meets Mean Seeking for Fast Long Video Generation

댓글