SAMA: 명령어 기반 비디오 편집을 위한 분해된 의미 앵커링 및 동작 정렬

SAMA는 비디오 편집을 위해 의미적 고정(Semantic Anchoring)과 모션 정렬(Motion Alignment)을 분리하는 새로운 프레임워크를 제안합니다.

먼저, 의미적 고정은 희소 앵커 프레임에서 의미 토큰과 비디오 잠재 표현을 예측하여 명령어에 기반한 구조적 계획을 가능하게 합니다.

모션 정렬은 모션 중심의 비디오 복원 과제(큐브 인페인팅, 속도 변조, 튜브 셔플)를 통해 시간적 동적 특성을 학습하여 원본 영상의 움직임을 충실히 보존합니다.

이러한 분리된 접근법은 사전 학습과 감독 학습의 두 단계로 최적화되며, 사전 학습만으로도 강력한 제로샷 비디오 편집 능력을 보여줍니다.

SAMA는 오픈소스 모델 중 최고 성능을 기록하며, 상용 시스템과도 경쟁력 있는 결과를 달성하여 실용적 가치가 매우 높습니다.

댓글