MosaicMem: 제어 가능한 비디오 월드 모델을 위한 하이브리드 공간 메모리
MosaicMem은 하이브리드 공간 메모리를 활용하여 비디오 월드 모델에서 카메라 움직임에 따른 일관성을 유지하고, 장기적인 장면 편집 및 내비게이션을 가능하게 합니다.
이 기술은 3D 패치 기반 명시적 메모리와 암묵적 잠재 프레임을 결합하여, 공간적으로 정렬된 3D 패치를 검색하고 재구성함으로써 장면의 지속성을 보존하면서도 동적 변화를 자연스럽게 반영합니다.
또한, PRoPE 카메라 조건화와 두 가지 새로운 메모리 정렬 기법을 도입하여 기존 암묵적 메모리보다 카메라 자세 일치도가 높고, 명시적 메모리 기반 방법보다 동적 장면 모델링 능력이 뛰어납니다.
이로 인해, 분 단위 내비게이션, 메모리 기반 장면 편집, 그리고 자동회귀 롤아웃이 가능해져 실용적인 비디오 월드 시뮬레이터 구현에 기여합니다.
