비디오 추론의 신비를 풀다
확산 기반 비디오 모델은 프레임 순서가 아닌 확산 노이즈 제거 단계를 통해 추론 능력을 발휘하며, 이를 통해 작업 기억, 자기 수정, 행동 이전 인지 같은 복합적 추론 행태가 나타납니다.
특히, 확산 트랜스포머 내에서 초기 레이어는 밀집된 지각 구조를 인코딩하고, 중간 레이어는 추론을 수행하며, 후반 레이어는 잠재 표현을 통합하는 기능적 분화가 자연스럽게 진화함을 발견하였습니다.
이 연구는 기존의 프레임 기반 추론(Chain-of-Frames) 가설을 넘어, 노이즈 제거 과정에서 점진적으로 해답에 수렴하는 Chain-of-Steps 메커니즘을 제안하며, 이를 활용한 훈련 없는 앙상블 전략으로 추론 성능 향상 가능성을 시연하였습니다.
본 연구는 비디오 생성 모델 내에서 추론이 어떻게 자연스럽게 발생하는지 체계적으로 해명하여, 향후 지능형 비디오 모델 개발에 중요한 이론적 기반을 제공합니다.
