CollabVR: 비전-언어 및 비디오 생성 모델을 활용한 협업 비디오 추론

비전-언어 모델과 비디오 생성 모델을 단계별로 협업시키는 CollabVR 프레임워크가 제안되었습니다.

기존 비디오 생성 모델은 다중 단계 작업에서 발생하는 장기 누적 오류와 중간 시뮬레이션 오류 문제를 겪었습니다.

CollabVR은 비전-언어 모델이 즉각적인 다음 행동을 계획하고, 생성된 클립을 점검하며, 오류를 실시간으로 수정하는 폐쇄 루프 구조를 갖추고 있습니다.

이 접근법은 비디오 생성 과정에서 발생하는 실패를 조기에 감지하고 바로잡아 시각적 추론 성능을 크게 향상시켰습니다.

실험 결과, CollabVR은 오픈소스 및 폐쇄형 비디오 생성 모델 모두에서 단일 추론 및 테스트 시 확장 기법 대비 우수한 성능을 보였습니다.

또한, 추론 미세조정된 모델 위에서도 추가적인 성능 향상을 달성해, 단계별 비전-언어 모델의 감독이 기존 미세조정과 상호 보완적임을 확인했습니다.

해당 연구는 복잡한 시각 추론 과제를 위한 비디오 생성 모델의 신뢰성과 정확도를 높이는 새로운 방향을 제시합니다.

자세한 내용과 영상 샘플은 프로젝트 페이지(https://joow0n-kim.github.io/collabvr-project-page)에서 확인할 수 있습니다.

댓글