Video-CoE: 사건의 연쇄를 통한 비디오 이벤트 예측 강화
Video 이벤트 예측(Video Event Prediction, VEP) 분야에서 멀티모달 대형언어모델(MLLMs)의 한계를 극복하기 위해, 본 논문은 Chain of Events(CoE) 패러다임을 제안합니다.
이 방법은 시간적 이벤트 체인(event chains)을 구성하여 시각적 정보와 미래 이벤트 간의 논리적 연결을 강화하고, 이를 통해 모델의 논리적 추론 능력과 시간적 모델링을 개선합니다.
또한, 여러 훈련 프로토콜을 도입하여 모델이 영상 내 사건들을 더 정교하게 이해하고 예측할 수 있도록 하였습니다.
공개 벤치마크 실험에서 제안한 방법은 기존의 오픈소스 및 상용 MLLM들을 능가하는 성능을 보여, VEP 분야의 새로운 최첨단 성과를 달성하였습니다.
향후 코드와 모델이 공개될 예정이므로, 개발자와 연구자들이 실용적으로 활용할 수 있을 것으로 기대됩니다.
