비전-언어 모델이 셸 게임을 해결할 수 있을까?
비전-언어 모델(Vision-Language Models, VLMs)은 정적인 프레임 특징에 과도하게 의존해 시각적 객체 추적에서 낮은 성능을 보입니다.
본 연구는 VET-Bench라는 합성 진단 테스트베드를 도입하여, 시공간적 연속성만으로 구별 가능한 시각적으로 동일한 객체를 추적하는 문제를 다룹니다.
기존의 트랜스포머 기반 VLMs는 중간 감독 없이 동일한 객체를 추적하는 데 표현력 한계가 있음을 이론적으로 증명하였고, 이를 극복하기 위해 Spatiotemporal Grounded Chain-of-Thought (SGCoT) 방식을 제안하여 객체 궤적을 중간 상태로 생성합니다.
이 방법은 Molmo2의 객체 추적 능력을 활용해 텍스트 기반 합성 데이터로 미세 조정함으로써, VET-Bench에서 90% 이상의 정확도를 달성하며 영상 셸 게임 문제를 외부 도구 없이 종단 간으로 해결할 수 있음을 입증하였습니다.
코드와 데이터는 공개되어 있어, 시각-언어 모델의 시공간적 추적 능력 향상에 실용적 가치를 제공합니다.
