비디오 스트리밍 사고: VideoLLMs는 동시에 보고 생각할 수 있다
Video Streaming Thinking (VST)은 실시간 영상 재생 중에 대규모 언어 모델(LLM)이 동시에 영상을 시청하고 논리적 추론을 수행할 수 있도록 하는 혁신적인 스트리밍 영상 이해 패러다임입니다.
기존의 영상 LLM은 질문이 들어온 후에야 추론을 시작해 응답 지연과 일관성 저하 문제가 있었으나, VST는 영상 스트리밍 중에 원인과 증거를 실시간으로 연결하며 사전 준비된 상태로 즉각적인 응답을 가능하게 합니다.
또한, VST-SFT와 VST-RL이라는 후처리 학습 파이프라인을 통해 오프라인 모델을 인과적 스트리밍 추론에 맞게 구조적으로 조정하고, 다중 상호작용 환경에서 자기 탐색을 통한 성능 향상을 도모합니다.
자동화된 학습 데이터 생성 과정에서는 비디오 지식 그래프와 Chain-of-Thought 기법을 활용해 다중 증거 추론과 지속적인 영상 집중을 강화하였습니다.
실험 결과, VST-7B 모델은 온라인 벤치마크에서 높은 정확도와 함께 기존 대비 15배 이상 빠른 응답 속도를 보여, 실시간 영상 이해 및 추론 분야에서 뛰어난 효율성과 범용성을 입증하였습니다.
