Generation Models Know Space: 장면 이해를 위한 암묵적 3D 사전 지식 활용
VEGA-3D는 비디오 확산 모델(video diffusion model)을 활용해 암묵적 3D 구조적 사전지식(3D structural priors)과 물리 법칙(physical laws)을 대규모 멀티모달 대형 언어 모델(MLLMs)에 통합하는 혁신적 프레임워크입니다.
기존의 3D 정보 활용법이 명시적 3D 데이터나 복잡한 기하학적 구조에 의존하는 반면, VEGA-3D는 비디오 생성 모델이 자연스럽게 학습하는 시공간적 특징(spatiotemporal features)을 중간 노이즈 단계에서 추출하여, 토큰 수준 적응 게이트 융합(token-level adaptive gated fusion) 기법으로 의미 표현과 결합합니다.
이를 통해 명시적 3D 감독 없이도 밀도 높은 기하학적 정보를 MLLM에 제공하며, 3D 장면 이해, 공간 추론, 그리고 실제 조작(embodied manipulation) 과제에서 최첨단 성능을 입증하였습니다.
본 연구는 생성 모델의 사전지식(generative priors)이 물리적 세계 이해를 위한 확장 가능하고 강력한 기반임을 제시하며, 관련 코드는 공개되어 실용적 활용이 가능합니다.
