언어 모델링을 넘어서: 멀티모달 사전학습 탐구
멀티모달 사전학습을 주제로 한 본 논문은 언어 모델링을 넘어 시각 정보를 통합하는 기초 모델 발전을 탐구합니다.
Transfusion 프레임워크를 활용해 텍스트, 비디오, 이미지-텍스트 쌍, 행동 조건 비디오 등 다양한 데이터를 대상으로 언어는 다음 토큰 예측, 시각은 확산 모델로 학습을 진행하였습니다.
주요 발견으로는 (1) **Representation Autoencoder(RAE)**가 시각 이해와 생성 모두에서 최적의 통합 시각 표현을 제공하고, (2) 시각과 언어 데이터가 상호보완적이며 시너지 효과를 낸다는 점, (3) 통합 멀티모달 사전학습이 자연스럽게 세계 모델링(world modeling) 능력을 유도하며, (4) Mixture-of-Experts(MoE) 아키텍처가 효율적 확장과 모달리티 특화에 효과적임을 확인하였습니다.
또한, IsoFLOP 분석을 통해 시각과 언어 모달리티 간 확장 법칙의 비대칭성을 밝혀, 시각 정보가 멀티모달 모델 확장에 더 큰 영향을 미침을 제시합니다.
이 연구는 멀티모달 모델 설계와 확장에 대한 실험적 통찰을 제공하여, 차세대 기초 AI 모델 개발에 실용적 가치를 갖습니다.
