UniG2U-Bench: 통합 모델이 멀티모달 이해를 발전시키는가?

통합 멀티모달 모델의 생성 능력은 뛰어나지만, 생성 과정이 이해력 향상으로 이어지는지는 명확하지 않습니다.

이를 분석하기 위해 UniG2U-Bench라는 벤치마크를 제안하였으며, 7가지 평가 체계와 30개의 세부 과제로 구성되어 다양한 시각 변환을 요구합니다.

30개 이상의 모델 평가 결과, 통합 모델은 기본 **비전-언어 모델(VLM)**에 비해 전반적인 성능이 낮고, 생성 후 답변하는 방식은 직접 추론보다 성능이 떨어지는 경향이 있습니다.

다만, 공간 지능, 시각 착시, 다중 단계 추론과 같은 특정 하위 과제에서는 공간 및 형태 인식 능력 향상과 중간 이미지 상태 활용이 긍정적인 영향을 미쳤습니다.

이 연구는 통합 멀티모달 모델의 잠재력을 완전히 발휘하기 위해서는 더 다양한 학습 데이터와 새로운 학습 패러다임이 필요함을 시사합니다.

댓글