ProactiveBench: 다중 모달 대형 언어 모델의 능동성 벤치마킹
ProactiveBench는 멀티모달 대형 언어 모델(MLLMs)이 어려운 시각적 과제에서 사용자에게 적극적으로 도움을 요청하는 능력을 평가하기 위한 벤치마크입니다. 7개의 재구성된 데이터셋을 활용해 가려진 객체 인식, 이미지 품질 개선, 스케치 해석 등 다양한 상황에서 모델의 능동적 개입 능력을 시험합니다. 22개의 MLLM 평가 결과, 모델들은 전반적으로 적극성이 부족하며, 모델 크기나 대화 맥락, 인컨텍스트 학습이 성능 향상에 큰 영향을 미치지 않는 것으로 나타났습니다. 다만, 강화학습 기반 파인튜닝을 통해 적극성을 학습할 수 있으며, 이는 미처 학습하지 않은 상황에도 일반화되는 가능성을 보여줍니다. ProactiveBench는 협력적이고 능동적인 멀티모달 모델 개발을 위한 첫걸음으로 공개되었습니다.
