ProactiveBench: 다중 모달 대형 언어 모델의 능동성 벤치마킹

https://huggingface.co/papers/2603.19466

ProactiveBench는 멀티모달 대형 언어 모델(MLLMs)이 어려운 시각적 과제에서 사용자에게 적극적으로 도움을 요청하는 능력을 평가하기 위한 벤치마크입니다. 7개의 재구성된 데이터셋을 활용해 가려진 객체 인식, 이미지 품질 개선, 스케치 해석 등 다양한 상황에서 모델의 능동적 개입 능력을 시험합니다. 22개의 MLLM 평가 결과, 모델들은 전반적으로 적극성이 부족하며, 모델 크기나 대화 맥락, 인컨텍스트 학습이 성능 향상에 큰 영향을 미치지 않는 것으로 나타났습니다. 다만, 강화학습 기반 파인튜닝을 통해 적극성을 학습할 수 있으며, 이는 미처 학습하지 않은 상황에도 일반화되는 가능성을 보여줍니다. ProactiveBench는 협력적이고 능동적인 멀티모달 모델 개발을 위한 첫걸음으로 공개되었습니다.

ProactiveBench: 다중 모달 대형 언어 모델의 능동성 벤치마킹

댓글