SocialOmni: 옴니 모델에서 오디오-비주얼 사회적 상호작용 벤치마킹
SocialOmni은 옴니모달 대형 언어 모델(OLMs)의 사회적 상호작용 능력을 평가하기 위한 새로운 벤치마크입니다.
이 벤치마크는 화자 식별, 적절한 끼어들기 시점 결정, 자연스러운 끼어들기 생성의 세 가지 핵심 요소를 중심으로 모델의 대화 능력을 측정합니다.
총 2,000개의 인지 샘플과 209개의 엄격한 시간 및 문맥 제약을 갖춘 진단 세트를 포함하며, 오디오-비주얼 불일치 상황을 통해 모델의 견고성도 평가합니다.
12개의 주요 OLM을 테스트한 결과, 인지 정확도와 실제 대화에서의 사회적 적절성 사이에 큰 차이가 있음을 발견하여, 기존의 정확도 중심 평가가 대화 사회성 평가에 한계가 있음을 시사합니다.
이 연구는 향후 OLM이 인지와 상호작용 능력 간 격차를 해소하는 데 유용한 진단 신호를 제공하며, 관련 데이터셋과 코드도 공개되어 실용적 가치가 높습니다.
