AI
8시간 전
0
AgentVista는 멀티모달 에이전트의 장기적이고 복합적인 도구 사용 능력을 평가하기 위한 종합적인 벤치마크입니다.
이 벤치마크는 7개 카테고리, 25개 하위 도메인에 걸쳐 현실적이고 세밀한 시각 시나리오와 웹 검색, 이미지 검색, 페이지 탐색, 코드 기반 이미지 처리 및 프로그래밍 같은 하이브리드 도구 사용을 요구하는 과제를 포함합니다.
기존 벤치마크가 단일 턴의 시각 추론이나 특정 도구 기능에 집중한 반면, AgentVista는 실제 환경에서 필요한 장기적이고 다중 모달 도구 활용을 중점적으로 다룹니다.
최신 모델들도 장기 멀티모달 도구 사용에서 성능 한계를 보이며, 최고 성능 모델조차도 전체 정확도가 27.3%에 불과해 개선의 여지가 큽니다.
AgentVista는 현실적이고 도전적인 문제 해결을 위한 더 강력하고 신뢰성 있는 멀티모달 에이전트 개발을 촉진할 것으로 기대됩니다.