CUA-Suite: 컴퓨터 사용 에이전트를 위한 대규모 인간 주석 비디오 시연

CUA-Suite는 데스크톱 자동화 에이전트를 위한 대규모 전문가 비디오 시연과 상세한 주석 데이터셋을 제공합니다.

핵심인 VideoCUA는 87개 애플리케이션에서 약 10,000개의 작업을 30fps 연속 화면 녹화와 정밀한 커서 움직임, 다층적 추론 주석과 함께 약 55시간 분량, 600만 프레임으로 기록하여 기존 스크린샷 기반 데이터셋의 한계를 극복합니다.

또한, UI-Vision 벤치마크와 56,000개 스크린샷 및 360만 개 이상의 UI 요소 주석을 포함한 GroundCUA 데이터셋을 제공해 에이전트의 환경 인식과 행동 계획 능력 평가를 지원합니다.

이 데이터셋은 연속적 공간 제어, 화면 파싱, 비디오 기반 보상 모델링, 시각적 세계 모델 연구 등 다양한 멀티모달 AI 연구에 활용 가능하며, 모든 데이터와 모델은 공개되어 있습니다.

댓글