UI-Voyager: 실패한 경험을 통해 학습하는 자기 진화 GUI 에이전트
UI-Voyager는 모바일 GUI 자동화를 위한 자기진화형 에이전트로, 실패 경험을 학습에 적극 활용하는 두 단계 학습 방식을 제안합니다.
첫 번째 단계인 거부 미세조정(Rejection Fine-Tuning, RFT)은 데이터와 모델이 자율적으로 함께 발전하는 루프를 형성하여 학습 효율을 높입니다.
두 번째 단계인 그룹 상대 자기증류(Group Relative Self-Distillation, GRSD)는 그룹 내 여러 실행 경로에서 중요한 갈림점(fork point)을 찾아내어 성공 경로의 세밀한 단계별 감독 신호로 실패 경로를 교정합니다.
이 방법은 AndroidWorld 환경에서 4억 파라미터 모델이 81.0% 성공률을 기록하며 기존 기법과 인간 수준을 뛰어넘는 성능을 입증하였습니다.
따라서 UI-Voyager는 고비용의 수작업 데이터 라벨링 없이도 효율적이고 고성능의 모바일 GUI 자동화를 가능하게 하는 혁신적인 접근법입니다.
