화면상의 튜링 테스트: 모바일 GUI 에이전트 인간화 벤치마크
모바일 GUI 에이전트가 디지털 플랫폼의 탐지를 피하기 위해서는 단순한 작업 수행 능력뿐만 아니라 인간화 능력이 필수적입니다.
연구진은 이를 위해 에이전트와 탐지기 간의 상호작용을 MinMax 최적화 문제로 모델링한 'Turing Test on Screen' 벤치마크를 제안했습니다.
새로운 고해상도 모바일 터치 동작 데이터셋을 수집하여, 기존 LMM 기반 에이전트가 비자연스러운 동작으로 쉽게 탐지됨을 확인했습니다.
이에 따라 Agent Humanization Benchmark (AHB)와 탐지 지표를 도입해 에이전트의 모방 가능성과 작업 효용 간의 균형을 정량화했습니다.
또한, 휴리스틱 노이즈 삽입부터 이론적 모방성 최적화까지 다양한 방법을 제안하여 인간화 수준을 높이면서도 성능 저하를 최소화했습니다.
이 연구는 에이전트가 단순히 임무를 수행하는 것을 넘어, 인간 중심 생태계에서 자연스럽게 공존할 수 있는 기반을 마련했습니다.
결론적으로, 디지털 환경에서 자율 GUI 에이전트의 생존과 효율적 작동을 위해 인간화 능력 평가와 개선이 중요한 새로운 연구 방향임을 제시했습니다.
