EnterpriseOps-Gym: 엔터프라이즈 환경에서 상태 기반 에이전트 계획 및 도구 사용을 위한 환경 및 평가
EnterpriseOps-Gym은 현실적인 기업 환경에서 상태 기반 계획(stateful planning)과 도구 활용(tool use) 능력을 평가하기 위한 벤치마크입니다.
이 벤치마크는 164개의 데이터베이스 테이블과 512개의 기능 도구를 포함하는 컨테이너화된 샌드박스를 제공하며, 고객 서비스, 인사, IT 등 8개 핵심 분야에서 1,150개의 전문가 큐레이션 과제를 수행합니다.
14개의 최신 대형 언어 모델(LLM)을 평가한 결과, 최고 성능 모델도 성공률이 37.4%에 불과해, 장기 계획(long-horizon planning)과 정책 준수(policy adherence)가 신뢰할 수 있는 AI 업무 자동화의 주요 장애물임을 확인했습니다.
또한, 인간 전문가의 계획을 제공할 경우 성능이 14~35% 향상되어, 전략적 추론 능력이 핵심 병목임을 시사하며, 불가능한 작업을 거부하는 능력도 부족해 잠재적 위험이 존재함을 보여줍니다.
EnterpriseOps-Gym은 전문 업무 흐름에서 에이전트 계획의 견고성을 높이기 위한 실질적 테스트베드로서 의미가 큽니다.
