BeyondSWE: 현재 코드 에이전트가 단일 저장소 버그 수정 이상의 작업을 수행할 수 있을까?
BeyondSWE는 기존 코드 에이전트 벤치마크가 단일 저장소 내 버그 수정에만 집중하는 한계를 극복하고자, 교차 저장소 추론, 도메인 특화 과학 코딩, 의존성 마이그레이션, 사양 기반 전체 저장소 생성 등 4가지 실제적이고 복잡한 과제를 포함한 500개의 실제 사례로 평가를 확장한 종합 벤치마크입니다. 실험 결과, 최첨단 모델들도 성공률이 45%를 넘지 못하며, 모든 과제 유형에서 일관되게 우수한 모델은 없음을 확인하였습니다. 또한, SearchSWE라는 프레임워크를 통해 웹 검색을 코드 에이전트에 통합하는 시도를 하였으나, 검색이 항상 성능 향상으로 이어지지 않고 오히려 악영향을 주는 경우도 있어, 검색과 코딩 능력의 통합이 여전히 해결해야 할 과제임을 보여주었습니다. 이 연구는 현실적인 난이도의 평가 기준과 유연한 실험 환경을 제공하여, 보다 진보된 코드 에이전트 개발 연구에 중요한 기반을 마련하였습니다.
