SWE-rebench V2: 대규모 언어 독립 SWE 작업 모음
SWE-rebench V2는 여러 프로그래밍 언어와 저장소에 걸친 대규모 소프트웨어 엔지니어링(SWE) 작업 데이터셋을 자동화된 파이프라인으로 구축한 연구입니다.
이 파이프라인은 각 저장소별 설치 및 테스트 절차를 자동으로 생성하고, 대형 언어 모델(LLM) 평가자를 활용해 신뢰할 수 없는 작업을 필터링하여 재현 가능한 실행 환경을 제공합니다.
총 20개 언어, 3,600개 이상의 저장소에서 32,000개 이상의 작업과 120,000개 이상의 추가 작업 데이터를 포함하며, 이는 강화학습(RL) 기반 SWE 에이전트 훈련에 필요한 다양하고 방대한 학습 자원을 제공합니다.
연구진은 다섯 개 언어와 여러 모델을 대상으로 진단 연구를 수행해 데이터 품질을 검증하고, 과도한 테스트 제한이나 불충분한 설명 등 문제점을 메타데이터로 표시하여 실용성을 높였습니다.
데이터셋과 수집·실행 코드를 공개하여 다양한 언어와 저장소에서 SWE 에이전트의 대규모 학습을 지원하는 실용적 가치를 갖고 있습니다.
