Recovered in Translation: 벤치마크 및 데이터셋의 자동 번역을 위한 효율적인 파이프라인
자동화된 다국어 벤치마크 번역 프레임워크를 제안하여 기존 번역에서 발생하는 **의미 왜곡(semantic drift)**과 문맥 손실(context loss) 문제를 해결하였습니다.
테스트 시점 연산 확장(test-time compute scaling) 기법인 **Universal Self-Improvement(USI)**와 새롭게 제안된 T-RANK(다중 라운드 랭킹) 방식을 활용해 단일 번역보다 높은 품질의 번역 결과를 도출합니다.
이 프레임워크는 원본 벤치마크의 과제 구조와 언어적 뉘앙스를 유지하며, 우크라이나어, 불가리아어 등 8개 동남유럽 언어로 번역된 벤치마크를 공개하여 다국어 AI 평가의 신뢰성을 크게 향상시켰습니다.
평가 결과, 기존 번역 자원 대비 더 정확한 모델 성능 평가가 가능하며, LLM 기반 평가자도 본 연구 결과를 4:1 비율로 선호하는 것으로 나타났습니다.
