길이 확장을 넘어서: 생성 보상 모델을 위한 폭과 깊이의 시너지 효과
**Generative Reward Models(GRMs)**의 평가 성능 향상을 위해, 단순히 Chain-of-Thought(CoT) 추론 길이 확장에만 의존하는 기존 접근법의 한계를 지적하고, **폭(Breadth-CoT)**과 깊이(Depth-CoT) 두 가지 구조적 추론 방식을 결합하는 Mix-GRM 프레임워크를 제안하였습니다.
이 프레임워크는 모듈식 합성 파이프라인을 통해 원시 추론을 구조화하고, **지도 미세조정(SFT)**과 **검증 가능한 보상을 활용한 강화학습(RLVR)**으로 최적화하여, 주관적 선호 평가에는 폭 기반 추론을, 객관적 정확성 평가에는 깊이 기반 추론을 효과적으로 적용합니다.
실험 결과, Mix-GRM은 다섯 개 벤치마크에서 기존 최첨단 공개 모델 대비 평균 8.2% 우수한 성능을 보였으며, RLVR이 모델 내 추론 방식 선택을 자율적으로 조절하는 현상을 발견하여 효율성과 적응성을 크게 향상시켰습니다.
해당 연구는 평가 작업의 특성에 맞는 추론 구조 설계의 중요성을 강조하며, 실용적이고 계산 효율적인 GRM 개발에 기여할 것으로 기대됩니다.
연구 데이터와 모델, 코드는 공개 저장소에서 확인 가능합니다.
