RubricBench: 모델 생성 루브릭을 인간 기준에 맞추기

RubricBench는 대형 언어 모델(LLM)의 평가 기준인 루브릭(rubric) 기반 보상 모델의 신뢰성을 측정하기 위한 새로운 벤치마크입니다.

기존 평가 도구들이 갖지 못한 복잡한 판별력과 정확한 루브릭 주석을 보완하기 위해, 1,147개의 어려운 쌍별 비교 데이터를 전문가가 직접 주석한 원자적 루브릭과 함께 제공합니다.

주요 발견으로는 최신 모델들이 스스로 적절한 평가 기준을 설정하는 데 실패하며, 표면적 형식이나 길이 같은 부차적 요소에 집중하는 인지적 불일치 현상이 나타난다는 점이 있습니다.

이는 단순히 연산량을 늘리는 것으로 해결되지 않으며, 향후 연구는 모델이 인간의 평가 우선순위를 내재화하도록 하는 **루브릭 정렬(rubric alignment)**에 초점을 맞춰야 함을 시사합니다.

댓글