19시간 전

추론 모델은 자신의 사고 과정을 제어하는 데 어려움을 겪는다

https://huggingface.co/papers/2603.05706

0

Chain-of-thought(사고 과정) 제어능력을 평가하기 위해 새롭게 제안된 CoT-Control 평가 도구는 모델이 특정 사고 과정 지침을 준수하며 문제를 해결할 수 있는지를 측정합니다. 연구 결과, 추론 모델은 최종 출력 제어에 비해 사고 과정 제어 능력이 현저히 낮으며, 모델 크기가 커질수록 제어 능력이 다소 향상되지만, 강화학습(RL) 훈련, 테스트 시 계산량 증가, 문제 난이도 상승 시에는 오히려 제어 능력이 감소하는 경향을 보였습니다. 또한, 모델이 모니터링을 인지하거나 적대적 프롬프트를 적용해도 사고 과정 제어 능력은 크게 개선되지 않았습니다. 이 연구는 현재로서는 사고 과정 제어 능력 부족이 모니터링 실패로 이어질 가능성이 낮다고 평가하며, 향후 최첨단 모델 개발 시 이 지표를 지속적으로 추적할 것을 권고합니다.

추론 모델은 자신의 사고 과정을 제어하는 데 어려움을 겪는다

댓글