왜 자기 증류(Self-Distillation)가 (때때로) LLM의 추론 능력을 저하시킬까?
자기 증류(self-distillation)는 대형 언어 모델(LLM)의 후처리 학습 기법으로, 추론 과정의 길이를 줄이고 성능을 향상시키는 데 사용됩니다.
그러나 본 연구는 자기 증류가 특히 수학적 추론 능력을 저하시킬 수 있음을 발견하였으며, 이는 모델이 추론 중 자신의 불확실성을 표현하는 인식적 언어화(epistemic verbalization)를 억제하기 때문임을 밝혔습니다.
풍부한 정보로 교사 모델을 조건화하면 불확실성 표현이 줄어들어 도메인 내 최적화는 빨라지지만, 분포 밖(out-of-distribution, OOD) 문제에 대한 대응력은 크게 떨어집니다.
실험 결과, 여러 모델에서 최대 40%까지 성능 하락이 관찰되었으며, 이는 단순히 정답 추론 강화가 아닌 적절한 불확실성 노출이 견고한 추론에 필수적임을 시사합니다.
본 연구는 자기 증류 과정에서 불확실성 표현의 균형을 맞추는 것이 LLM의 추론 능력 유지와 향상에 중요하다는 점을 강조합니다.
