대형 언어 모델의 온폴리시 증류 재고: 현상학, 메커니즘, 그리고 방법론
대규모 언어 모델의 온-폴리시 증류(On-policy distillation, OPD) 동작 원리가 새롭게 조명되었습니다.
연구진은 OPD의 성공 여부가 교사 모델과 학생 모델 간의 사고 패턴 호환성에 달려 있음을 밝혔습니다.
또한, 교사 모델은 학생이 학습한 데이터 범위를 넘어서는 새로운 능력을 제공해야 OPD가 효과적임을 확인했습니다.
토큰 수준 분석 결과, OPD 성공은 학생이 방문한 상태에서 고확률 토큰에 대한 점진적 정렬로 특징지어졌습니다.
실패하는 OPD를 회복하기 위한 실용적 전략으로는 오프-폴리시 콜드 스타트와 교사 정렬 프롬프트 선택이 제안되었습니다.
하지만 OPD가 제공하는 밀집 토큰 수준 보상은 비용을 수반하며, 장기 증류 확장 가능성에 대한 의문도 제기되었습니다.
이번 연구는 OPD의 메커니즘을 체계적으로 규명하고, 실무 적용을 위한 가이드라인을 제시했다는 점에서 의미가 큽니다.
결론적으로, OPD의 성공적 활용을 위해서는 모델 간 사고 호환성과 교사의 혁신적 능력 제공이 필수적임을 알 수 있습니다.
