Nemotron-Cascade 2: 캐스케이드 RL 및 다중 도메인 온-정책 증류를 통한 사후 학습 LLM

https://huggingface.co/papers/2603.19220

Nemotron-Cascade 2는 30억 활성 파라미터를 가진 300억 파라미터 규모의 Mixture-of-Experts(MoE) 모델로, 소형 모델임에도 불구하고 최첨단 공개 모델과 견줄 만한 뛰어난 추론 능력과 에이전트 역량을 보여줍니다.

특히, 2025년 국제수학올림피아드(IMO), 국제정보올림피아드(IOI), ICPC 월드파이널에서 금메달 수준의 성능을 달성하며, 기존 모델 대비 20배 적은 파라미터로 높은 지능 밀도를 입증하였습니다.

기술적으로는 엄선된 데이터셋으로 사전 학습(SFT) 후, Cascade 강화학습(RL)을 광범위한 추론 및 에이전트 도메인에 적용하고, 각 도메인별로 최강의 중간 교사 모델을 활용한 다중 도메인 온-정책 증류(on-policy distillation) 기법을 도입하여 성능 저하 없이 지속적인 향상을 달성하였습니다.

모델 체크포인트와 학습 데이터도 공개되어, 연구자와 개발자가 직접 활용할 수 있는 실용적 가치를 제공합니다.

Nemotron-Cascade 2: 캐스케이드 RL 및 다중 도메인 온-정책 증류를 통한 사후 학습 LLM

댓글