KnowRL: 최소-충분 지식 안내를 통한 강화 학습으로 LLM 추론 향상
KnowRL은 대규모 언어 모델의 추론 능력을 강화하는 새로운 강화학습 프레임워크입니다.
기존 강화학습은 어려운 문제에서 보상 희소성 문제로 성능이 제한되는 경우가 많았습니다.
KnowRL은 최소한의 필수 지식 포인트(knowledge points)를 찾아내는 제약된 부분집합 탐색 방식을 도입해, 중복과 비일관성을 줄이고 효율적인 학습을 가능하게 했습니다.
또한, 여러 지식 포인트를 제거할 때 발생하는 가지치기 상호작용 역설 문제를 해결하며, 견고한 부분집합 큐레이션을 수행합니다.
1.5B 파라미터 규모의 Nemotron 모델을 KnowRL로 훈련시킨 결과, 8개 추론 벤치마크에서 기존 강화학습 및 힌트 기반 방법을 모두 능가하는 성과를 보였습니다.
힌트 없이도 평균 정확도 70.08%를 기록해 기존 모델 대비 9.63%p 향상되었고, 선택된 지식 포인트와 함께 사용 시 74.16%로 새로운 최고 기록을 세웠습니다.
코드와 모델, 큐레이션된 데이터는 공개되어 있어 연구 및 개발에 활용할 수 있습니다.
KnowRL은 최소한의 핵심 지식으로 효율적이고 강력한 추론 성능을 달성하는 혁신적인 강화학습 접근법임을 입증했습니다.
