SPPO: 장기 추론 작업을 위한 시퀀스 수준 PPO

긴 사유 과제를 위한 강화학습에서 기존 PPO의 불안정성과 GRPO의 높은 계산 비용 문제를 해결하는 새로운 알고리즘, SPPO(Sequence-Level PPO)가 제안되었습니다.

기존의 토큰 단위 PPO는 긴 체인 오브 생각(Chain-of-Thought)에서 보상 신호의 희소성과 위치 의존성 문제로 불안정성을 겪었습니다.

GRPO는 그룹 기반 다중 샘플링으로 이를 완화하지만, 다수 샘플 요구로 인해 학습 속도가 크게 저하되는 단점이 있었습니다.

SPPO는 전체 추론 시퀀스를 하나의 행동으로 간주하는 Sequence-Level Contextual Bandit 문제로 재구성하여 단일 샘플로 안정적인 업데이트가 가능하도록 설계되었습니다.

또한, SPPO는 decoupled scalar value function을 도입해 저분산의 어드밴티지 신호를 효율적으로 산출하며, VRAM 사용량을 줄이고 7B 모델에도 1.5B 크리틱을 성공적으로 적용했습니다.

수학 벤치마크(AIME24/25, AMC23, MATH500, Minerva Math)와 고전 제어 과제에서 SPPO는 기존 PPO를 능가하고 GRPO와 동등한 성능을 보이면서도 5.9배 빠른 학습 속도를 기록했습니다.

이로써 SPPO는 긴 사유가 필요한 대형 언어 모델의 정렬 문제에 대해 자원 효율적이고 안정적인 강화학습 프레임워크를 제공하는 중요한 진전을 이뤘습니다.

댓글