Astrolabe: 증류된 자기회귀 비디오 모델을 위한 전진 조향-프로세스 강화 학습
Astrolabe는 증류된 자기회귀(autoregressive) 비디오 모델을 위한 효율적인 온라인 강화학습(RL) 프레임워크로, 생성 품질을 향상시키기 위해 순방향 프로세스 강화학습과 스트리밍 훈련을 도입하였습니다.
기존 RL 방식이 역방향 최적화에 높은 메모리와 계산 비용을 요구하는 문제를 해결하기 위해, 양성 및 음성 샘플을 추론 시점에서 직접 대조하는 부정 인지 미세조정(negative-aware fine-tuning) 방식을 적용하여 암묵적인 정책 개선 방향을 제시합니다.
또한, 긴 비디오에 대응하기 위해 롤링 KV-cache 기반의 스트리밍 훈련을 통해 국소 클립 윈도우에만 RL 업데이트를 수행하면서도 이전 문맥을 활용해 장기 일관성을 유지합니다.
마지막으로, 다중 보상 목표(multi-reward objective)와 불확실성 인지 선택적 정규화(uncertainty-aware selective regularization), 동적 참조 정책 업데이트를 결합하여 보상 해킹 문제를 완화하고, 다양한 증류 AR 비디오 모델에서 생성 품질을 안정적으로 개선하는 실용적이고 확장 가능한 정렬 솔루션을 제안합니다.
