보완적 강화 학습

Complementary Reinforcement Learning은 경험 추출기와 정책 행위자(Policy Actor)를 동시에 발전시키는 새로운 강화학습(RL) 방법론입니다.

기존 RL은 희소한 보상과 에피소드 간 경험 활용의 한계로 인해 샘플 효율성이 낮았으나, 본 연구는 두 구성요소가 상호 보완적으로 진화하도록 설계하여 경험과 정책이 일치하지 않는 문제를 해결합니다.

특히, 정책 행위자는 결과 기반 보상으로 최적화되고, 경험 추출기는 정책 성공에 기여하는 경험을 선별하며 함께 학습하여 효율적인 경험 관리 전략을 발전시킵니다.

실험 결과, 단일 작업에서 약 10% 성능 향상을 보였으며, 다중 작업 환경에서도 견고한 확장성을 입증하여 경험 주도형 에이전트 학습의 새로운 패러다임을 제시합니다.

댓글