강화 학습에서 그룹 수준 자연어 피드백을 통한 부트스트래핑 탐색

GOLF는 강화학습에서 자연어 피드백을 그룹 단위로 활용하여 탐색 효율과 샘플 활용도를 크게 향상시키는 프레임워크입니다.

기존 강화학습이 단일 스칼라 보상에만 의존하는 반면, GOLF는 외부 비판과 그룹 내 다양한 시도라는 두 가지 상호보완적 피드백을 통합해 고품질의 행동 수정안을 생성합니다.

이 수정안들은 보상이 희박한 구간에서 훈련에 적응적으로 투입되어 목표 지향적 탐색을 돕고, 생성과 수정 과정을 통합된 강화학습 루프 내에서 공동 최적화하여 지속적인 성능 향상을 이끕니다.

실험 결과, GOLF는 기존 스칼라 보상 기반 강화학습 대비 약 2.2배 높은 샘플 효율성과 우수한 탐색 성능을 보였으며, 코드도 공개되어 실용적 활용이 가능합니다.

댓글