이기종 에이전트 협력 강화 학습
**Heterogeneous Agent Collaborative Reinforcement Learning(HACRL)**은 서로 다른 특성을 가진 이기종 에이전트들이 학습 과정에서 검증된 롤아웃(rollout) 데이터를 공유하여 공동으로 성능을 향상시키는 새로운 강화학습 패러다임입니다.
이 방식은 학습 시에는 협력하지만, 추론 시에는 각 에이전트가 독립적으로 동작할 수 있도록 설계되어, 기존의 다중 에이전트 강화학습(MARL)과 달리 협력적 최적화와 독립적 실행을 동시에 달성합니다.
이를 기반으로 제안된 HACPO 알고리즘은 샘플 활용도를 극대화하고 에이전트 간 지식 전이를 촉진하며, 능력 차이와 정책 분포 변화 문제를 해결하는 네 가지 메커니즘을 포함해 이론적 보장을 제공합니다.
다양한 이기종 모델과 벤치마크 실험에서 HACPO는 기존 GSPO 대비 절반의 롤아웃 비용으로 평균 3.3% 이상의 성능 향상을 입증하였습니다.
이 연구는 협력적 강화학습의 효율성과 실용성을 크게 높여, 복잡한 다중 에이전트 시스템 개발에 유용한 기술적 진전을 제시합니다.
