EVA: 엔드 투 엔드 비디오 에이전트를 위한 효율적인 강화 학습
EVA는 비디오 이해 분야에서 효율적인 강화학습 프레임워크로, 반복적인 요약-계획-행동-반성 과정을 통해 적응적 추론을 수행합니다.
기존의 멀티모달 대형언어모델(MLLM)이 전체 영상이나 균일 샘플링된 프레임을 처리하는 수동적 인식 방식과 달리, EVA는 무엇을, 언제, 어떻게 볼지 스스로 결정하여 쿼리 기반의 효율적인 영상 이해를 가능하게 합니다.
학습은 지도 미세조정(SFT), Kahneman-Tversky 최적화(KTO), 그리고 일반화 보상 정책 최적화(GRPO)의 3단계 파이프라인으로 구성되어, 지도학습과 강화학습을 효과적으로 연결합니다.
여섯 개의 벤치마크에서 EVA는 기존 MLLM 대비 6~12% 성능 향상과 이전 적응형 에이전트 대비 1~3% 추가 개선을 달성하여, 장기 영상 처리에 있어 뛰어난 실용적 가치를 입증하였습니다.
코드와 모델은 공개되어 있어 연구 및 개발에 활용 가능하다는 점도 주목할 만합니다.
