HopChain: 일반화 가능한 비전-언어 추론을 위한 다중 홉 데이터 합성
HopChain은 멀티홉 비전-언어 추론 데이터를 생성하는 확장 가능한 프레임워크로, VLM(비전-언어 모델)의 긴 체인 추론 능력을 향상시키기 위해 개발되었습니다.
이 프레임워크는 각 쿼리를 논리적으로 연결된 여러 단계의 홉으로 구성하여, 초기 홉에서 필요한 인스턴스나 조건을 설정하고 이후 홉에서 이를 기반으로 추론하도록 설계되었습니다.
특히, 각 쿼리는 명확한 수치형 답변으로 끝나며, 이는 검증 가능한 보상 학습에 적합합니다.
HopChain으로 합성된 데이터를 기존 RLVR 데이터와 결합해 Qwen3.5 모델을 훈련한 결과, 24개 다양한 벤치마크 중 20개에서 성능 향상을 확인하였고, 긴 체인 추론에서 특히 큰 효과를 보였습니다.
따라서, HopChain은 특정 벤치마크에 맞춘 데이터가 아닌, 긴 체인 시각-언어 추론의 핵심 능력을 체계적으로 강화하는 범용적이고 확장 가능한 데이터 합성 방법임을 입증하였습니다.
