중요한 곳을 보라: 효율적인 VLM을 위한 고해상도 크롭 검색
AwaRes는 비전-언어 모델(VLMs)의 정확도와 효율성 간의 균형 문제를 해결하는 공간 온디맨드 프레임워크입니다.
기본적으로 저해상도 전역 이미지를 사용하면서, 툴 호출(tool-calling) 기법을 통해 쿼리에 필요한 고해상도 이미지 부분만 동적으로 선택하여 처리합니다.
이를 위해 저해상도와 고해상도 답변을 비교하는 자동화된 감독 데이터와, 정답 근거를 위치시키는 오라클 그라운딩 모델을 활용해 다중 단계의 도구 사용 경로를 학습합니다.
훈련은 콜드 스타트 SFT와 다중 턴 GRPO를 복합 보상 함수(정답 정확도와 크롭 비용 페널티 결합)로 수행하여, 제한된 연산 자원 내에서 세밀한 시각적 추론을 가능하게 합니다.
이 방법은 실제 배포에 적합한 고해상도 이미지 처리 효율화를 제시하여, VLM의 실용적 활용도를 높입니다.
