균형 잡힌 사고를 통한 효율적인 추론
ReBalance는 대형 추론 모델(LRMs)의 과도한 사고(Overthinking)와 부족한 사고(Underthinking) 문제를 조절하는 훈련이 필요 없는 프레임워크입니다.
이 방법은 모델의 신뢰도(confidence) 변화를 실시간으로 감지하여, 과도한 사고 시 불필요한 계산을 줄이고 부족한 사고 시 더 깊은 탐색을 유도하는 동적 조절 벡터(steering vector)를 활용합니다.
은닉 상태(hidden states)를 소규모 데이터셋에서 추출해 추론 모드 프로토타입(reasoning mode prototypes)을 만들고, 이를 기반으로 추론 경로(reasoning trajectories)를 효율적으로 안내합니다.
수십억 파라미터 규모 모델과 다양한 벤치마크(수학, 일반 질의응답, 코딩 등)에서 실험한 결과, ReBalance는 출력 중복을 줄이면서 정확도를 향상시키는 범용적이고 즉시 적용 가능한 솔루션임을 입증하였습니다.
코드는 공개되어 있어, 자원 제한 환경에서도 대형 추론 모델을 효율적이고 견고하게 운용하는 데 실용적 가치를 제공합니다.
