불확실성 속에서 사고하기: 잠재 엔트로피 인식 디코딩을 통한 MLRM의 환각 완화
멀티모달 대규모 추론 모델(MLRMs)의 환각 현상(hallucinations) 문제를 줄이기 위해, 잠재 엔트로피 인지 디코딩(LEAD) 기법이 제안되었습니다.
LEAD는 엔트로피 기반 추론 모드 전환과 사전 안내 시각 앵커 주입을 활용하여, 높은 불확실성 상태에서는 확률 가중 연속 임베딩을 사용하고, 불확실성이 낮아지면 이산 토큰 임베딩으로 전환하는 방식을 적용합니다.
또한, 토큰 확률 분포에서 풍부한 의미 표현을 구성해 문맥 내 추론을 강화하며, 시각 정보를 효과적으로 활용하도록 유도합니다.
다양한 벤치마크에서 LEAD는 MLRMs의 환각 현상을 효과적으로 완화하는 실용적 가치를 입증하였습니다.
