SpecEyes: 추측적 인식 및 계획을 통한 행위자형 멀티모달 LLM 가속화
SpecEyes는 에이전트형 멀티모달 대형 언어 모델(MLLMs)의 처리 속도를 높이기 위한 추측적 계획(speculative planning) 프레임워크입니다.
기존의 순차적 도구 호출 과정에서 발생하는 높은 지연 시간과 낮은 동시 처리율 문제를, 경량 추측 플래너와 인지 게이팅(cognitive gating) 메커니즘을 통해 해결합니다.
이 플래너는 도구 사용 경로를 미리 예측하여 불필요한 도구 호출을 조기에 종료할 수 있게 하며, 이질적 병렬 처리(heterogeneous parallel funnel)를 활용해 작은 모델의 상태 비의존적 동시성을 이용, 전체 시스템 처리량을 극대화합니다.
실험 결과, SpecEyes는 기존 에이전트 모델 대비 최대 3.35배 빠른 처리 속도와 최대 6.7% 향상된 정확도를 달성하여, 실제 동시 작업 환경에서 효율성과 성능을 모두 개선함을 입증하였습니다.
