더 빠르게: 실시간 플로우 VLA 재고찰

https://huggingface.co/papers/2603.19199

FASTER는 Vision-Language-Action(VLA) 모델의 실시간 반응 지연을 획기적으로 줄이기 위해 제안된 기술입니다.

기존의 비동기 추론 방식이 궤적의 부드러움에만 집중하는 반면, FASTER는 반응 시간(reaction time)을 결정하는 핵심 요소인 첫 행동까지의 시간(Time to First Action, TTFA)과 실행 지평선(execution horizon)을 분석하여, 즉각적인 행동에 우선순위를 두는 지평선 인지 스케줄(Horizon-Aware Schedule)을 도입하였습니다.

이를 통해 즉각 반응에 필요한 디노이징(denoising) 과정을 10배 이상 압축하여, 빠른 동작 생성이 가능해졌으며, 긴 궤적의 품질도 유지합니다.

소비자용 GPU에서도 실시간 반응성을 크게 개선하여, 예를 들어 빠르게 변화하는 탁구 같은 동적 작업에서 뛰어난 성능을 입증하였습니다.

FASTER는 VLA 모델의 실시간 응답성과 효율성을 동시에 높이는 혁신적 접근법으로, 로봇 제어 및 실시간 인터랙션 분야에 실용적 가치를 제공합니다.

더 빠르게: 실시간 플로우 VLA 재고찰

댓글