확산 기반 이산 모션 토크나이저를 통한 의미론적 및 운동학적 조건의 연결
MoTok은 의미적 조건(semantic conditions)과 운동학적 조건(kinematic conditions)을 결합한 3단계 모션 생성 프레임워크를 제안합니다.
이 프레임워크는 조건 특징 추출(Perception), 이산 토큰 기반 계획(Planning), 그리고 확산 기반 모션 합성(Control)으로 구성되며, 핵심인 확산 기반 이산 모션 토크나이저(diffusion-based discrete motion tokenizer)가 의미적 추상화와 세밀한 재구성을 분리하여, 적은 토큰으로도 높은 모션 충실도를 유지합니다.
운동학적 제약은 계획 단계에서 거친 제약으로, 제어 단계에서는 확산 최적화를 통해 세밀하게 반영되어, 기존 방법 대비 토큰 사용량을 크게 줄이면서도 제어력과 충실도를 현저히 향상시켰습니다.
실험 결과, HumanML3D 데이터셋에서 궤적 오차와 FID 점수가 크게 개선되었으며, 강한 운동학적 제약 하에서도 성능 저하 없이 오히려 충실도가 향상되는 점이 특징입니다.
