OmniForcing: 실시간 공동 오디오-비주얼 생성 해방

OmniForcing는 기존의 오디오-비주얼 양방향 확산 모델을 실시간 스트리밍이 가능한 자기회귀 생성기로 증류한 최초의 프레임워크입니다.

기존 모델들이 가진 높은 지연 시간과 동기화 문제를 비대칭 블록-인과 정렬, 오디오 싱크 토큰 및 정체성 RoPE 제약 등의 혁신적 기법으로 해결하여 안정적인 훈련과 멀티모달 동기화를 보장합니다.

또한, 자기강제 증류 방식을 통해 장시간 생성 시 누적되는 오류를 동적으로 보정하며, 모달 독립 롤링 KV-캐시 추론 기법으로 단일 GPU에서 약 25FPS의 실시간 생성 속도를 달성합니다.

이 기술은 텍스트 기반의 실시간 오디오-비주얼 생성에 적합하며, 기존 오프라인 처리 대비 약 35배 빠른 속도를 제공하면서도 시각 및 음향 품질을 유지하는 실용적 가치를 지닙니다.

댓글