단순함에 의한 속도: 빠른 오디오-비디오 생성 기초 모델을 위한 단일 스트림 아키텍처
daVinci-MagiHuman은 텍스트, 비디오, 오디오를 단일 스트림 Transformer 아키텍처로 통합 처리하여 동기화된 고품질 인간 중심의 오디오-비디오 생성이 가능한 오픈소스 생성 모델입니다.
이 모델은 복잡한 멀티 스트림이나 크로스 어텐션 구조를 배제하고, 자기어텐션(self-attention)만으로 통합 토큰 시퀀스를 처리하여 학습과 추론 효율성을 극대화하였습니다.
특히, 표정, 음성-표현의 자연스러운 조화, 신체 동작, 오디오-비디오 정합성에서 탁월하며, 중국어(만다린, 광동어), 영어, 일본어, 한국어, 독일어, 프랑스어 등 다국어 음성 생성을 지원합니다.
효율적인 추론을 위해 모델 증류(model distillation), 잠재 공간 초해상도(latent-space super-resolution), Turbo VAE 디코더를 결합해 단일 GPU에서 5초 분량 256p 영상을 2초 만에 생성할 수 있습니다.
자동 평가에서 시각적 품질과 텍스트 정합성 최고 수준을 기록하며, 음성 인식 오류율이 낮고, 인간 평가에서도 기존 모델 대비 높은 우수성을 입증하였습니다. 전체 모델과 코드가 공개되어 개발자 및 연구자 활용에 적합합니다.
