Voxtral TTS

https://huggingface.co/papers/2603.25551

Voxtral TTS는 3초의 참조 음성만으로 자연스러운 다국어 음성을 생성하는 멀티링구얼 텍스트-투-스피치(TTS) 모델입니다.

이 모델은 자율회귀 방식의 의미 기반 음성 토큰 생성과 플로우 매칭(flow-matching) 기법을 활용한 음향 토큰 처리를 결합한 하이브리드 아키텍처를 채택하였으며, 이를 위해 Voxtral Codec이라는 자체 개발한 음성 토크나이저를 사용합니다.

인간 평가에서 Voxtral TTS는 자연스러움과 표현력 면에서 ElevenLabs Flash v2.5 대비 68.4%의 우위를 보여, 고품질 음성 클로닝에 강점을 입증하였습니다.

모델 가중치는 CC BY-NC 라이선스로 공개되어 연구 및 비상업적 활용이 가능합니다.

Voxtral TTS

댓글