MetaVoice-1B - 1.2B 파라미터 Text-To-Speech 모델

(github.com/metavoiceio)

12P by xguru 10달전 | favorite | 댓글과 토론

10만 시간의 음성으로 학습된 12억개 파라미터의 TTS(텍스트-음성-변환) 모델
감정적인 말하기 리듬과 어조(영어)
미세 조정을 통한 보이스 클로닝 지원(인도 스피커의 경우 1분 정도의 음성 데이터 만으로 성공했음)
미국/영국 음성에 대해서는 30초의 레퍼런스 오디오 만으로 Zero-Shot 클로닝 가능
긴 음성 합성 지원
아파치 2.0 라이센스로 제한없이 사용 가능