Play 3.0 Mini 공개 - 경량, 비용 효율적인 다국어 Text-To-Speech 모델

(play.ht)

23P by neo 28일전 | favorite | 댓글 4개

30개 이상의 언어로 업계 최고 속도와 정확도로 어떤 목소리나 억양으로도 말할 수 있는 가장 유능하고 대화형 음성 모델
- 또한 여러 언어에 걸쳐 50개 이상의 새로운 대화형 AI 음성을 출시
TTS를 사용하여 실시간 애플리케이션을 구축할 때 지연 시간, 신뢰성, 음질 및 음성의 자연스러움이 매우 중요함

Play 3.0 mini는 현재까지 가장 빠른 대화형 음성 모델임

Play 3.0 mini는 이제 기본적으로 여러 남성 및 여성 음성 옵션이 있는 30개 이상의 언어를 지원함
영어, 일본어, 힌디어, 아랍어, 스페인어, 이탈리아어, 독일어, 프랑스어 및 포르투갈어 음성은 이제 프로덕션 사용 사례에 사용할 수 있으며 API와 플레이그라운드에서 사용할 수 있음
또한 아프리칸스어, 불가리아어, 크로아티아어, 체코어, 히브리어, 헝가리어, 인도네시아어, 말레이어, 북경어, 폴란드어, 세르비아어, 스웨덴어, 타갈로그어, 태국어, 터키어, 우크라이나어, 우르두어 및 코사어를 테스트할 수 있음

Play 3.0 mini의 목표는 대화형 AI를 위한 최고의 TTS 모델을 만드는 것이었음
이를 달성하기 위해 모델은 가장 대화형 톤으로 음성을 생성하면서 지연 시간과 정확성 면에서 경쟁사 모델을 능가해야 했음
LLM은 환각을 일으키고 음성 LLM도 다르지 않음. 음성 LLM의 환각은 입력 텍스트의 일부가 아닌 출력 오디오의 추가 또는 누락된 단어나 숫자의 형태일 수 있음

3.0 mini의 API는 이제 웹소켓을 지원하므로 HTTP 연결 열기 및 닫기의 오버헤드를 크게 줄이고 LLM 또는 기타 소스에서 텍스트 입력 스트리밍을 보다 쉽게 활성화할 수 있음

우리는 더 높은 볼륨의 스타트업 및 성장 계층에 대해 가격 인하를 발표하게 되어 기쁘게 생각하며, 이제 보다 겸손한 요구 사항이 있는 기업을 위해 월 49달러의 새로운 Pro 티어를 도입했음
여기에서 새로운 가격표를 확인하세요
당신이 우리와 함께 무엇을 만들지 기대하고 있음! 사용자 지정 대용량 요구 사항이 있는 경우 영업팀에 문의해 주십시오

대화형 AI를 위한 가장 신뢰할 수 있는 음성 모델을 개발하려는 Play.ht의 노력이 인상적임. 지연 시간과 정확성 면에서 경쟁사보다 뛰어나며 가장 자연스러운 대화형 음성을 생성한다는 점에서 이 모델은 업계를 선도할 것으로 보임
30개 이상의 언어와 다양한 음성 옵션을 지원하는 것은 더 많은 사용자와 사용 사례에 도달할 수 있는 중요한 단계임. 이는 음성 AI의 광범위한 채택에 도움이 될 것임
그러나 이 기술을 채택할 때는 윤리적 고려 사항을 염두에 두어야 함. 예를 들어, 동의 없이 개인의 목소리를 복제하는 것은 프라이버시 문제를 야기할 수 있음. 또한 이 기술이 허위 정보 확산에 악용될 가능성도 있음
유사한 기능을 가진 다른 주목할 만한 음성 AI 프로젝트로는 Google의 Tacotron과 DeepMind의 WaveNet이 있음. 이러한 모델은 또한 다국어 지원과 자연스러운 생성 음성에 중점을 둠
결론적으로 Play 3.0 mini는 대화형 AI에서 음성 기술의 새로운 기준을 제시함. 개발자들은 다양한 실시간 애플리케이션을 위한 빠르고 정확하며 자연스러운 TTS를 활용할 수 있게 될 것임. 그러나 이 기술의 잠재적인 오용을 방지하기 위해 강력한 안전 장치와 윤리적 지침이 마련되어야 함

그런데 Playground 가보니 Korean이 또 있네요?

않이 이렇게 많은 언어를 지원하는데 Korean 이 없다니ㅠ

아쉽게도 한국어는 아직 적용되지 않나보네요 ㅠ

최근에 출시된 오픈 소스 TTS 모델이 뛰어난 음성 복제 기능을 제공함. 10G VRAM의 NVIDIA GPU에서 실행 가능함.
Firefox에서 라이브 테스트가 작동하지 않았으나 Chrome으로 전환하니 빠르게 작동함. 30초 만에 자신의 목소리를 복제하여 대화할 수 있었음. 대부분의 사람들을 속일 수 있을 정도로 정교함.
이 모델은 Cartesia와 OpenAI의 TTS API보다 비용이 더 많이 듦. 일반적으로 TTS API는 LLM보다 높은 마진으로 운영됨.
영어 이외의 언어로는 전사 기능이 유용하지 않음. 정확하게 전사되면 번역과 음성 응답이 매우 빠르지만, 전사가 좋지 않으면 무용지물임.
여름 동안 Go와 Rust용 API 클라이언트를 작성함. 당시 직장에서 Play를 사용했으나 Python과 Node SDK만 존재했음.
자신과 비슷한 목소리와의 저지연 대화는 다소 불안감을 줄 수 있음. 그러나 매우 생각을 자극하는 경험임.
복제된 목소리가 매우 유사하게 들렸으나, 블라인드 테스트에서 5명 모두 이를 본인의 목소리로 인식하지 못함. 자신의 목소리를 들을 때 편향이 있는지에 대한 의문
OpenAI의 모델은 숫자 발음에서 성능이 좋지 않음. 2024년에 숫자를 제대로 발음하지 못하는 TTS 모델이 출시된 것에 충격을 받음. 새로운 TTS 모델은 최소한 100,000까지의 숫자를 검증해야 한다고 믿음.