Play 3.0 Mini 공개 - 경량, 비용 효율적인

최근에 출시된 오픈 소스 TTS 모델이 뛰어난 음성 복제 기능을 제공함. 10G VRAM의 NVIDIA GPU에서 실행 가능함.
Firefox에서 라이브 테스트가 작동하지 않았으나 Chrome으로 전환하니 빠르게 작동함. 30초 만에 자신의 목소리를 복제하여 대화할 수 있었음. 대부분의 사람들을 속일 수 있을 정도로 정교함.
이 모델은 Cartesia와 OpenAI의 TTS API보다 비용이 더 많이 듦. 일반적으로 TTS API는 LLM보다 높은 마진으로 운영됨.
영어 이외의 언어로는 전사 기능이 유용하지 않음. 정확하게 전사되면 번역과 음성 응답이 매우 빠르지만, 전사가 좋지 않으면 무용지물임.
여름 동안 Go와 Rust용 API 클라이언트를 작성함. 당시 직장에서 Play를 사용했으나 Python과 Node SDK만 존재했음.
자신과 비슷한 목소리와의 저지연 대화는 다소 불안감을 줄 수 있음. 그러나 매우 생각을 자극하는 경험임.
복제된 목소리가 매우 유사하게 들렸으나, 블라인드 테스트에서 5명 모두 이를 본인의 목소리로 인식하지 못함. 자신의 목소리를 들을 때 편향이 있는지에 대한 의문
OpenAI의 모델은 숫자 발음에서 성능이 좋지 않음. 2024년에 숫자를 제대로 발음하지 못하는 TTS 모델이 출시된 것에 충격을 받음. 새로운 TTS 모델은 최소한 100,000까지의 숫자를 검증해야 한다고 믿음.