Hacker News 의견

  • 최근에 출시된 오픈 소스 TTS 모델이 뛰어난 음성 복제 기능을 제공함. 10G VRAM의 NVIDIA GPU에서 실행 가능함.
  • Firefox에서 라이브 테스트가 작동하지 않았으나 Chrome으로 전환하니 빠르게 작동함. 30초 만에 자신의 목소리를 복제하여 대화할 수 있었음. 대부분의 사람들을 속일 수 있을 정도로 정교함.
  • 이 모델은 Cartesia와 OpenAI의 TTS API보다 비용이 더 많이 듦. 일반적으로 TTS API는 LLM보다 높은 마진으로 운영됨.
  • 영어 이외의 언어로는 전사 기능이 유용하지 않음. 정확하게 전사되면 번역과 음성 응답이 매우 빠르지만, 전사가 좋지 않으면 무용지물임.
  • 여름 동안 Go와 Rust용 API 클라이언트를 작성함. 당시 직장에서 Play를 사용했으나 Python과 Node SDK만 존재했음.
  • 자신과 비슷한 목소리와의 저지연 대화는 다소 불안감을 줄 수 있음. 그러나 매우 생각을 자극하는 경험임.
  • 복제된 목소리가 매우 유사하게 들렸으나, 블라인드 테스트에서 5명 모두 이를 본인의 목소리로 인식하지 못함. 자신의 목소리를 들을 때 편향이 있는지에 대한 의문
  • OpenAI의 모델은 숫자 발음에서 성능이 좋지 않음. 2024년에 숫자를 제대로 발음하지 못하는 TTS 모델이 출시된 것에 충격을 받음. 새로운 TTS 모델은 최소한 100,000까지의 숫자를 검증해야 한다고 믿음.