Hacker News 의견
  • 사용자는 이 프로젝트를 시도하기 쉽게 만든 저자들에게 칭찬을 보냄. 그러나 일반적인 목소리 복제에 대해서는 만족스럽지 못한 결과를 경험함. 위키피디아의 책에 관한 페이지 첫 단락을 읽고 다음 문장을 생성하게 했지만, 결과물이 컴퓨터가 생성한 것처럼 들림.

    • 제공된 오디오 샘플과 복제된 목소리(mp3 변환) 링크를 참조함.
    • 필요한 패키지를 pip으로 설치하고, 자신의 오디오 샘플을 사용해 "demo_part1.ipynb"를 실행함. 노트북에서 거의 즉시 실행됨.
  • 사용자는 자신의 하드웨어에서 목소리 복제를 하고 싶을 때 사용할 수 있는 좋은 오픈 소스 프로젝트를 추천해달라고 요청함. 오픈 소스 목소리 복제의 최신 상태가 궁금함.

  • 사용자는 이 기술(또는 Eleven Labs)을 사용하여 안드로이드 폰의 TTS에 플러그인할 수 있는 목소리 모델을 생성할 수 있는지 질문함.

    • 사용자의 친구는 후두 마비로 인해 종종 휴대폰이나 작은 노트북으로 타이핑하여 의사소통을 함. 친구가 과거의 자신의 목소리 녹음을 사용하여 "자신의" 목소리를 어느 정도 되찾을 수 있다면 좋아할 것임.
  • 사용자는 이 논문을 좋아함. "우리가 한 일과 다른 사람들이 그것을 할 수 있도록 돕고자 한다"는 느낌을 받음. 특히 "Remark on Novelty" 섹션을 긍정적으로 평가함: OpenVoice는 모델 구조의 하위 모듈을 발명하는 것이 아니라, 목소리 스타일과 언어 제어를 음색 복제로부터 분리하는 분리된 프레임워크를 제공하는 것이 기여점임.

  • GitHub 링크와 체크포인트(zip 파일) 링크를 제공함. 사용자는 아마존에서 호스팅되는 zip 파일에 대한 직접 링크에 알레르기가 있어서 체크포인트 링크를 수정하여 제공함.

  • 제공된 예시 링크가 인상적이라고 평가함.

  • 사용자는 YouTube가 이 기술의 사용을 금지하거나 적어도 이러한 비디오를 필터링할 수 있는 기능을 제공하기를 바람.

  • 사용자는 영국의 주요 은행 중 하나에 전화했을 때, 은행이 여전히 "내 목소리가 내 비밀번호다"라는 프로그램에 등록하도록 권장하고 있음을 경험함. AI의 현재 발전 단계에서 이는 단순히 부주의한 것으로 느껴짐.

  • 사용자는 목소리 복제의 부도덕하거나 범죄적인 사용이 합법적인 사용을 크게 초과한다고 생각하는 것이 첫 번째이자 지속적인 생각임.

  • 오픈 소스 목소리 복제 분야의 현재 리더는 RVC이며, 이와 비교하여 어떻게 다른지 보고 싶어함.