GN⁺: OpenVoice: 다재다능한 즉각적인 음성

▲

neo 11달전 | parent | favorite | on: GN⁺: OpenVoice: 다재다능한 즉각적인 음성 복제 기술(arxiv.org)

Hacker News 의견

사용자는 이 프로젝트를 시도하기 쉽게 만든 저자들에게 칭찬을 보냄. 그러나 일반적인 목소리 복제에 대해서는 만족스럽지 못한 결과를 경험함. 위키피디아의 책에 관한 페이지 첫 단락을 읽고 다음 문장을 생성하게 했지만, 결과물이 컴퓨터가 생성한 것처럼 들림.
- 제공된 오디오 샘플과 복제된 목소리(mp3 변환) 링크를 참조함.
- 필요한 패키지를 pip으로 설치하고, 자신의 오디오 샘플을 사용해 "demo_part1.ipynb"를 실행함. 노트북에서 거의 즉시 실행됨.
사용자는 자신의 하드웨어에서 목소리 복제를 하고 싶을 때 사용할 수 있는 좋은 오픈 소스 프로젝트를 추천해달라고 요청함. 오픈 소스 목소리 복제의 최신 상태가 궁금함.
사용자는 이 기술(또는 Eleven Labs)을 사용하여 안드로이드 폰의 TTS에 플러그인할 수 있는 목소리 모델을 생성할 수 있는지 질문함.
- 사용자의 친구는 후두 마비로 인해 종종 휴대폰이나 작은 노트북으로 타이핑하여 의사소통을 함. 친구가 과거의 자신의 목소리 녹음을 사용하여 "자신의" 목소리를 어느 정도 되찾을 수 있다면 좋아할 것임.
사용자는 이 논문을 좋아함. "우리가 한 일과 다른 사람들이 그것을 할 수 있도록 돕고자 한다"는 느낌을 받음. 특히 "Remark on Novelty" 섹션을 긍정적으로 평가함: OpenVoice는 모델 구조의 하위 모듈을 발명하는 것이 아니라, 목소리 스타일과 언어 제어를 음색 복제로부터 분리하는 분리된 프레임워크를 제공하는 것이 기여점임.
GitHub 링크와 체크포인트(zip 파일) 링크를 제공함. 사용자는 아마존에서 호스팅되는 zip 파일에 대한 직접 링크에 알레르기가 있어서 체크포인트 링크를 수정하여 제공함.
제공된 예시 링크가 인상적이라고 평가함.
사용자는 YouTube가 이 기술의 사용을 금지하거나 적어도 이러한 비디오를 필터링할 수 있는 기능을 제공하기를 바람.
사용자는 영국의 주요 은행 중 하나에 전화했을 때, 은행이 여전히 "내 목소리가 내 비밀번호다"라는 프로그램에 등록하도록 권장하고 있음을 경험함. AI의 현재 발전 단계에서 이는 단순히 부주의한 것으로 느껴짐.
사용자는 목소리 복제의 부도덕하거나 범죄적인 사용이 합법적인 사용을 크게 초과한다고 생각하는 것이 첫 번째이자 지속적인 생각임.
오픈 소스 목소리 복제 분야의 현재 리더는 RVC이며, 이와 비교하여 어떻게 다른지 보고 싶어함.