Hacker News 의견
  • "텍스트로 표현할 수 없는 소리를 재생할 수 있는지"에 대한 질문
  • 순수 텍스트 모델보다 이 모델의 장점이나 잠재력에 대한 의문
    • 모델이 발전함에 따라 TTS에서 잃어버리는 억양, 리듬, 감정을 제대로 해석하거나 생성할 수 있는지에 대한 기대
  • "STT -> LLM -> TTS"가 아닌지에 대한 질문
    • Chewbacca 소리를 입력하면 모델이 이를 무의미한 소리로 인식할지, 아니면 엉성한 STT로 무작위 단어로 해석할지에 대한 의문
  • Ollama, LM Studio, llama.cpp 같은 모델 운영자들이 이를 지원하는지에 대한 질문
  • 데모 클립의 TTS 목소리가 Valve 성우 Ellen McLain과 매우 유사함
  • 속도가 매우 좋음
    • 최근 LMStudio + AnythingLLM을 설정하여 로컬 음성 채팅을 시도했지만 여전히 원하는 것보다 느림
    • PiperTTS 목소리가 더 나음
  • 상업적 사용을 위해 목소리 미세 조정이 중요한 요구 사항으로 보임
    • 훈련이나 미세 조정 코드가 있었으면 좋겠음
  • 추가 미세 조정이 불가능한지에 대한 의문
  • 성능을 보여주는 데모가 있는지에 대한 질문
  • GitHub 저장소의 별 히스토리 그래프가 있는 경우 신뢰도가 떨어진다고 느끼는지에 대한 의문