2P by neo 2달전 | favorite | 댓글 1개
  • Tavus의 공동 창립자인 Hassaan과 Quinn이 AI 연구 회사 및 비디오 API 개발 플랫폼을 소개함
  • 2020년부터 '디지털 트윈' 또는 '아바타'를 위한 AI 비디오 모델을 개발해옴
  • 인간과의 현실적인 대화를 위한 AI 비디오 인터페이스 구축의 도전 과제를 공유함

도전 과제

  • 대화형 비디오가 효과적이기 위해서는 매우 낮은 지연 시간과 대화 인식이 필요함
  • 친구 간의 빠른 대화는 발언 사이에 약 250ms의 시간이 걸리지만, 복잡한 주제나 새로운 사람과의 대화는 추가적인 '생각' 시간이 필요함
  • 1000ms 이하의 지연 시간은 대화를 현실감 있게 만듦

아키텍처 결정

  • 지연 시간, 확장성, 비용의 균형을 맞추는 것이 큰 도전 과제였음
  • 지연 시간을 줄이기 위해 처음부터 새로 구축해야 했음
  • 수천 개의 대화를 동시에 지원하면서도 컴퓨팅 비용을 절감해야 했음

초기 개발

  • 초기 개발 단계에서는 각 대화가 개별 H100에서 실행되어야 했음
  • 이는 확장성이 없고 비용이 많이 들었음

Phoenix-2 모델 개발

  • 여러 개선 사항을 포함한 새로운 모델, Phoenix-2를 개발함
  • NeRF 기반 백본에서 Gaussian Splatting으로 전환하여 실시간보다 빠르게 프레임을 생성할 수 있게 됨
  • 메모리와 GPU 코어 사용을 최적화하여 저사양 하드웨어에서도 실행 가능하게 함
  • 스트리밍 vs 배칭, 프로세스 병렬화 등 시간과 비용을 절감하는 다른 방법들도 사용함

최적화

  • 각 구성 요소(비전, ASR, LLM, TTS, 비디오 생성)를 초고속으로 최적화해야 했음
  • 가장 큰 문제는 LLM이었음
  • 토큰 당 초속(t/s)이 빠르더라도 첫 번째 토큰까지의 시간(ttft)이 느리면 문제가 됨
  • 대부분의 제공업체가 너무 느렸음

발언 종료 감지

  • 발언 종료 감지가 어려웠음
  • 기본 솔루션은 침묵 후 시간을 사용하여 발언 종료를 '결정'하지만, 이는 지연 시간을 추가함
  • AI 에이전트가 사용자의 말을 끊지 않도록 적절한 타이밍을 맞추는 것이 중요했음

결과

  • 이러한 최적화로 3-5초에서 1초 미만(최대 600ms)으로 지연 시간을 줄일 수 있었음
  • 저사양 하드웨어에서도 1초 미만의 지연 시간을 달성함
  • Delphi와 같은 여러 고객이 있으며, 디지털 트윈과의 대화가 몇 분에서 최대 4시간까지 이어짐

GN⁺의 정리

  • Tavus의 AI 비디오 모델은 인간과의 자연스러운 대화를 목표로 함
  • 지연 시간을 줄이기 위해 아키텍처를 새로 구축하고 최적화함
  • Phoenix-2 모델은 저사양 하드웨어에서도 실시간보다 빠르게 프레임을 생성할 수 있음
  • 이 기술은 인간-컴퓨터 인터페이스의 중요한 요소가 될 가능성이 있음
  • 유사한 기능을 가진 다른 프로젝트로는 Google의 Duplex가 있음
Hacker News 의견
  • 웹사이트와 다이얼업 소리가 마음에 듦, 카우보이 모자도 좋음
  • 두 아바타의 채팅 경험이 좋지 않음, 자주 끊기고 혼란스러움
  • 이미지 인식은 좋음, 아바타가 천천히 반응할 때 물건을 인식할 수 있었음
  • 구체적인 어려움을 공유해줘서 감사함, 앞으로 더 좋아질 것임
  • Hassan 버전이 더 나았음, 배경을 인식하고 벽에 있는 모델에 대해 이야기함
    • LEGO 세트에 대해 대화함
  • 화장실에서 카메라가 수건을 비추고 있었는데 "아늑한 화장실이네요"라고 말함
  • 실제 사람과 대화하는 느낌이었음, 코드처럼 대할 수 없었음
    • 사람과 대화할 때의 의식적인 노력을 생각하게 됨
    • Google 검색 시 최소한의 키워드만 사용함
    • 이 기술이 사람들에게 비슷한 행동을 훈련시킬까 걱정됨
  • 저지연, 멀티모달 AI에 관심 있다면 Tavus가 10월 19-20일 SF에서 해커톤을 후원함
    • 원격 트랙도 있음
  • 데모 기능: 9.5/10
    • 소름 끼침: 10/10
  • GPU 배포에 익숙하지 않지만, 비용이 많이 들고 할당이 어려움
    • 클라우드 GPU 자원을 대규모로 처리하는 방법이 궁금함
    • 웹소켓 연결당 GPU를 할당하는지, 그렇다면 비용이 많이 들 것임
  • 기술적으로 매우 인상적임, Carter 아바타가 긴장한 듯 보임
    • 입/치아에 이상이 있지만 반응이 빠름
    • Zoom에서 더 많은 지연을 본 적 있음
    • 콜센터의 미래라고 생각함, 아바타가 표현력이 높아지면 CSAT가 더 높아질 것임
  • 기술적으로 놀라운 작업, 1초 미만의 반응 시간은 매우 인상적임
    • FaceTime에서 가짜 사람과 대화할 수 있다는 점이 무서움
    • 사회적 영향에 대해 어떻게 생각하는지 궁금함
    • 오늘날 인간 연결의 부족으로 외로움 위기가 있음
  • ChatGPT가 대화 중단을 감지하는 데 문제가 있음
    • 항상 말을 끊음