GN⁺: HN 공개: 1초 미만 지연 시간의 실시간 AI 비디오 에이전트

(news.ycombinator.com)

2P by neo 2달전 | favorite | 댓글 1개

Tavus의 공동 창립자인 Hassaan과 Quinn이 AI 연구 회사 및 비디오 API 개발 플랫폼을 소개함
2020년부터 '디지털 트윈' 또는 '아바타'를 위한 AI 비디오 모델을 개발해옴
인간과의 현실적인 대화를 위한 AI 비디오 인터페이스 구축의 도전 과제를 공유함

도전 과제

대화형 비디오가 효과적이기 위해서는 매우 낮은 지연 시간과 대화 인식이 필요함
친구 간의 빠른 대화는 발언 사이에 약 250ms의 시간이 걸리지만, 복잡한 주제나 새로운 사람과의 대화는 추가적인 '생각' 시간이 필요함
1000ms 이하의 지연 시간은 대화를 현실감 있게 만듦

아키텍처 결정

지연 시간, 확장성, 비용의 균형을 맞추는 것이 큰 도전 과제였음
지연 시간을 줄이기 위해 처음부터 새로 구축해야 했음
수천 개의 대화를 동시에 지원하면서도 컴퓨팅 비용을 절감해야 했음

초기 개발

초기 개발 단계에서는 각 대화가 개별 H100에서 실행되어야 했음
이는 확장성이 없고 비용이 많이 들었음

Phoenix-2 모델 개발

여러 개선 사항을 포함한 새로운 모델, Phoenix-2를 개발함
NeRF 기반 백본에서 Gaussian Splatting으로 전환하여 실시간보다 빠르게 프레임을 생성할 수 있게 됨
메모리와 GPU 코어 사용을 최적화하여 저사양 하드웨어에서도 실행 가능하게 함
스트리밍 vs 배칭, 프로세스 병렬화 등 시간과 비용을 절감하는 다른 방법들도 사용함

최적화

각 구성 요소(비전, ASR, LLM, TTS, 비디오 생성)를 초고속으로 최적화해야 했음
가장 큰 문제는 LLM이었음
토큰 당 초속(t/s)이 빠르더라도 첫 번째 토큰까지의 시간(ttft)이 느리면 문제가 됨
대부분의 제공업체가 너무 느렸음

발언 종료 감지

발언 종료 감지가 어려웠음
기본 솔루션은 침묵 후 시간을 사용하여 발언 종료를 '결정'하지만, 이는 지연 시간을 추가함
AI 에이전트가 사용자의 말을 끊지 않도록 적절한 타이밍을 맞추는 것이 중요했음

결과

이러한 최적화로 3-5초에서 1초 미만(최대 600ms)으로 지연 시간을 줄일 수 있었음
저사양 하드웨어에서도 1초 미만의 지연 시간을 달성함
Delphi와 같은 여러 고객이 있으며, 디지털 트윈과의 대화가 몇 분에서 최대 4시간까지 이어짐

GN⁺의 정리

Tavus의 AI 비디오 모델은 인간과의 자연스러운 대화를 목표로 함
지연 시간을 줄이기 위해 아키텍처를 새로 구축하고 최적화함
Phoenix-2 모델은 저사양 하드웨어에서도 실시간보다 빠르게 프레임을 생성할 수 있음
이 기술은 인간-컴퓨터 인터페이스의 중요한 요소가 될 가능성이 있음
유사한 기능을 가진 다른 프로젝트로는 Google의 Duplex가 있음

▲

neo 2달전 [-]

Hacker News 의견

웹사이트와 다이얼업 소리가 마음에 듦, 카우보이 모자도 좋음
두 아바타의 채팅 경험이 좋지 않음, 자주 끊기고 혼란스러움
이미지 인식은 좋음, 아바타가 천천히 반응할 때 물건을 인식할 수 있었음
구체적인 어려움을 공유해줘서 감사함, 앞으로 더 좋아질 것임
Hassan 버전이 더 나았음, 배경을 인식하고 벽에 있는 모델에 대해 이야기함
- LEGO 세트에 대해 대화함
화장실에서 카메라가 수건을 비추고 있었는데 "아늑한 화장실이네요"라고 말함
실제 사람과 대화하는 느낌이었음, 코드처럼 대할 수 없었음
- 사람과 대화할 때의 의식적인 노력을 생각하게 됨
- Google 검색 시 최소한의 키워드만 사용함
- 이 기술이 사람들에게 비슷한 행동을 훈련시킬까 걱정됨
저지연, 멀티모달 AI에 관심 있다면 Tavus가 10월 19-20일 SF에서 해커톤을 후원함
- 원격 트랙도 있음
데모 기능: 9.5/10
- 소름 끼침: 10/10
GPU 배포에 익숙하지 않지만, 비용이 많이 들고 할당이 어려움
- 클라우드 GPU 자원을 대규모로 처리하는 방법이 궁금함
- 웹소켓 연결당 GPU를 할당하는지, 그렇다면 비용이 많이 들 것임
기술적으로 매우 인상적임, Carter 아바타가 긴장한 듯 보임
- 입/치아에 이상이 있지만 반응이 빠름
- Zoom에서 더 많은 지연을 본 적 있음
- 콜센터의 미래라고 생각함, 아바타가 표현력이 높아지면 CSAT가 더 높아질 것임
기술적으로 놀라운 작업, 1초 미만의 반응 시간은 매우 인상적임
- FaceTime에서 가짜 사람과 대화할 수 있다는 점이 무서움
- 사회적 영향에 대해 어떻게 생각하는지 궁금함
- 오늘날 인간 연결의 부족으로 외로움 위기가 있음
ChatGPT가 대화 중단을 감지하는 데 문제가 있음
- 항상 말을 끊음

답변달기