14P by neo 2023-11-22 | favorite | 댓글 2개
  • Stable Video Diffusion 은 이미지 모델인 Stable Diffusion 을 기반으로 한 첫 번째 생성 비디오 모델
  • 연구용 프리뷰로 제공되며, 이 최신 생성 AI 비디오 모델은 다양한 유형의 모델을 만드는 여정에서 중요한 단계
  • 코드는 GitHub 저장소에서, 모델을 로컬에서 실행하는 데 필요한 가중치는 Hugging Face 페이지에서 확인 가능

다양한 비디오 응용 프로그램에 적용 가능

  • 비디오 모델은 단일 이미지에서 다중 시점 합성을 포함한 다양한 다운스트림 작업에 쉽게 적용 가능
  • Stable Diffusion 주변에 구축된 생태계와 유사하게, 이 기반 위에 구축하고 확장하는 다양한 모델 계획 중
  • 텍스트-투-비디오 인터페이스를 특징으로 하는 새로운 웹 경험에 대한 Waitlist에 오늘부터 등록 가능

성능에서 경쟁력 있음

  • Stable Video Diffusio은 초당 3~30 프레임 사이에서 사용자 정의 가능한 프레임 속도로 14개와 25개의 프레임을 생성할 수 있는 두 개의 이미지-투-비디오 모델로 출시
  • 기초적인 형태로 출시될 당시, 외부 평가를 통해 이 모델들이 사용자 선호도 연구에서 선도적인 폐쇄 모델을 능가하는 것으로 나타남

연구 전용

  • 최신 발전 사항으로 모델을 업데이트하고 피드백을 통합하는 것에 열정적이지만, 현재 단계에서는 실제 세계나 상업적 응용 프로그램을 위한 것이 아님을 강조
  • 안전성과 품질에 대한 통찰력과 피드백이 모델을 최종 출시를 위해 정제하는 데 중요

AI 모델의 지속적인 확장

  • Stable Video Diffusio은 이미지, 언어, 오디오, 3D, 코드를 포함한 다양한 모달리티를 아우르는 오픈 소스 모델의 다양한 범위에 자랑스러운 추가
  • Stability AI의 인간 지능 증폭에 대한 헌신을 증명하는 포트폴리오.

GN⁺의 의견

  • 이 기사에서 가장 중요한 것은 안정적 비디오 확산 모델의 출시로, 이는 AI 기술의 발전을 보여주며 다양한 분야에서의 적용 가능성을 열어줌.
  • 연구자들과 개발자들에게 새로운 도구를 제공하고, 창의적인 비디오 생성을 가능하게 하는 이 기술은 광고, 교육, 엔터테인먼트 등 여러 분야에서 흥미로운 응용을 기대하게 함.

LLM에 Stable Diffusion Moment가 오고 있다

이 Stable Diffusion Moment가 이제 Video 에도 오게 될까요? 확실히 요즘 해외 AI 스타트업중에서 돈이 몰리는 곳은 비디오쪽이 맞긴 한듯

Hacker News 의견
  • 비디오 페이지 하단에서 두 마리의 새(파랑새)가 나오는데, 배경에는 CN 타워처럼 보이는 두 개의 동일한 건물이 있다. CN 타워는 토론토의 주요 랜드마크이며, 토론토의 야구팀은 파랑새(Blue Jays)라는 이름을 가지고 있다. 이 타워는 도심의 주요 스포츠 경기장 근처에 위치해 있다. 텍스트에서 이미지로 변환하는 방식을 대략 이해하고 있으며, "파랑새"가 "토론토"나 "CN 타워"와 가까운 벡터 공간에 있을 것이라는 것이 이치에 맞는다고 생각한다. 이미지에서 비디오로의 규모와 속도 향상은 인상적이지만, 이미지 생성 모델이 얼마나 능력이 있는지를 볼 때, 편집이나 반복 작업 능력의 부재로 인해 제한적이라는 느낌을 받는다. 예를 들어 "사진 속 자전거를 왼쪽으로 옮겨라"와 같은 프롬프트를 사용하여 모델이 반복 작업을 수행할 수 있는 솔루션이 있는지 궁금하다. 이 분야는 매우 빠르게 발전하고 있다고 느낀다.

  • 지난해 기계학습 분야의 발전 속도는 놀라울 정도였다. Controlnet이 비디오에 적절히 적용되면 사람들이 이 기술을 어떻게 활용할지 기대된다. 비디오를 처음부터 생성하는 것도 멋지지만, 이 기술의 진정한 유용성은 시간적 일관성에 있다. 안정적인 비디오를 얻기 위해 일반적으로 많은 수동 후처리가 필요하다.

  • "비상업적" 모델 라이선스가 어떻게 집행될 수 있는지 여전히 의문이다. 소프트웨어 라이선스는 소프트웨어의 재배포를 규제하지만, 그것으로 생성된 제품을 규제하지는 않는다. 예를 들어, GIMP로 생성된 이미지가 GPL 라이선스를 받는 것은 아니다.

  • 이 분야는 매우 빠르게 움직인다. 눈 깜짝할 사이에 새로운 논문이 나온다. 인간의 학습 속도가 놀랍다. 하류 작업(downstream tasks)에 이를 사용하는 것이 매우 흥미롭다. 이 모델과 animatediff를 통합하는 것이 얼마나 쉬운지 궁금하다. 또한, m3 장치에서 벤치마크를 수행할 수 있는지, 이러한 확산 추론과 개발을 실행하기 위해 m3 pro를 사용하는 것이 가치가 있는지 알고 싶다.

  • 기술적 진보에 대한 매혹적인 도약. 조상 샘플러(ancestral samplers)와 비조상 샘플러(non-ancestral samplers)의 차이점을 생각하게 한다. 예를 들어, Euler 방식은 다소 결정론적이며 샘플링 단계가 증가해도 출력이 변하지 않지만, Euler Ancestral 방식은 각 단계에 노이즈를 추가하여 더 많은 다양성을 생성하지만 더 무작위적/확률적이다. 비디오를 생성하기 위해서는 샘플러가 이전 프레임에 크게 의존하면서 일종의 부 프롬프트(sub-prompt)를 주입해야 한다고 생각한다. 예를 들어, "특정 객체를 왼쪽으로 5도 회전시켜라" 등이다. 다른 댓글 작성자가 사용한 "시간적 일관성(temporal consistency)"이라는 표현이 마음에 든다.

  • 훈련 데이터에서 모든 컷과 페이드를 제거해야 결과를 개선할 수 있다는 것은 이치에 맞는다. 연구 논문의 배경 섹션에서 "시간적 컨볼루션 레이어(temporal convolution layers)"에 대해 언급하는데, 이것이 무엇인지 설명해 줄 수 있는 사람이 있는지? 비디오를 구성하는 이미지들 사이의 시간적 상태를 나타내기 위해 어떤 종류의 훈련 데이터가 입력되는지, 아니면 다른 의미인지 궁금하다.

  • 매우 멋진 발전이다. 몇 달 전에 Replicate에서 몇 가지 "비디오" 생성 모델을 사용해 보았는데, 매우 멋진 결과를 얻었지만, 결과적으로 나온 비디오들은 이전 프레임을 프롬프트로 사용하여 만들어진 것이 분명했다. 이 기술은 실제로 더 높은 수준의 맥락을 가진 것을 만들어낼 수 있는 것처럼 보인다. 겨우 반년 조금 넘는 시간 동안 이러한 진보 수준을 보는 것은 놀랍다.

  • Stability.ai에게 이사회가 합리적인지 확인해 달라고 부탁한다.

  • 이 기술을 사용해 보는 것이 매우 기대된다. 최근에 진행한 몇 가지 실험들을 소개한다.

  • 정적 이미지와 마찬가지로, 미묘한 의도하지 않은 결함들을 관찰하는 것은 매우 흥미롭다. 예를 들어, 카우보이 모자를 쓴 남자는 거의 질식하는 것처럼 보이고, 기차 비디오에서는 기차가 빙판 위를 스케이트 타듯이 이동하는 동안 철로가 너무 넓어 보인다.