Hacker News 의견
  • Sora에 대한 열광적인 반응 중 하나는, 내부에 물리적 세계 시뮬레이션이 있을 것 같다는 느낌이었음. 이는 단순히 다른 비디오들을 이어 붙이는 것 이상의 작업이 배후에서 이루어지고 있음을 나타냄.

    • 모델들은 3D 장면을 렌더링하고 사진을 찍는 방법을 배움. 이는 우리가 3D 엔진을 만들려고 한 것이 아니라, 이미지들을 선형대수학에 던져 최적화한 결과로, 세계 시뮬레이터가 나온 것이 놀라움.
  • 이름은 'Bojack Horseman'이라는 쇼에 나오는 가상의 게임쇼 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'에서 참조됨.

  • Unity High Definition Rendering Pipeline 테스트 프로젝트에서 G-buffer를 추출하려고 시도했던 경험을 상기시킴.

    • 이 논문이 실제로 무언가를 증명하고 있는지 확신할 수 없음. 거대한 UNET Lora 모델이 훈련되고 있어서, 기존 모델에서 무언가를 '추출'하는 것인지, 아니면 단순히 지연 렌더링 파이프라인에서 나올 법한 채널을 생성할 수 있는 새로운 모델을 만드는 것인지 불분명함.
  • 이미지 생성 AI에 익숙하지 않은 사람으로서, 논문을 대충 읽었지만 이해하기 어려웠음.

    • I-LoRA가 추가적인 레이어 없이 모델의 기존 디코더를 사용하여 정상, 깊이, 알베도, 음영과 같은 장면의 본질적인 속성을 추출한다고 하는데, 이것이 정확히 무엇을 의미하는지 설명을 요청함.
  • 이것은 상당히 주목할 만함. 모델들이 인간이 이해할 수 있는 표현을 실제로 학습하고 있으며, 우리가 해독할 수 없는 수십억 차원의 초평면에서 일어나는 마법만을 수행하는 것이 아님.

  • 이 연구는 VR(또는 공간 컴퓨팅)에 좋은 소식임. 모델이 물리적 세계를 잘 이해하고 있다면, 장면의 두 가지 투영을 생성하는 것은 어렵지 않아 보임. 앞으로 무엇이 나올지 매우 기대됨.

  • 이 기술은 실제 이미지를 가져와 알베도와 조명을 예측할 수 있음. 누군가 이것을 사용하여 재조명 가능한 가우시안 스플래팅 장면을 만들어달라고 요청함. 동적 조명은 사진에서 만들어진 3D 스캔의 유용성을 크게 확장할 것이며, 아직 '좋다'고 할 만한 결과를 본 적이 없음.

  • 이것은 이미지를 위한 GPT인가? 생성 모델을 가져와서 LoRA를 통해 표면 정상과 같은 하위 작업에 미세 조정을 적용하고, 이 모델들이 이러한 표현을 본질적으로 학습하고 있음을 결론지음. 감독된 접근법보다 더 나은 결과를 보임.

  • 회의적인 것은 아니지만, 정상 맵 등이 이미지 생성 회사들에 의해 데이터셋에 풍부하게 포함되지 않았는지 어떻게 알 수 있을까?

    • 이 논문은 그것을 검증할 수 있는 오픈 소스 모델에 링크되어 있지만, 이것이 더 발전된 모델들의 한 비밀 재료일 수도 있음.
  • 예를 들어, 정상 맵은 어떻게 얻어지는가? AI가 이미지를 생성하기 전에 이를 생성하고, 내부 상태에서 그것들을 읽어내는 것인가?