Sora에 대한 열광적인 반응 중 하나는, 내부에 물리적 세계 시뮬레이션이 있을 것 같다는 느낌이었음. 이는 단순히 다른 비디오들을 이어 붙이는 것 이상의 작업이 배후에서 이루어지고 있음을 나타냄.
모델들은 3D 장면을 렌더링하고 사진을 찍는 방법을 배움. 이는 우리가 3D 엔진을 만들려고 한 것이 아니라, 이미지들을 선형대수학에 던져 최적화한 결과로, 세계 시뮬레이터가 나온 것이 놀라움.
이름은 'Bojack Horseman'이라는 쇼에 나오는 가상의 게임쇼 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'에서 참조됨.
Unity High Definition Rendering Pipeline 테스트 프로젝트에서 G-buffer를 추출하려고 시도했던 경험을 상기시킴.
이 논문이 실제로 무언가를 증명하고 있는지 확신할 수 없음. 거대한 UNET Lora 모델이 훈련되고 있어서, 기존 모델에서 무언가를 '추출'하는 것인지, 아니면 단순히 지연 렌더링 파이프라인에서 나올 법한 채널을 생성할 수 있는 새로운 모델을 만드는 것인지 불분명함.
이미지 생성 AI에 익숙하지 않은 사람으로서, 논문을 대충 읽었지만 이해하기 어려웠음.
I-LoRA가 추가적인 레이어 없이 모델의 기존 디코더를 사용하여 정상, 깊이, 알베도, 음영과 같은 장면의 본질적인 속성을 추출한다고 하는데, 이것이 정확히 무엇을 의미하는지 설명을 요청함.
이것은 상당히 주목할 만함. 모델들이 인간이 이해할 수 있는 표현을 실제로 학습하고 있으며, 우리가 해독할 수 없는 수십억 차원의 초평면에서 일어나는 마법만을 수행하는 것이 아님.
이 연구는 VR(또는 공간 컴퓨팅)에 좋은 소식임. 모델이 물리적 세계를 잘 이해하고 있다면, 장면의 두 가지 투영을 생성하는 것은 어렵지 않아 보임. 앞으로 무엇이 나올지 매우 기대됨.
이 기술은 실제 이미지를 가져와 알베도와 조명을 예측할 수 있음. 누군가 이것을 사용하여 재조명 가능한 가우시안 스플래팅 장면을 만들어달라고 요청함. 동적 조명은 사진에서 만들어진 3D 스캔의 유용성을 크게 확장할 것이며, 아직 '좋다'고 할 만한 결과를 본 적이 없음.
이것은 이미지를 위한 GPT인가? 생성 모델을 가져와서 LoRA를 통해 표면 정상과 같은 하위 작업에 미세 조정을 적용하고, 이 모델들이 이러한 표현을 본질적으로 학습하고 있음을 결론지음. 감독된 접근법보다 더 나은 결과를 보임.
회의적인 것은 아니지만, 정상 맵 등이 이미지 생성 회사들에 의해 데이터셋에 풍부하게 포함되지 않았는지 어떻게 알 수 있을까?
이 논문은 그것을 검증할 수 있는 오픈 소스 모델에 링크되어 있지만, 이것이 더 발전된 모델들의 한 비밀 재료일 수도 있음.
예를 들어, 정상 맵은 어떻게 얻어지는가? AI가 이미지를 생성하기 전에 이를 생성하고, 내부 상태에서 그것들을 읽어내는 것인가?
Hacker News 의견
Sora에 대한 열광적인 반응 중 하나는, 내부에 물리적 세계 시뮬레이션이 있을 것 같다는 느낌이었음. 이는 단순히 다른 비디오들을 이어 붙이는 것 이상의 작업이 배후에서 이루어지고 있음을 나타냄.
이름은 'Bojack Horseman'이라는 쇼에 나오는 가상의 게임쇼 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'에서 참조됨.
Unity High Definition Rendering Pipeline 테스트 프로젝트에서 G-buffer를 추출하려고 시도했던 경험을 상기시킴.
이미지 생성 AI에 익숙하지 않은 사람으로서, 논문을 대충 읽었지만 이해하기 어려웠음.
이것은 상당히 주목할 만함. 모델들이 인간이 이해할 수 있는 표현을 실제로 학습하고 있으며, 우리가 해독할 수 없는 수십억 차원의 초평면에서 일어나는 마법만을 수행하는 것이 아님.
이 연구는 VR(또는 공간 컴퓨팅)에 좋은 소식임. 모델이 물리적 세계를 잘 이해하고 있다면, 장면의 두 가지 투영을 생성하는 것은 어렵지 않아 보임. 앞으로 무엇이 나올지 매우 기대됨.
이 기술은 실제 이미지를 가져와 알베도와 조명을 예측할 수 있음. 누군가 이것을 사용하여 재조명 가능한 가우시안 스플래팅 장면을 만들어달라고 요청함. 동적 조명은 사진에서 만들어진 3D 스캔의 유용성을 크게 확장할 것이며, 아직 '좋다'고 할 만한 결과를 본 적이 없음.
이것은 이미지를 위한 GPT인가? 생성 모델을 가져와서 LoRA를 통해 표면 정상과 같은 하위 작업에 미세 조정을 적용하고, 이 모델들이 이러한 표현을 본질적으로 학습하고 있음을 결론지음. 감독된 접근법보다 더 나은 결과를 보임.
회의적인 것은 아니지만, 정상 맵 등이 이미지 생성 회사들에 의해 데이터셋에 풍부하게 포함되지 않았는지 어떻게 알 수 있을까?
예를 들어, 정상 맵은 어떻게 얻어지는가? AI가 이미지를 생성하기 전에 이를 생성하고, 내부 상태에서 그것들을 읽어내는 것인가?