GN⁺: Stable Fast 3D - 이미지 1장으로

▲

neo 4달전 | parent | favorite | on: GN⁺: Stable Fast 3D - 이미지 1장으로 3D 애셋을 빠르게 생성(stability.ai)

Hacker News 의견

LLMs에 대한 많은 기대에도 불구하고, 이미지 생성 및 그래픽 자산이 현재 AI의 장기적인 승자가 될 가능성이 높음
- "환각"은 버그가 아닌 기능임
- 복잡한 통계 테스트 없이 비현실적이고 편향된 출력을 쉽게 볼 수 있음
- 인간의 직관이 평가에 유용하며, 텍스트 생성 모델과 달리 과대평가되지 않음
- 손실이 있거나 노이즈가 있는 방법도 다양한 창의적 작업에 유용할 수 있음
- 완벽함이 필요하지 않으며, 왜곡된 특징을 쉽게 보고 개선할 수 있음
- 일관성이 필요하지 않지만, 일관성이 생기면 비디오와 같은 응용 프로그램에 큰 가치를 제공할 수 있음
- LoRA와 같은 기술은 비숙련 사용자도 쉽게 특정 캐릭터, 스타일 또는 개념 모델을 훈련할 수 있게 함
- 이미지/비주얼 생성 모델이 지난 1년 동안 크게 개선되었으며, 텍스트 모델보다 개선 속도가 느려지지 않았음
- 미래는 사진작가, 영화감독 등의 전면적인 대체가 아닌, AI 기반의 강력한 도구 세대가 될 것임
- 몇 가지 텍스트 프롬프트로 이미지에 개념을 추가하거나 제거할 수 있는 도구가 매우 유용함
- 90년대의 Photoshop처럼 새로운 강력한 사용자 세대가 등장하고 있음
세 번째로 테스트한 이미지에서 3D AI는 모두 3D 모델의 2D 렌더링처럼 보였음
- 셀 셰이딩 이미지로 테스트했으며, 모델 출력은 매우 평면적이고 토폴로지가 나빴음
- 정확한 그림자가 없으면 정상 벡터를 재계산할 수 없어 구조를 이해하지 못하는 것 같음
- 적절한 결과를 제공할 것으로 예상되는 입력 세트를 명시하면 좋을 것 같음
아직 완벽하지 않지만 꽤 멋짐
- 주 자산이 아닌, 주 장면에 복잡성을 더하는 저노력 장식으로 사용할 수 있음
- 2D 빌보드 임포스터가 아닌 상황에서 사용할 수 있음
- Midjourney, Bing, Dalle3로 이미지를 생성하고 드래그 앤 드롭하여 놀랍도록 좋은 3D 프레젠테이션을 얻을 수 있음
- 카메라가 뒷면을 보지 않는 3D 장면의 장식으로 사용할 수 있음
이 기술이 개선되기를 기다릴 수 없음
- 테스트 결과 유용하지 않음
- 이미지 출력에서 나쁜 모델을 수정하는 데 더 많은 작업이 필요함
- 더 높은 품질의 최종 제품을 천천히 얻기 위해 일련의 단계를 거치는 것이 더 나을 것 같음
- 사용 사례를 놓치고 있는 것일 수도 있음
7GB VRAM으로 GPU에서 3D 자산을 생성하는 데 0.5초가 걸림
- 데이터 센터 전용 모델일 것이라고 생각했지만, 7GB VRAM은 많은 3D 아티스트가 이미 소유한 하드웨어에서 실행할 수 있음을 시사함
이 분야에서 정말로 성과를 내기를 기대하고 있음
- HuggingFace 데모에서 이미지를 드래그하여 시도할 수 있음
- 고양이 이미지에서는 잘 작동하지 않았지만, iPhone 이미지에서는 꽤 잘 작동했음
- 팬케이크 이미지에서는 인상적이었고, 로켓 이미지에서는 형편없었음
- 당구공 이미지에서는 다시 인상적이었음
이 기술로 많은 재미있는 것을 3D 프린트할 계획임
비교 대상의 이미지를 탈색하여 더 나아 보이게 하는 고전적인 인포머셜 전술을 사용한 것 같음
프로젝트 페이지에서 모델과 상호작용할 수 있음
미니어처 페인팅에 대한 열정을 자극함