Stable Diffusion 3 발표

▲

xguru 9달전 | parent | favorite | on: Stable Diffusion 3 발표(stability.ai)

Hacker News 의견

새로운 유형의 확산 변환기를 사용하며, 흐름 일치 및 기타 개선 사항을 결합함.
- 변환기 개선을 활용하여 더 크게 확장 가능하고 다중 모달 입력을 받을 수 있음.
- 품질과 안전성을 높이기 위해 공개 예정이며, 전체 도구 생태계와 함께 출시될 예정임.
- 최신 하드웨어를 활용하는 새로운 기반이며, 모든 크기로 제공됨.
- 비디오, 3D 등을 가능하게 함.
- 더 많은 GPU가 필요함.
- 기술적인 세부 사항은 곧 공개될 예정임.
- 충분한 GPU와 좋은 데이터가 있다면 Sora와 유사한 비디오 생성 가능함.
- 800만에서 80억 파라미터에 이르는 다양한 크기로 제공되어, 모든 종류의 GPU에서 사용할 수 있음.
안전성에 대한 집착은 최근의 제미니 사건을 고려할 때 마케팅 기회를 놓친 것으로 보임.
- 안전성이 과도해져 대부분의 이미지가 흐릿하게 나오며, 이전 버전에서 작동하던 프롬프트가 SDXL에서는 흐릿하게 나옴.
- 다음 버전이 이와 같다면 Stability API 사용을 중단할 것임.
- 과도한 흐림 없이 Stable Diffusion과 유사한 가치와 품질을 제공하는 다른 텍스트-이미지 서비스가 있는지 궁금함.
현재의 검열 상황을 고려할 때 이번에 "안전"이 무엇을 의미하는지 볼 것이 흥미로움.
- DallE를 사용하여 게임 자산용 무기 이미지를 생성하려 할 때 상당한 어려움을 겪음.
발표문의 절반은 "우리는 정말로 책임감 있고 안전하다"는 내용임.
데모 이미지는 모두 '아트워크'임.
- 모델이 사진, 기술 도면, 기타 그래픽 미디어도 잘 생성할 수 있는지 궁금함.
텍스트/철자 부분은 큰 진전임.
"안전" 부분을 재작성하지만, AI 도구 대신 'Big Knife'라는 상상의 칼로 대체함.
- "우리는 안전하고 책임감 있는 칼 사용을 믿습니다. 이는 나쁜 행위자에 의한 Big Knife의 오용을 방지하기 위해 합리적인 조치를 취했다는 것을 의미합니다."