▲xguru 9달전 | parent | favorite | on: Stable Diffusion 3 연구 논문 공개(stability.ai)Hacker News 의견 Stability AI의 오픈 소스에 대한 헌신이 매우 흥미롭고, 그들이 가능한 오랫동안 운영되기를 바람. Stable Diffusion 3이 여전히 OpenAI의 CLIP을 토큰화와 텍스트 임베딩에 사용하는지 궁금함. 모델 아키텍처의 해당 부분을 개선하여 텍스트와 이미지 프롬프트에 더 잘 부합하도록 할 것이라고 단순히 가정함. Stable Diffusion 3의 텍스트 렌더링이 인상적이지만, 텍스트에 항상 특유의 과도하게 처리된 느낌이 있음. 텍스트 색상이 항상 한 가지 값으로 높아져서 고품질 이미지에 텍스트를 아마추어처럼 단순히 추가한 것처럼 보임. SD3가 다운로드 가능한지 여부에 대한 질문. 초기 버전의 SD를 로컬에서 실행했는데 매우 좋았음. 많은 LLM들이 자체 호스팅이 유망했던 것처럼 SAAS로 전환되었는지 궁금함. 이미지 생성기가 마침내 철자를 올바르게 구현하기 시작한 것이 매우 흥미로움. DALL-E 3의 철자 능력이 부각되었지만 Bing을 사용해 본 결과 일관성이 떨어짐. 철자를 올바르게 구현하는 데 직면한 도전과 그 이유에 대해 덜 기술적인 설명을 읽고 싶음. SD3가 오래된 이미지의 텍스트 문제를 정리하거나 수정할 수 있는지 궁금함. SD3의 발표가 매우 흥미로움. 논문은 블로그보다 훨씬 더 자세한 내용을 담고 있음. 논문의 주요 내용은 더 표현력 있는 텍스트 인코더를 포함할 수 있는 아키텍처를 가지고 있으며, 이것이 복잡한 장면에 도움이 됨을 보여줌. 훈련 측면에서 이 스택의 한계에 도달하지 않았으므로, SD3.1이 더 개선될 것으로 기대하고, SD4는 비디오 처리를 위해 더 많은 프론트 엔드 인코딩을 추가할 수 있을 것으로 예상함. SD3의 텍스트 렌더링 개선은 좋지만, 손과 손가락을 생성하는 것은 여전히 어려움. 예시 이미지에는 픽셀화된 마법사를 제외하고 인간의 손이 포함되어 있지 않으며, 원숭이의 손은 다소 이상함. 이 아키텍처는 비디오로 쉽게 확장될 수 있을 만큼 충분히 유연함. LLaMA의 트랜스포머 블록처럼 또 다른 "기초" 블록이 될 것으로 기대됨. 텍스트 인코딩/타임스텝 조건을 블록에 다양한 방식으로 통합할 수 있을 만큼 충분히 일반적임. 위치 인코딩(2D RoPE?)과 관련하여 놀아볼 것 외에는 할 일이 거의 남아 있지 않음. 트랜스포머를 확장하고 양자화/최적화에 집중하여 이 스택을 모든 곳에서 제대로 실행할 수 있도록 함. 한때 '오픈'에 전념했거나 이전에 오픈이었던 많은 회사들이 점점 더 폐쇄적으로 변하고 있음. Stability AI가 이러한 연구 논문을 공개하는 것에 감사함. Stability AI와 대조적으로, OpenAI는 가장 폐쇄적인 AI 연구소임. Deep Mind조차 더 많은 논문을 발표함. OpenAI 내부에서 "돈을 위해 여기에 있다!"고 공개적으로 말하는 사람이 있는지 궁금함. SamA가 Elon의 재판에 대해 최근에 쓴 편지는 푸틴이 우크라이나를 '탈나치화'하기 위해 침략한다고 말하는 것만큼 진실함.
Hacker News 의견
Stability AI의 오픈 소스에 대한 헌신이 매우 흥미롭고, 그들이 가능한 오랫동안 운영되기를 바람.
Stable Diffusion 3의 텍스트 렌더링이 인상적이지만, 텍스트에 항상 특유의 과도하게 처리된 느낌이 있음.
SD3가 다운로드 가능한지 여부에 대한 질문.
이미지 생성기가 마침내 철자를 올바르게 구현하기 시작한 것이 매우 흥미로움.
SD3의 발표가 매우 흥미로움.
SD3의 텍스트 렌더링 개선은 좋지만, 손과 손가락을 생성하는 것은 여전히 어려움.
이 아키텍처는 비디오로 쉽게 확장될 수 있을 만큼 충분히 유연함.
한때 '오픈'에 전념했거나 이전에 오픈이었던 많은 회사들이 점점 더 폐쇄적으로 변하고 있음.
Stability AI와 대조적으로, OpenAI는 가장 폐쇄적인 AI 연구소임.