Hacker News 의견

  • Stability AI의 오픈 소스에 대한 헌신이 매우 흥미롭고, 그들이 가능한 오랫동안 운영되기를 바람.

    • Stable Diffusion 3이 여전히 OpenAI의 CLIP을 토큰화와 텍스트 임베딩에 사용하는지 궁금함.
    • 모델 아키텍처의 해당 부분을 개선하여 텍스트와 이미지 프롬프트에 더 잘 부합하도록 할 것이라고 단순히 가정함.
  • Stable Diffusion 3의 텍스트 렌더링이 인상적이지만, 텍스트에 항상 특유의 과도하게 처리된 느낌이 있음.

    • 텍스트 색상이 항상 한 가지 값으로 높아져서 고품질 이미지에 텍스트를 아마추어처럼 단순히 추가한 것처럼 보임.
  • SD3가 다운로드 가능한지 여부에 대한 질문.

    • 초기 버전의 SD를 로컬에서 실행했는데 매우 좋았음.
    • 많은 LLM들이 자체 호스팅이 유망했던 것처럼 SAAS로 전환되었는지 궁금함.
  • 이미지 생성기가 마침내 철자를 올바르게 구현하기 시작한 것이 매우 흥미로움.

    • DALL-E 3의 철자 능력이 부각되었지만 Bing을 사용해 본 결과 일관성이 떨어짐.
    • 철자를 올바르게 구현하는 데 직면한 도전과 그 이유에 대해 덜 기술적인 설명을 읽고 싶음.
    • SD3가 오래된 이미지의 텍스트 문제를 정리하거나 수정할 수 있는지 궁금함.
  • SD3의 발표가 매우 흥미로움.

    • 논문은 블로그보다 훨씬 더 자세한 내용을 담고 있음.
    • 논문의 주요 내용은 더 표현력 있는 텍스트 인코더를 포함할 수 있는 아키텍처를 가지고 있으며, 이것이 복잡한 장면에 도움이 됨을 보여줌.
    • 훈련 측면에서 이 스택의 한계에 도달하지 않았으므로, SD3.1이 더 개선될 것으로 기대하고, SD4는 비디오 처리를 위해 더 많은 프론트 엔드 인코딩을 추가할 수 있을 것으로 예상함.
  • SD3의 텍스트 렌더링 개선은 좋지만, 손과 손가락을 생성하는 것은 여전히 어려움.

    • 예시 이미지에는 픽셀화된 마법사를 제외하고 인간의 손이 포함되어 있지 않으며, 원숭이의 손은 다소 이상함.
  • 이 아키텍처는 비디오로 쉽게 확장될 수 있을 만큼 충분히 유연함.

    • LLaMA의 트랜스포머 블록처럼 또 다른 "기초" 블록이 될 것으로 기대됨.
    • 텍스트 인코딩/타임스텝 조건을 블록에 다양한 방식으로 통합할 수 있을 만큼 충분히 일반적임.
    • 위치 인코딩(2D RoPE?)과 관련하여 놀아볼 것 외에는 할 일이 거의 남아 있지 않음.
    • 트랜스포머를 확장하고 양자화/최적화에 집중하여 이 스택을 모든 곳에서 제대로 실행할 수 있도록 함.
  • 한때 '오픈'에 전념했거나 이전에 오픈이었던 많은 회사들이 점점 더 폐쇄적으로 변하고 있음.

    • Stability AI가 이러한 연구 논문을 공개하는 것에 감사함.
  • Stability AI와 대조적으로, OpenAI는 가장 폐쇄적인 AI 연구소임.

    • Deep Mind조차 더 많은 논문을 발표함.
    • OpenAI 내부에서 "돈을 위해 여기에 있다!"고 공개적으로 말하는 사람이 있는지 궁금함.
    • SamA가 Elon의 재판에 대해 최근에 쓴 편지는 푸틴이 우크라이나를 '탈나치화'하기 위해 침략한다고 말하는 것만큼 진실함.