Diffusion Transformers(DiT)는 당시 버클리 박사과정생인 William Peebles이 주도하였으며, 해당 논문은 가장 저명한 컴퓨터비전학회인 CVPR에서 '참신성 없음 (Lack of Novelty)'로 확실하게 거절되었습니다. 이후 ICCV에 출판되었고 저자는 졸업, OpenAI 입사 후 곧바로 Sora 프로젝트를 리드합니다.
DiT의 아키텍처는 Diffusion model + Transformer 아키텍처로, 당시 Diffusion model에서 U-Net 구조를 활용한 이미지 복원의 월등한 성능은 익히 알려져 있었는데, 이를 CNN 기반이 아닌, Vision Transformer와 Patchify 구조로 변경한 점입니다. 따라서 논문의 주안점은 ViT 아키텍처 도입을 통한 'Scaling Law'를 증명하는 데에 대부분을 할애하며, 실질적 제안 방법은 본문에서 한 페이지도 채 되지 않습니다.
세간의 대중들의 관심과 다르게, 학계에 있는 사람들은 이런 식의 방향이 점차 많은 관심과 인용을 받는 것에 상당한 우려를 표하고 있습니다. 더 많은 (좋은) 데이터, 그리고 막대한 컴퓨팅 자원, 마지막으로 Scaling Law가 보장되는 아키텍처만 있다면 더 이상의 어떤 영리한 해킹이나 발명도 필요 없어 보이기 때문입니다. 연구자들이 궁리해서 만든 스마트한 기법보다 단지 GPU 100장을 더 추가한 결과가 항상 낫다면, 상당히 유쾌한 기분은 아닐겁니다.
내용과 더불어 개인적으로 알고있던 TMI들을 첨언합니다.