원본 글을 요약기에 넣어보니까 이렇게 나오네요.
- 이 기사는 스캔 가능한 QR 코드 이미지를 생성할 수 있는 새로운 ControlNet 모델에 대해 논의합니다. ControlNet은 인간 눈에는 보통으로 보이는 이미지에 숨겨진 정보를 인코딩할 수 있습니다.
- 저자와 그의 동기들은 이전에 매개변수화된 QR 코드 생성기를 만들었지만 업데이트를 계속하지 않았습니다. 현재 아이디어는 Stable Diffusion이 출시된 후에 생각해냈습니다.
- 초기 ControlNet 시도는 중국 전통 패턴을 학습하는 것이었습니다. 저자는 AIGC All in One 문서와 HuggingFace JAX/Diffusers를 사용하여 학습했다고 언급합니다.
- ControlNet을 학습하기 위해서는 많은 양의 데이터와 컴퓨팅 파워가 필요합니다. 연구에서는 최대 300,000개의 이미지와 600 A100 GPU 시간이 사용되었습니다. 저자는 큰 학습률로 100,000개의 이미지 버전을 학습했습니다.
- 학습 후, 저자는 다양한 Checkpoint + LoRA + QR Code ControlNet 조합을 테스트하여 중국 전통 패턴, 우키요에, 2D, 잉크, 원근, 추상 및 PCB 스타일과 같은 다양한 스타일의 스캔 가능한 QR 코드를 생성했습니다.
- 생성된 QR 코드에는 중국 전통 패턴, 우키요에 스타일, 애니메이션, 일러스트, 잉크, 수채화, 3D 및 추상 스타일이 있습니다.
- 이 프로젝트는 몇 명의 동기들과 연구실의 GPU 자원과의 협력에 의존했습니다. Google TPU 서버도 학습 속도를 높이는 데 도움이 되었습니다.
- 저자는 앞으로 WeChat 공식 계정과 웹사이트에서 모델과 기술 문서를 공개할 계획입니다.
- 이 기사는 AI 생성 모델이 빠르게 발전하고 있음을 언급하며, 대학교를 다시 하고 싶다는 욕구를 표현합니다.
- 저자는 TPU 서버를 제공해준 Google과 HuggingFace에게 "즐거운 시간을 보낼 수 있었다"고 감사의 말을 전합니다.
중국어 블로그 글 : https://mp.weixin.qq.com/s/i4WR5ULH1ZZYl8Watf3EPw