- SD v1 ได้เปลี่ยนโฉมหน้าของโมเดล AI โอเพนซอร์สไปอย่างสิ้นเชิง
- SD v2 ฝึกโมเดล text-to-image ด้วยตัวเข้ารหัสข้อความใหม่ OpenCLIP ทำให้คุณภาพของภาพดีขึ้นอย่างมากเมื่อเทียบกับ v1
- สามารถสร้างภาพขนาด 512x512 และ 768x768 ได้
- ฝึกด้วยชุดข้อมูลย่อยแนว aesthetic ของ LAION-5B (พร้อมทั้งใช้ตัวกรอง NSFW เพื่อตัดคอนเทนต์สำหรับผู้ใหญ่ออก)
- มีโมเดล Upscaler Diffusion ในตัว ช่วยเพิ่มความละเอียดของภาพได้ 4 เท่า
- หมายความว่าสามารถอัปสเกลภาพ 128x128 เป็น 512x512 ได้
- กล่าวคือ ตอนนี้ SD v2 สามารถสร้างภาพที่มีความละเอียดมากกว่า 2048x2048 ได้แล้ว
- โมเดล Depth-to-Image Diffusion : depth2img
- ขยายความสามารถ image-to-image เดิมไปสู่ความเป็นไปได้ใหม่
- อนุมาน Depth ของภาพอินพุต แล้วใช้ทั้งข้อความและข้อมูลความลึกเพื่อสร้างภาพใหม่
- กล่าวคือ สามารถสร้างให้แตกต่างเฉพาะบางส่วนตามความลึกของภาพได้
- ปรับปรุง Inpainting Diffusion Model
- เช่นเดียวกับ SD v1 มีการปรับแต่งให้สามารถรันได้แม้ในสภาพแวดล้อมที่ใช้ GPU เดี่ยว
1 ความคิดเห็น
ฝั่งเราก็ให้บริการโดยเอา upscaler ไปต่อกับ SD v1 เหมือนกัน (สร้างที่ 512 x 512 แล้วถ้าผู้ใช้ต้องการก็ upscale แนวนอนแนวตั้งอย่างละ 4 เท่า) ซึ่งพบว่าการใช้ชุดนี้ทั้งเร็วกว่าและดีกว่าการสร้างภาพขนาดใหญ่ด้วย SD v1 โดยตรง