Stable Diffusion - โอเพนซอร์ส Text-To-Image ที่คล้ายกับ DALL-E
(github.com/CompVis)- ฝึกโมเดล Latent Diffusion กับภาพขนาด 512x512 ในฐานข้อมูล LAION-5B
- ใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 คล้ายกับ Imagen ของ Google
- มีน้ำหนักเบา จึงทำงานได้ด้วย GPU เพียง 1 ตัวที่มี VRAM มากกว่า 10GB
- เป็นความร่วมมือและการสนับสนุนจาก Stability AI และนักวิจัยของ LAION
1 ความคิดเห็น
ว่ากันว่าในงานแนวภาพประกอบศิลปะสมัยใหม่ ผลลัพธ์ออกมาดีกว่า DALL-E 2 หรือ MidJourney เสียอีก
มีการบอกกันใน Discord ของนักพัฒนาว่าสามารถรันได้บน Mac M1 ด้วย
อย่างแรกเลย ข้อได้เปรียบใหญ่คือมีข้อจำกัดด้านฮาร์ดแวร์น้อย ทำให้ใคร ๆ ก็ใช้งานได้ง่าย
แน่นอนว่าแม้จะเป็นโอเพนซอร์ส แต่ตอนนี้ยังเข้าถึงได้เพื่อการใช้งานเชิงวิชาการเท่านั้น
รัน AI สร้างภาพแบบ DALL-E ได้ด้วยตัวเองโดยตรง
Imagen - โมเดล diffusion แบบ text-to-image ของ Google
LAION-400M - ชุดข้อมูลคู่ภาพ-ข้อความจำนวน 400 ล้านรายการ