11 คะแนน โดย xguru 2022-08-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ฝึกโมเดล Latent Diffusion กับภาพขนาด 512x512 ในฐานข้อมูล LAION-5B
  • ใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 คล้ายกับ Imagen ของ Google
  • มีน้ำหนักเบา จึงทำงานได้ด้วย GPU เพียง 1 ตัวที่มี VRAM มากกว่า 10GB
  • เป็นความร่วมมือและการสนับสนุนจาก Stability AI และนักวิจัยของ LAION

1 ความคิดเห็น

 
xguru 2022-08-16

ว่ากันว่าในงานแนวภาพประกอบศิลปะสมัยใหม่ ผลลัพธ์ออกมาดีกว่า DALL-E 2 หรือ MidJourney เสียอีก
มีการบอกกันใน Discord ของนักพัฒนาว่าสามารถรันได้บน Mac M1 ด้วย
อย่างแรกเลย ข้อได้เปรียบใหญ่คือมีข้อจำกัดด้านฮาร์ดแวร์น้อย ทำให้ใคร ๆ ก็ใช้งานได้ง่าย
แน่นอนว่าแม้จะเป็นโอเพนซอร์ส แต่ตอนนี้ยังเข้าถึงได้เพื่อการใช้งานเชิงวิชาการเท่านั้น

รัน AI สร้างภาพแบบ DALL-E ได้ด้วยตัวเองโดยตรง
Imagen - โมเดล diffusion แบบ text-to-image ของ Google
LAION-400M - ชุดข้อมูลคู่ภาพ-ข้อความจำนวน 400 ล้านรายการ