Stable Diffusion - โอเพนซอร์ส Text-To-Image ที่คล้ายกับ DALL-E

xguru · 2022-08-16T10:07:51+09:00

ฝึกโมเดล Latent Diffusion กับภาพขนาด 512x512 ในฐานข้อมูล LAION-5B ใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 คล้ายกับ Imagen ของ Google มีน้ำหนักเบา จึงทำงานได้ด้วย GPU เพียง 1 ตัวที่มี VRAM มากกว่า 10GB เป็นความร่วมมือและการสนับสนุนจาก Stability AI และนักวิจัยของ LAION

(github.com/CompVis)

11 คะแนน โดย xguru 2022-08-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ฝึกโมเดล Latent Diffusion กับภาพขนาด 512x512 ในฐานข้อมูล LAION-5B
ใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 คล้ายกับ Imagen ของ Google
มีน้ำหนักเบา จึงทำงานได้ด้วย GPU เพียง 1 ตัวที่มี VRAM มากกว่า 10GB
เป็นความร่วมมือและการสนับสนุนจาก Stability AI และนักวิจัยของ LAION

1 ความคิดเห็น

xguru 2022-08-16

ว่ากันว่าในงานแนวภาพประกอบศิลปะสมัยใหม่ ผลลัพธ์ออกมาดีกว่า DALL-E 2 หรือ MidJourney เสียอีก
มีการบอกกันใน Discord ของนักพัฒนาว่าสามารถรันได้บน Mac M1 ด้วย
อย่างแรกเลย ข้อได้เปรียบใหญ่คือมีข้อจำกัดด้านฮาร์ดแวร์น้อย ทำให้ใคร ๆ ก็ใช้งานได้ง่าย
แน่นอนว่าแม้จะเป็นโอเพนซอร์ส แต่ตอนนี้ยังเข้าถึงได้เพื่อการใช้งานเชิงวิชาการเท่านั้น

รัน AI สร้างภาพแบบ DALL-E ได้ด้วยตัวเองโดยตรง
Imagen - โมเดล diffusion แบบ text-to-image ของ Google
LAION-400M - ชุดข้อมูลคู่ภาพ-ข้อความจำนวน 400 ล้านรายการ

Stable Diffusion - โอเพนซอร์ส Text-To-Image ที่คล้ายกับ DALL-E

บทความที่เกี่ยวข้อง

1 ความคิดเห็น