Stability AI เปิดตัวโมเดล Stable Diffusion XL 1.0
(techcrunch.com)- โมเดล Text-to-Image ที่ล้ำหน้าที่สุด
- ให้ภาพที่สมจริงยิ่งขึ้น สีสันแม่นยำขึ้น รวมถึงคอนทราสต์ เงา และแสงที่ดีกว่าเวอร์ชันก่อนหน้า
- มีพารามิเตอร์ 3.5 พันล้านตัว
- สามารถสร้างภาพความละเอียด 1 เมกะพิกเซลได้ภายในไม่กี่วินาที
- ปรับแต่งได้ และสามารถทำ fine-tuning ตามคอนเซปต์และสไตล์ได้
- การสร้างข้อความได้รับการปรับปรุง ทำให้การสร้างข้อความขั้นสูงและความสามารถในการอ่านดีขึ้น
- รองรับ inpainting, outpainting และพรอมป์ตแบบ image-to-image
2 ความคิดเห็น
โพสต์ประกาศอย่างเป็นทางการนี้ถูกนำมาให้ GPT-4 สร้างคำอธิบายแบบละเอียดโดยอัตโนมัติ
ประกาศ SDXL 1.0 (ANNOUNCING SDXL 1.0)
บทนำ
ทีม Stability AI มีความภูมิใจที่จะเปิดตัว SDXL 1.0 ในฐานะโมเดลแบบเปิด ซึ่งเป็นก้าวถัดไปของวิวัฒนาการของโมเดลสร้างภาพจากข้อความ ต่อเนื่องจากการเปิดตัว SDXL 0.9 แบบจำกัดและเพื่อการวิจัยเท่านั้น เวอร์ชันเต็มของ SDXL ได้รับการพัฒนาให้เป็นโมเดลสร้างภาพแบบเปิดที่ดีที่สุดในโลก
สรุป
SDXL 1.0 เป็นโมเดลภาพหลักของ Stability AI และเป็นโมเดลแบบเปิดที่ดีที่สุดสำหรับการสร้างภาพ เราได้เปรียบเทียบกับโมเดลอื่นหลากหลายแบบ และได้ข้อสรุปว่าโดยรวมแล้วผู้คนชื่นชอบภาพที่สร้างโดย SDXL 1.0 มากกว่าโมเดลแบบเปิดอื่น ๆ ผลการวิจัยนี้มาจากข้อมูลความชอบที่เก็บตลอดหลายสัปดาห์จากการสร้างภาพของโมเดลทดลองใน Discord ของเรา และจากการทดสอบภายนอก
SDXL สามารถสร้างภาพคุณภาพสูงได้แทบทุกสไตล์ศิลปะ และเป็นโมเดลแบบเปิดที่ดีที่สุดด้านความสมจริงระดับภาพถ่าย ผู้ใช้สามารถพรอมป์ต์ภาพที่มีเอกลักษณ์ได้โดยไม่มี “กลิ่นอาย” เฉพาะตัวที่โมเดลยัดเยียดมา ทำให้มีอิสระด้านสไตล์อย่างเต็มที่ SDXL 1.0 ได้รับการจูนมาเป็นพิเศษให้ให้สีสันที่คมชัดและแม่นยำ และมีคอนทราสต์ แสง และเงาที่ดีกว่ารุ่นก่อนหน้า นอกจากนี้ SDXL ยังสามารถสร้างแนวคิดที่ปกติโมเดลภาพมักเรนเดอร์ได้ยาก เช่น มือและข้อความ หรือองค์ประกอบที่จัดวางเชิงพื้นที่ (เช่น ผู้หญิงที่กำลังไล่ตามสุนัขอยู่ด้านหลัง)
SDXL ต้องใช้เพียงไม่กี่คำก็สามารถสร้างภาพที่ซับซ้อน รายละเอียดสูง และน่าพึงพอใจทางสุนทรียะได้ ผู้ใช้ไม่จำเป็นต้องใช้คำขยายอย่าง “masterpiece” เพื่อให้ได้ภาพคุณภาพสูงอีกต่อไป นอกจากนี้ SDXL ยังเข้าใจความแตกต่างระหว่างแนวคิดอย่าง "The Red Square" (สถานที่ที่มีชื่อเสียง) และ "red square" (รูปทรง) ได้
SDXL 1.0 มีจำนวนพารามิเตอร์มากที่สุดในบรรดาโมเดลภาพแบบเปิด และอิงกับสถาปัตยกรรมใหม่ที่ล้ำสมัย ซึ่งประกอบด้วยโมเดลฐาน 3.5B พารามิเตอร์ และ refiner 6.6B พารามิเตอร์ โมเดลทั้งหมดประกอบด้วยไปป์ไลน์ mixture of experts สำหรับ latent diffusion: ในขั้นแรก โมเดลฐานจะสร้าง latent (ที่มีสัญญาณรบกวน) จากนั้นจะถูกประมวลผลต่อโดยโมเดล refinement ที่เชี่ยวชาญในขั้นตอน denoising สุดท้าย ทั้งนี้ โมเดลฐานยังสามารถใช้งานเป็นโมดูลอิสระได้อีกด้วย สถาปัตยกรรมสองขั้นตอนนี้มอบแนวทางที่แข็งแกร่งสำหรับการสร้างภาพ และให้ผลลัพธ์ที่ดียิ่งขึ้น
อ้างอิง
Stability AI Blog: บล็อกของ Stability AI ให้ข้อมูลโดยละเอียดเกี่ยวกับงานวิจัยและประกาศล่าสุดของบริษัท คุณสามารถดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลใหม่อย่าง SDXL 1.0 ได้ผ่านบล็อกนี้
https://stability.ai/blog
Stable Diffusion: เว็บไซต์นี้ให้ข้อมูลโดยละเอียดเกี่ยวกับเทคโนโลยี Stable Diffusion ของ Stability AI เทคโนโลยีนี้เป็นองค์ประกอบหลักของ SDXL 1.0 และคุณสามารถทำความเข้าใจเชิงลึกเกี่ยวกับเทคโนโลยีนี้ได้ผ่านเว็บไซต์นี้
https://stability.ai/stable-diffusion
Discord Community: คอมมูนิตี้ Discord นี้เป็นที่ที่นักวิจัยและผู้ใช้ของ Stability AI มารวมตัวกันเพื่อแชร์และพูดคุยเกี่ยวกับผลงานของกันและกัน คุณสามารถรับฟังประสบการณ์ของผู้ใช้คนอื่นที่ใช้งานโมเดลอย่าง SDXL 1.0 ได้ผ่านคอมมูนิตี้นี้
https://discord.gg/stablediffusion
มีรายละเอียดเพิ่มเติมเล็กน้อยอยู่ในประกาศอย่างเป็นทางการของ StabilityAI จึงขอฝากลิงก์ไว้ครับ :)
https://stability.ai/blog/stable-diffusion-sdxl-1-announcement