- เผยแพร่งานวิจัยที่เจาะลึกเทคโนโลยีเบื้องหลังการทำงานของ Stable Diffusion 3
- SD3 เหนือกว่าระบบสร้างภาพจากข้อความรุ่นล้ำสมัยอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1 ในด้านตัวอักษรบนภาพและการทำตามพรอมป์ต โดยอ้างอิงจากการประเมินความชอบของมนุษย์
- สถาปัตยกรรมใหม่ Multimodal Diffusion Transformer (MMDiT) ใช้ชุดน้ำหนักแยกสำหรับการแทนภาพและภาษา ช่วยเพิ่มความเข้าใจข้อความและความสามารถด้านการสะกดเมื่อเทียบกับ SD3 รุ่นก่อนหน้า
ประสิทธิภาพ
- ประเมินประสิทธิภาพโดยอาศัยฟีดแบ็กจากมนุษย์ ด้วยการเปรียบเทียบภาพเอาต์พุตของ Stable Diffusion 3 กับโมเดลเปิดหลายตัว เช่น SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 และ Pixart-α รวมถึงระบบปิดซอร์สอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1
- ผลการทดสอบแสดงให้เห็นว่า Stable Diffusion 3 มีประสิทธิภาพทัดเทียมหรือเหนือกว่าระบบสร้างภาพจากข้อความรุ่นล่าสุดในทุกด้านข้างต้น
- ในการทดสอบอนุมานเบื้องต้นที่ยังไม่ได้ปรับแต่ง โมเดล SD3 ที่ใหญ่ที่สุดมีพารามิเตอร์ 8B พอดีกับ VRAM 24GB ของ RTX 4090 และใช้เวลา 34 วินาทีในการสร้างภาพความละเอียด 1024x1024 เมื่อใช้การสุ่มตัวอย่าง 50 ขั้น
- ในช่วงเปิดตัวแรก จะมี Stable Diffusion 3 หลายรุ่นตั้งแต่ 800m ไปจนถึงโมเดลพารามิเตอร์ 8B เพื่อช่วยลดข้อจำกัดด้านฮาร์ดแวร์เพิ่มเติม
รายละเอียดสถาปัตยกรรม
- สำหรับการสร้างภาพจากข้อความ โมเดลต้องพิจารณาทั้งสองโมดาลิตีคือข้อความและภาพ
- สถาปัตยกรรมใหม่นี้เรียกว่า MMDiT ซึ่งอ้างถึงความสามารถในการจัดการโมดาลิตีที่หลากหลาย
- เช่นเดียวกับ Stable Diffusion รุ่นก่อนหน้า มีการใช้โมเดลที่ผ่านการพรีเทรนเพื่อดึงการแทนข้อความและภาพที่เหมาะสม
- เนื่องจาก embedding ของข้อความและภาพมีความแตกต่างกันอย่างมากในเชิงแนวคิด จึงใช้ชุดน้ำหนักแยกสำหรับทั้งสองโมดาลิตี
- ด้วยแนวทางนี้ ข้อมูลสามารถไหลระหว่างโทเคนของภาพและข้อความได้ ช่วยยกระดับความเข้าใจโดยรวมและตัวอักษรบนภาพของผลลัพธ์
- สถาปัตยกรรมนี้ยังสามารถขยายไปสู่มัลติโมดัลรูปแบบอื่น เช่น วิดีโอ ได้อย่างง่ายดาย
การปรับปรุง Rectified Flows ด้วย Reweighting
- Stable Diffusion 3 ใช้สูตร Rectified Flow (RF) ที่เชื่อมข้อมูลกับ noise ในระหว่างการฝึกด้วยวิถีเชิงเส้น
- สิ่งนี้สร้างเส้นทางการอนุมานที่ตรงมากขึ้น ทำให้สามารถสุ่มตัวอย่างได้ด้วยจำนวนขั้นที่น้อยลง
- นอกจากนี้ ยังมีการนำตารางการสุ่มตัวอย่างวิถีแบบใหม่เข้าสู่กระบวนการฝึก โดยให้น้ำหนักกับช่วงกลางของวิถีมากขึ้น
- เมื่อทดสอบแนวทางนี้เทียบกับวิถีการแพร่กระจายแบบอื่น พบว่าสูตร RF เดิมให้ผลดีขึ้นในระบอบการสุ่มตัวอย่างที่มีขั้นน้อย แต่ประสิทธิภาพสัมพัทธ์ลดลงเมื่อจำนวนขั้นมากขึ้น
- ในทางกลับกัน RF แบบถ่วงน้ำหนักใหม่ช่วยเพิ่มประสิทธิภาพได้อย่างสม่ำเสมอ
การขยายขนาดของโมเดล Rectified Flow Transformer
- มีการศึกษาการขยายขนาดสำหรับการสังเคราะห์ภาพจากข้อความ โดยใช้สูตร Rectified Flow แบบถ่วงน้ำหนักใหม่และแบ็กโบน MMDiT
- สังเกตเห็นการลดลงอย่างราบรื่นของ validation loss ทั้งตามขนาดโมเดลและจำนวนขั้นการฝึก
- เพื่อทดสอบว่าสิ่งนี้แปลไปเป็นการปรับปรุงเอาต์พุตของโมเดลอย่างมีนัยสำคัญหรือไม่ ได้มีการประเมินทั้งเมตริกจัดแนวภาพอัตโนมัติ (GenEval) และคะแนนความชอบของมนุษย์ (ELO)
- ผลลัพธ์แสดงให้เห็นความสัมพันธ์ที่แข็งแกร่งระหว่างเมตริกเหล่านี้กับ validation loss
- แนวโน้มการขยายขนาดยังไม่แสดงสัญญาณอิ่มตัว ทำให้มีมุมมองเชิงบวกว่าสามารถปรับปรุงประสิทธิภาพของโมเดลในอนาคตได้ต่อไป
ตัวเข้ารหัสข้อความที่ยืดหยุ่น
- สำหรับการอนุมาน สามารถลดความต้องการหน่วยความจำของ SD3 ได้อย่างมากโดยถอด T5 text encoder ขนาด 4.7B พารามิเตอร์ที่กินหน่วยความจำสูงออก โดยมีการสูญเสียประสิทธิภาพเพียงเล็กน้อย
- การถอด text encoder นี้ออกไม่ส่งผลต่อความสวยงามทางภาพ (อัตราชนะหลังถอด: 50%) แต่ทำให้การทำตามข้อความลดลงเล็กน้อย (อัตราชนะ 46%)
- อย่างไรก็ตาม การรวม T5 ไว้ยังคงเป็นสิ่งที่แนะนำเพื่อดึงศักยภาพเต็มรูปแบบของ SD3 ในการสร้างข้อความ
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ความมุ่งมั่นของ Stability AI ต่อโอเพนซอร์สนั้นน่าสนใจมาก และหวังว่าพวกเขาจะดำเนินงานต่อไปได้นานที่สุดเท่าที่จะเป็นไปได้
การเรนเดอร์ข้อความของ Stable Diffusion 3 น่าประทับใจ แต่ตัวข้อความยังคงมีความรู้สึกเหมือนถูกแต่งเกินไปแบบเฉพาะตัวอยู่เสมอ
มีคำถามว่า SD3 สามารถดาวน์โหลดได้หรือไม่
น่าสนใจมากที่ตัวสร้างภาพในที่สุดก็เริ่มสะกดคำได้ถูกต้อง
การเปิดตัว SD3 น่าสนใจมาก
การปรับปรุงการเรนเดอร์ข้อความของ SD3 เป็นเรื่องที่ดี แต่การสร้างมือและนิ้วยังคงเป็นเรื่องยาก
สถาปัตยกรรมนี้ยืดหยุ่นมากพอที่จะขยายไปสู่วิดีโอได้อย่างง่ายดาย
หลายบริษัทที่ครั้งหนึ่งเคยทุ่มเทให้กับความ “เปิด” หรือเคยเปิดมาก่อน กำลังค่อย ๆ ปิดมากขึ้นเรื่อย ๆ
เมื่อเทียบกับ Stability AI แล้ว OpenAI คือแล็บวิจัย AI ที่ปิดมากที่สุด