เผยแพร่งานวิจัยของ Stable Diffusion 3

xguru · 2024-03-06T10:46:01+09:00

เผยแพร่งานวิจัยที่เจาะลึกเทคโนโลยีเบื้องหลังการทำงานของ Stable Diffusion 3 SD3 เหนือกว่าระบบสร้างภาพจากข้อความรุ่นล้ำสมัยอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1 ในด้านตัวอักษรบนภาพและการทำตามพรอมป์ต โดยอ้างอิงจากการประเมินความชอบของมนุษย์ สถาปัตยกรรมใหม่ Multimodal Diffusion Transformer (MMDiT) ใช้ชุดน้ำหนักแยกสำหรับการแทนภาพและภาษา ช่วยเพิ่มความเข้าใจข้อความและความสามารถด้านการสะกดเมื่อเทียบกับ SD3 รุ่นก่อนหน้า ประสิทธิภาพ ประเมินประสิทธิภาพโดยอาศัยฟีดแบ็กจากมนุษย์ ด้วยการเปรียบเทียบภาพเอาต์พุตของ Stable Diffusion 3 กับโมเดลเปิดหลายตัว เช่น SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 และ Pixart-α รวมถึงระบบปิดซอร์สอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1 ผลการทดสอบแสดงให้เห็นว่า Stable Diffusion 3 มีประสิทธิภาพทัดเทียมหรือเหนือกว่าระบบสร้างภาพจากข้อความรุ่นล่าสุดในทุกด้านข้างต้น ในการทดสอบอนุมานเบื้องต้นที่ยังไม่ได้ปรับแต่ง โมเดล SD3 ที่ใหญ่ที่สุดมีพารามิเตอร์ 8B พอดีกับ VRAM 24GB ของ RTX 4090 และใช้เวลา 34 วินาทีในการสร้างภาพความละเอียด 1024x1024 เมื่อใช้การสุ่มตัวอย่าง 50 ขั้น ในช่วงเปิดตัวแรก จะมี Stable Diffusion 3 หลายรุ่นตั้งแต่ 800m ไปจนถึงโมเดลพารามิเตอร์ 8B เพื่อช่วยลดข้อจำกัดด้านฮาร์ดแวร์เพิ่มเติม รายละเอียดสถาปัตยกรรม สำหรับการสร้างภาพจากข้อความ โมเดลต้องพิจารณาทั้งสองโมดาลิตีคือข้อความและภาพ สถาปัตยกรรมใหม่นี้เรียกว่า MMDiT ซึ่งอ้างถึงความสามารถในการจัดการโมดาลิตีที่หลากหลาย เช่นเดียวกับ Stable Diffusion รุ่นก่อนหน้า มีการใช้โมเดลที่ผ่านการพรีเทรนเพื่อดึงการแทนข้อความและภาพที่เหมาะสม เนื่องจาก embedding ของข้อความและภาพมีความแตกต่างกันอย่างมากในเชิงแนวคิด จึงใช้ชุดน้ำหนักแยกสำหรับทั้งสองโมดาลิตี ด้วยแนวทางนี้ ข้อมูลสามารถไหลระหว่างโทเคนของภาพและข้อความได้ ช่วยยกระดับความเข้าใจโดยรวมและตัวอักษรบนภาพของผลลัพธ์ สถาปัตยกรรมนี้ยังสามารถขยายไปสู่มัลติโมดัลรูปแบบอื่น เช่น วิดีโอ ได้อย่างง่ายดาย การปรับปรุง Rectified Flows ด้วย Reweighting Stable Diffusion 3 ใช้สูตร Rectified Flow (RF) ที่เชื่อมข้อมูลกับ noise ในระหว่างการฝึกด้วยวิถีเชิงเส้น สิ่งนี้สร้างเส้นทางการอนุมานที่ตรงมากขึ้น ทำให้สามารถสุ่มตัวอย่างได้ด้วยจำนวนขั้นที่น้อยลง นอกจากนี้ ยังมีการนำตารางการสุ่มตัวอย่างวิถีแบบใหม่เข้าสู่กระบวนการฝึก โดยให้น้ำหนักกับช่วงกลางของวิถีมากขึ้น เมื่อทดสอบแนวทางนี้เทียบกับวิถีการแพร่กระจายแบบอื่น พบว่าสูตร RF เดิมให้ผลดีขึ้นในระบอบการสุ่มตัวอย่างที่มีขั้นน้อย แต่ประสิทธิภาพสัมพัทธ์ลดลงเมื่อจำนวนขั้นมากขึ้น ในทางกลับกัน RF แบบถ่วงน้ำหนักใหม่ช่วยเพิ่มประสิทธิภาพได้อย่างสม่ำเสมอ การขยายขนาดของโมเดล Rectified Flow Transformer มีการศึกษาการขยายขนาดสำหรับการสังเคราะห์ภาพจากข้อความ โดยใช้สูตร Rectified Flow แบบถ่วงน้ำหนักใหม่และแบ็กโบน MMDiT สังเกตเห็นการลดลงอย่างราบรื่นของ validation loss ทั้งตามขนาดโมเดลและจำนวนขั้นการฝึก เพื่อทดสอบว่าสิ่งนี้แปลไปเป็นการปรับปรุงเอาต์พุตของโมเดลอย่างมีนัยสำคัญหรือไม่ ได้มีการประเมินทั้งเมตริกจัดแนวภาพอัตโนมัติ (GenEval) และคะแนนความชอบของมนุษย์ (ELO) ผลลัพธ์แสดงให้เห็นความสัมพันธ์ที่แข็งแกร่งระหว่างเมตริกเหล่านี้กับ validation loss แนวโน้มการขยายขนาดยังไม่แสดงสัญญาณอิ่มตัว ทำให้มีมุมมองเชิงบวกว่าสามารถปรับปรุงประสิทธิภาพของโมเดลในอนาคตได้ต่อไป ตัวเข้ารหัสข้อความที่ยืดหยุ่น สำหรับการอนุมาน สามารถลดความต้องการหน่วยความจำของ SD3 ได้อย่างมากโดยถอด T5 text encoder ขนาด 4.7B พารามิเตอร์ที่กินหน่วยความจำสูงออก โดยมีการสูญเสียประสิทธิภาพเพียงเล็กน้อย การถอด text encoder นี้ออกไม่ส่งผลต่อความสวยงามทางภาพ (อัตราชนะหลังถอด: 50%) แต่ทำให้การทำตามข้อความลดลงเล็กน้อย (อัตราชนะ 46%) อย่างไรก็ตาม การรวม T5 ไว้ยังคงเป็นสิ่งที่แนะนำเพื่อดึงศักยภาพเต็มรูปแบบของ SD3 ในการสร้างข้อความ

(stability.ai)

13 คะแนน โดย xguru 2024-03-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เผยแพร่งานวิจัยที่เจาะลึกเทคโนโลยีเบื้องหลังการทำงานของ Stable Diffusion 3
SD3 เหนือกว่าระบบสร้างภาพจากข้อความรุ่นล้ำสมัยอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1 ในด้านตัวอักษรบนภาพและการทำตามพรอมป์ต โดยอ้างอิงจากการประเมินความชอบของมนุษย์
สถาปัตยกรรมใหม่ Multimodal Diffusion Transformer (MMDiT) ใช้ชุดน้ำหนักแยกสำหรับการแทนภาพและภาษา ช่วยเพิ่มความเข้าใจข้อความและความสามารถด้านการสะกดเมื่อเทียบกับ SD3 รุ่นก่อนหน้า

ประสิทธิภาพ

ประเมินประสิทธิภาพโดยอาศัยฟีดแบ็กจากมนุษย์ ด้วยการเปรียบเทียบภาพเอาต์พุตของ Stable Diffusion 3 กับโมเดลเปิดหลายตัว เช่น SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 และ Pixart-α รวมถึงระบบปิดซอร์สอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1
ผลการทดสอบแสดงให้เห็นว่า Stable Diffusion 3 มีประสิทธิภาพทัดเทียมหรือเหนือกว่าระบบสร้างภาพจากข้อความรุ่นล่าสุดในทุกด้านข้างต้น
ในการทดสอบอนุมานเบื้องต้นที่ยังไม่ได้ปรับแต่ง โมเดล SD3 ที่ใหญ่ที่สุดมีพารามิเตอร์ 8B พอดีกับ VRAM 24GB ของ RTX 4090 และใช้เวลา 34 วินาทีในการสร้างภาพความละเอียด 1024x1024 เมื่อใช้การสุ่มตัวอย่าง 50 ขั้น
ในช่วงเปิดตัวแรก จะมี Stable Diffusion 3 หลายรุ่นตั้งแต่ 800m ไปจนถึงโมเดลพารามิเตอร์ 8B เพื่อช่วยลดข้อจำกัดด้านฮาร์ดแวร์เพิ่มเติม

รายละเอียดสถาปัตยกรรม

สำหรับการสร้างภาพจากข้อความ โมเดลต้องพิจารณาทั้งสองโมดาลิตีคือข้อความและภาพ
สถาปัตยกรรมใหม่นี้เรียกว่า MMDiT ซึ่งอ้างถึงความสามารถในการจัดการโมดาลิตีที่หลากหลาย
เช่นเดียวกับ Stable Diffusion รุ่นก่อนหน้า มีการใช้โมเดลที่ผ่านการพรีเทรนเพื่อดึงการแทนข้อความและภาพที่เหมาะสม
เนื่องจาก embedding ของข้อความและภาพมีความแตกต่างกันอย่างมากในเชิงแนวคิด จึงใช้ชุดน้ำหนักแยกสำหรับทั้งสองโมดาลิตี
ด้วยแนวทางนี้ ข้อมูลสามารถไหลระหว่างโทเคนของภาพและข้อความได้ ช่วยยกระดับความเข้าใจโดยรวมและตัวอักษรบนภาพของผลลัพธ์
สถาปัตยกรรมนี้ยังสามารถขยายไปสู่มัลติโมดัลรูปแบบอื่น เช่น วิดีโอ ได้อย่างง่ายดาย

การปรับปรุง Rectified Flows ด้วย Reweighting

Stable Diffusion 3 ใช้สูตร Rectified Flow (RF) ที่เชื่อมข้อมูลกับ noise ในระหว่างการฝึกด้วยวิถีเชิงเส้น
สิ่งนี้สร้างเส้นทางการอนุมานที่ตรงมากขึ้น ทำให้สามารถสุ่มตัวอย่างได้ด้วยจำนวนขั้นที่น้อยลง
นอกจากนี้ ยังมีการนำตารางการสุ่มตัวอย่างวิถีแบบใหม่เข้าสู่กระบวนการฝึก โดยให้น้ำหนักกับช่วงกลางของวิถีมากขึ้น
เมื่อทดสอบแนวทางนี้เทียบกับวิถีการแพร่กระจายแบบอื่น พบว่าสูตร RF เดิมให้ผลดีขึ้นในระบอบการสุ่มตัวอย่างที่มีขั้นน้อย แต่ประสิทธิภาพสัมพัทธ์ลดลงเมื่อจำนวนขั้นมากขึ้น
ในทางกลับกัน RF แบบถ่วงน้ำหนักใหม่ช่วยเพิ่มประสิทธิภาพได้อย่างสม่ำเสมอ

การขยายขนาดของโมเดล Rectified Flow Transformer

มีการศึกษาการขยายขนาดสำหรับการสังเคราะห์ภาพจากข้อความ โดยใช้สูตร Rectified Flow แบบถ่วงน้ำหนักใหม่และแบ็กโบน MMDiT
สังเกตเห็นการลดลงอย่างราบรื่นของ validation loss ทั้งตามขนาดโมเดลและจำนวนขั้นการฝึก
เพื่อทดสอบว่าสิ่งนี้แปลไปเป็นการปรับปรุงเอาต์พุตของโมเดลอย่างมีนัยสำคัญหรือไม่ ได้มีการประเมินทั้งเมตริกจัดแนวภาพอัตโนมัติ (GenEval) และคะแนนความชอบของมนุษย์ (ELO)
ผลลัพธ์แสดงให้เห็นความสัมพันธ์ที่แข็งแกร่งระหว่างเมตริกเหล่านี้กับ validation loss
แนวโน้มการขยายขนาดยังไม่แสดงสัญญาณอิ่มตัว ทำให้มีมุมมองเชิงบวกว่าสามารถปรับปรุงประสิทธิภาพของโมเดลในอนาคตได้ต่อไป

ตัวเข้ารหัสข้อความที่ยืดหยุ่น

สำหรับการอนุมาน สามารถลดความต้องการหน่วยความจำของ SD3 ได้อย่างมากโดยถอด T5 text encoder ขนาด 4.7B พารามิเตอร์ที่กินหน่วยความจำสูงออก โดยมีการสูญเสียประสิทธิภาพเพียงเล็กน้อย
การถอด text encoder นี้ออกไม่ส่งผลต่อความสวยงามทางภาพ (อัตราชนะหลังถอด: 50%) แต่ทำให้การทำตามข้อความลดลงเล็กน้อย (อัตราชนะ 46%)
อย่างไรก็ตาม การรวม T5 ไว้ยังคงเป็นสิ่งที่แนะนำเพื่อดึงศักยภาพเต็มรูปแบบของ SD3 ในการสร้างข้อความ

1 ความคิดเห็น

xguru 2024-03-06

ความคิดเห็นบน Hacker News

ความมุ่งมั่นของ Stability AI ต่อโอเพนซอร์สนั้นน่าสนใจมาก และหวังว่าพวกเขาจะดำเนินงานต่อไปได้นานที่สุดเท่าที่จะเป็นไปได้
- สงสัยว่า Stable Diffusion 3 ยังคงใช้ CLIP ของ OpenAI สำหรับการ tokenization และ text embedding อยู่หรือไม่
- คาดเอาง่าย ๆ ว่าพวกเขาจะปรับปรุงส่วนนั้นของสถาปัตยกรรมโมเดลเพื่อให้สอดคล้องกับพรอมป์ต์ข้อความและภาพได้ดียิ่งขึ้น
การเรนเดอร์ข้อความของ Stable Diffusion 3 น่าประทับใจ แต่ตัวข้อความยังคงมีความรู้สึกเหมือนถูกแต่งเกินไปแบบเฉพาะตัวอยู่เสมอ
- สีของข้อความมักถูกเร่งให้เด่นอยู่ที่ค่าเดียวเสมอ ทำให้ดูเหมือนเอาข้อความมาแปะเพิ่มบนภาพคุณภาพสูงแบบมือสมัครเล่น
มีคำถามว่า SD3 สามารถดาวน์โหลดได้หรือไม่
- เคยรัน SD รุ่นแรก ๆ บนเครื่องตัวเอง และมันดีมาก
- สงสัยว่ามันได้เปลี่ยนไปเป็น SAAS เหมือนกับที่ LLM จำนวนมากทำไปแล้ว ทั้งที่การโฮสต์เองเคยดูมีอนาคตหรือไม่
น่าสนใจมากที่ตัวสร้างภาพในที่สุดก็เริ่มสะกดคำได้ถูกต้อง
- แม้ความสามารถด้านการสะกดของ DALL-E 3 จะถูกพูดถึงมาก แต่จากที่ได้ลองใช้ Bing กลับพบว่ามันยังไม่สม่ำเสมอ
- อยากอ่านคำอธิบายที่เข้าใจง่ายขึ้นเกี่ยวกับความท้าทายในการทำให้สะกดคำได้ถูกต้องและเหตุผลเบื้องหลัง
- สงสัยว่า SD3 จะสามารถเก็บกวาดหรือแก้ไขปัญหาข้อความในภาพเก่า ๆ ได้หรือไม่
การเปิดตัว SD3 น่าสนใจมาก
- งานวิจัยให้รายละเอียดมากกว่าบล็อกอย่างเห็นได้ชัด
- ประเด็นสำคัญของงานวิจัยคือ มันมีสถาปัตยกรรมที่สามารถรวม text encoder ที่แสดงออกได้มากขึ้น และสิ่งนี้ช่วยกับฉากที่ซับซ้อน
- ในด้านการฝึก ยังไปไม่ถึงขีดจำกัดของสแตกนี้ ดังนั้นจึงคาดว่า SD3.1 จะดีขึ้นอีก และ SD4 อาจเพิ่มการเข้ารหัสฝั่งฟรอนต์เอนด์มากขึ้นเพื่อรองรับวิดีโอ
การปรับปรุงการเรนเดอร์ข้อความของ SD3 เป็นเรื่องที่ดี แต่การสร้างมือและนิ้วยังคงเป็นเรื่องยาก
- ภาพตัวอย่างไม่มีมือมนุษย์อยู่เลย ยกเว้นพ่อมดที่เป็นพิกเซล และมือของลิงก็ดูแปลกอยู่บ้าง
สถาปัตยกรรมนี้ยืดหยุ่นมากพอที่จะขยายไปสู่วิดีโอได้อย่างง่ายดาย
- คาดว่ามันจะกลายเป็นบล็อก “พื้นฐาน” อีกตัวหนึ่งเหมือนกับ transformer block ของ LLaMA
- มันมีความทั่วไปมากพอที่จะผนวกเงื่อนไข text encoding/timestep เข้าไปในบล็อกได้หลายรูปแบบ
- แทบไม่เหลืออะไรให้ทำมากนัก นอกจากลองเล่นกับ positional encoding (2D RoPE?)
- ขยายทรานส์ฟอร์เมอร์และโฟกัสที่การ quantization/optimization เพื่อให้สแตกนี้รันได้ดีจริงในทุกที่
หลายบริษัทที่ครั้งหนึ่งเคยทุ่มเทให้กับความ “เปิด” หรือเคยเปิดมาก่อน กำลังค่อย ๆ ปิดมากขึ้นเรื่อย ๆ
- ขอบคุณ Stability AI ที่เผยแพร่งานวิจัยนี้ออกมา
เมื่อเทียบกับ Stability AI แล้ว OpenAI คือแล็บวิจัย AI ที่ปิดมากที่สุด
- แม้แต่ Deep Mind ก็ยังเผยแพร่งานวิจัยมากกว่า
- สงสัยว่ามีใครใน OpenAI ที่พูดออกมาตรง ๆ ต่อสาธารณะบ้างไหมว่า “เราอยู่ที่นี่เพื่อเงิน!”
- จดหมายที่ SamA เขียนล่าสุดเกี่ยวกับคดีของ Elon นั้นจริงพอ ๆ กับที่ปูตินบอกว่าบุกยูเครนเพื่อ “ขจัดลัทธินาซี”