13 คะแนน โดย xguru 2024-03-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เผยแพร่งานวิจัยที่เจาะลึกเทคโนโลยีเบื้องหลังการทำงานของ Stable Diffusion 3
  • SD3 เหนือกว่าระบบสร้างภาพจากข้อความรุ่นล้ำสมัยอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1 ในด้านตัวอักษรบนภาพและการทำตามพรอมป์ต โดยอ้างอิงจากการประเมินความชอบของมนุษย์
  • สถาปัตยกรรมใหม่ Multimodal Diffusion Transformer (MMDiT) ใช้ชุดน้ำหนักแยกสำหรับการแทนภาพและภาษา ช่วยเพิ่มความเข้าใจข้อความและความสามารถด้านการสะกดเมื่อเทียบกับ SD3 รุ่นก่อนหน้า

ประสิทธิภาพ

  • ประเมินประสิทธิภาพโดยอาศัยฟีดแบ็กจากมนุษย์ ด้วยการเปรียบเทียบภาพเอาต์พุตของ Stable Diffusion 3 กับโมเดลเปิดหลายตัว เช่น SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 และ Pixart-α รวมถึงระบบปิดซอร์สอย่าง DALL·E 3, Midjourney v6 และ Ideogram v1
  • ผลการทดสอบแสดงให้เห็นว่า Stable Diffusion 3 มีประสิทธิภาพทัดเทียมหรือเหนือกว่าระบบสร้างภาพจากข้อความรุ่นล่าสุดในทุกด้านข้างต้น
  • ในการทดสอบอนุมานเบื้องต้นที่ยังไม่ได้ปรับแต่ง โมเดล SD3 ที่ใหญ่ที่สุดมีพารามิเตอร์ 8B พอดีกับ VRAM 24GB ของ RTX 4090 และใช้เวลา 34 วินาทีในการสร้างภาพความละเอียด 1024x1024 เมื่อใช้การสุ่มตัวอย่าง 50 ขั้น
  • ในช่วงเปิดตัวแรก จะมี Stable Diffusion 3 หลายรุ่นตั้งแต่ 800m ไปจนถึงโมเดลพารามิเตอร์ 8B เพื่อช่วยลดข้อจำกัดด้านฮาร์ดแวร์เพิ่มเติม

รายละเอียดสถาปัตยกรรม

  • สำหรับการสร้างภาพจากข้อความ โมเดลต้องพิจารณาทั้งสองโมดาลิตีคือข้อความและภาพ
  • สถาปัตยกรรมใหม่นี้เรียกว่า MMDiT ซึ่งอ้างถึงความสามารถในการจัดการโมดาลิตีที่หลากหลาย
  • เช่นเดียวกับ Stable Diffusion รุ่นก่อนหน้า มีการใช้โมเดลที่ผ่านการพรีเทรนเพื่อดึงการแทนข้อความและภาพที่เหมาะสม
  • เนื่องจาก embedding ของข้อความและภาพมีความแตกต่างกันอย่างมากในเชิงแนวคิด จึงใช้ชุดน้ำหนักแยกสำหรับทั้งสองโมดาลิตี
  • ด้วยแนวทางนี้ ข้อมูลสามารถไหลระหว่างโทเคนของภาพและข้อความได้ ช่วยยกระดับความเข้าใจโดยรวมและตัวอักษรบนภาพของผลลัพธ์
  • สถาปัตยกรรมนี้ยังสามารถขยายไปสู่มัลติโมดัลรูปแบบอื่น เช่น วิดีโอ ได้อย่างง่ายดาย

การปรับปรุง Rectified Flows ด้วย Reweighting

  • Stable Diffusion 3 ใช้สูตร Rectified Flow (RF) ที่เชื่อมข้อมูลกับ noise ในระหว่างการฝึกด้วยวิถีเชิงเส้น
  • สิ่งนี้สร้างเส้นทางการอนุมานที่ตรงมากขึ้น ทำให้สามารถสุ่มตัวอย่างได้ด้วยจำนวนขั้นที่น้อยลง
  • นอกจากนี้ ยังมีการนำตารางการสุ่มตัวอย่างวิถีแบบใหม่เข้าสู่กระบวนการฝึก โดยให้น้ำหนักกับช่วงกลางของวิถีมากขึ้น
  • เมื่อทดสอบแนวทางนี้เทียบกับวิถีการแพร่กระจายแบบอื่น พบว่าสูตร RF เดิมให้ผลดีขึ้นในระบอบการสุ่มตัวอย่างที่มีขั้นน้อย แต่ประสิทธิภาพสัมพัทธ์ลดลงเมื่อจำนวนขั้นมากขึ้น
  • ในทางกลับกัน RF แบบถ่วงน้ำหนักใหม่ช่วยเพิ่มประสิทธิภาพได้อย่างสม่ำเสมอ

การขยายขนาดของโมเดล Rectified Flow Transformer

  • มีการศึกษาการขยายขนาดสำหรับการสังเคราะห์ภาพจากข้อความ โดยใช้สูตร Rectified Flow แบบถ่วงน้ำหนักใหม่และแบ็กโบน MMDiT
  • สังเกตเห็นการลดลงอย่างราบรื่นของ validation loss ทั้งตามขนาดโมเดลและจำนวนขั้นการฝึก
  • เพื่อทดสอบว่าสิ่งนี้แปลไปเป็นการปรับปรุงเอาต์พุตของโมเดลอย่างมีนัยสำคัญหรือไม่ ได้มีการประเมินทั้งเมตริกจัดแนวภาพอัตโนมัติ (GenEval) และคะแนนความชอบของมนุษย์ (ELO)
  • ผลลัพธ์แสดงให้เห็นความสัมพันธ์ที่แข็งแกร่งระหว่างเมตริกเหล่านี้กับ validation loss
  • แนวโน้มการขยายขนาดยังไม่แสดงสัญญาณอิ่มตัว ทำให้มีมุมมองเชิงบวกว่าสามารถปรับปรุงประสิทธิภาพของโมเดลในอนาคตได้ต่อไป

ตัวเข้ารหัสข้อความที่ยืดหยุ่น

  • สำหรับการอนุมาน สามารถลดความต้องการหน่วยความจำของ SD3 ได้อย่างมากโดยถอด T5 text encoder ขนาด 4.7B พารามิเตอร์ที่กินหน่วยความจำสูงออก โดยมีการสูญเสียประสิทธิภาพเพียงเล็กน้อย
  • การถอด text encoder นี้ออกไม่ส่งผลต่อความสวยงามทางภาพ (อัตราชนะหลังถอด: 50%) แต่ทำให้การทำตามข้อความลดลงเล็กน้อย (อัตราชนะ 46%)
  • อย่างไรก็ตาม การรวม T5 ไว้ยังคงเป็นสิ่งที่แนะนำเพื่อดึงศักยภาพเต็มรูปแบบของ SD3 ในการสร้างข้อความ

1 ความคิดเห็น

 
xguru 2024-03-06

ความคิดเห็นบน Hacker News

  • ความมุ่งมั่นของ Stability AI ต่อโอเพนซอร์สนั้นน่าสนใจมาก และหวังว่าพวกเขาจะดำเนินงานต่อไปได้นานที่สุดเท่าที่จะเป็นไปได้

    • สงสัยว่า Stable Diffusion 3 ยังคงใช้ CLIP ของ OpenAI สำหรับการ tokenization และ text embedding อยู่หรือไม่
    • คาดเอาง่าย ๆ ว่าพวกเขาจะปรับปรุงส่วนนั้นของสถาปัตยกรรมโมเดลเพื่อให้สอดคล้องกับพรอมป์ต์ข้อความและภาพได้ดียิ่งขึ้น
  • การเรนเดอร์ข้อความของ Stable Diffusion 3 น่าประทับใจ แต่ตัวข้อความยังคงมีความรู้สึกเหมือนถูกแต่งเกินไปแบบเฉพาะตัวอยู่เสมอ

    • สีของข้อความมักถูกเร่งให้เด่นอยู่ที่ค่าเดียวเสมอ ทำให้ดูเหมือนเอาข้อความมาแปะเพิ่มบนภาพคุณภาพสูงแบบมือสมัครเล่น
  • มีคำถามว่า SD3 สามารถดาวน์โหลดได้หรือไม่

    • เคยรัน SD รุ่นแรก ๆ บนเครื่องตัวเอง และมันดีมาก
    • สงสัยว่ามันได้เปลี่ยนไปเป็น SAAS เหมือนกับที่ LLM จำนวนมากทำไปแล้ว ทั้งที่การโฮสต์เองเคยดูมีอนาคตหรือไม่
  • น่าสนใจมากที่ตัวสร้างภาพในที่สุดก็เริ่มสะกดคำได้ถูกต้อง

    • แม้ความสามารถด้านการสะกดของ DALL-E 3 จะถูกพูดถึงมาก แต่จากที่ได้ลองใช้ Bing กลับพบว่ามันยังไม่สม่ำเสมอ
    • อยากอ่านคำอธิบายที่เข้าใจง่ายขึ้นเกี่ยวกับความท้าทายในการทำให้สะกดคำได้ถูกต้องและเหตุผลเบื้องหลัง
    • สงสัยว่า SD3 จะสามารถเก็บกวาดหรือแก้ไขปัญหาข้อความในภาพเก่า ๆ ได้หรือไม่
  • การเปิดตัว SD3 น่าสนใจมาก

    • งานวิจัยให้รายละเอียดมากกว่าบล็อกอย่างเห็นได้ชัด
    • ประเด็นสำคัญของงานวิจัยคือ มันมีสถาปัตยกรรมที่สามารถรวม text encoder ที่แสดงออกได้มากขึ้น และสิ่งนี้ช่วยกับฉากที่ซับซ้อน
    • ในด้านการฝึก ยังไปไม่ถึงขีดจำกัดของสแตกนี้ ดังนั้นจึงคาดว่า SD3.1 จะดีขึ้นอีก และ SD4 อาจเพิ่มการเข้ารหัสฝั่งฟรอนต์เอนด์มากขึ้นเพื่อรองรับวิดีโอ
  • การปรับปรุงการเรนเดอร์ข้อความของ SD3 เป็นเรื่องที่ดี แต่การสร้างมือและนิ้วยังคงเป็นเรื่องยาก

    • ภาพตัวอย่างไม่มีมือมนุษย์อยู่เลย ยกเว้นพ่อมดที่เป็นพิกเซล และมือของลิงก็ดูแปลกอยู่บ้าง
  • สถาปัตยกรรมนี้ยืดหยุ่นมากพอที่จะขยายไปสู่วิดีโอได้อย่างง่ายดาย

    • คาดว่ามันจะกลายเป็นบล็อก “พื้นฐาน” อีกตัวหนึ่งเหมือนกับ transformer block ของ LLaMA
    • มันมีความทั่วไปมากพอที่จะผนวกเงื่อนไข text encoding/timestep เข้าไปในบล็อกได้หลายรูปแบบ
    • แทบไม่เหลืออะไรให้ทำมากนัก นอกจากลองเล่นกับ positional encoding (2D RoPE?)
    • ขยายทรานส์ฟอร์เมอร์และโฟกัสที่การ quantization/optimization เพื่อให้สแตกนี้รันได้ดีจริงในทุกที่
  • หลายบริษัทที่ครั้งหนึ่งเคยทุ่มเทให้กับความ “เปิด” หรือเคยเปิดมาก่อน กำลังค่อย ๆ ปิดมากขึ้นเรื่อย ๆ

    • ขอบคุณ Stability AI ที่เผยแพร่งานวิจัยนี้ออกมา
  • เมื่อเทียบกับ Stability AI แล้ว OpenAI คือแล็บวิจัย AI ที่ปิดมากที่สุด

    • แม้แต่ Deep Mind ก็ยังเผยแพร่งานวิจัยมากกว่า
    • สงสัยว่ามีใครใน OpenAI ที่พูดออกมาตรง ๆ ต่อสาธารณะบ้างไหมว่า “เราอยู่ที่นี่เพื่อเงิน!”
    • จดหมายที่ SamA เขียนล่าสุดเกี่ยวกับคดีของ Elon นั้นจริงพอ ๆ กับที่ปูตินบอกว่าบุกยูเครนเพื่อ “ขจัดลัทธินาซี”