11 คะแนน โดย xguru 2023-04-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล Diffusion ได้สร้างความเปลี่ยนแปลงครั้งใหญ่ให้กับการสร้างภาพ เสียง และวิดีโอ
    • แต่เนื่องจากต้องผ่านกระบวนการสร้างแบบวนซ้ำหลายรอบ จึงทำงานช้าและนำไปใช้แบบเรียลไทม์ได้ยาก
  • Consistency Model สามารถสร้างผลลัพธ์คุณภาพยอดเยี่ยมได้ด้วยเพียง 1~2 ขั้นตอน โดยไม่ต้องใช้ Adversarial Training
    • โมเดลนี้ก็จะให้คุณภาพดีขึ้นได้เช่นกันหากทำการสุ่มตัวอย่างหลายครั้ง
    • รองรับ zero-shot data editing, image inpainting, colorization, Super-Resolution เป็นต้น โดยไม่ต้องฝึกเพิ่มเติมเป็นพิเศษ
    • สามารถฝึกได้ทั้งในรูปแบบการ distill จาก Diffusion Model ที่ผ่านการ pre-train มาแล้ว หรือฝึกเป็นโมเดลสร้างข้อมูลแบบอิสระ

1 ความคิดเห็น

 
xguru 2023-04-13

บทความวิจัยถูกเผยแพร่ออกมาก่อนหน้านี้แล้ว: Consistency Models https://arxiv.org/abs/2303.01469

ในบทความแรกของโมเดล Diffusion นั้น การสร้างต้องผ่าน 1,000 ขั้นตอน และปัจจุบันก็พัฒนาต่อเนื่องจนลดลงมาเหลือต่ำกว่า 50 ขั้นตอนได้แล้ว
ส่วน Distilled StableDiffusion2 ที่ลดจำนวนนี้ลงเหลือ 1~4 ขั้นตอน ก็มีการพูดถึงมาตั้งแต่ปลายปีก่อน แต่จนถึงตอนนี้ยังไม่มีการเผยแพร่บทความวิจัย
https://twitter.com/EMostaque/status/1598131202044866560