- โมเดล Diffusion ได้สร้างความเปลี่ยนแปลงครั้งใหญ่ให้กับการสร้างภาพ เสียง และวิดีโอ
- แต่เนื่องจากต้องผ่านกระบวนการสร้างแบบวนซ้ำหลายรอบ จึงทำงานช้าและนำไปใช้แบบเรียลไทม์ได้ยาก
- Consistency Model สามารถสร้างผลลัพธ์คุณภาพยอดเยี่ยมได้ด้วยเพียง 1~2 ขั้นตอน โดยไม่ต้องใช้ Adversarial Training
- โมเดลนี้ก็จะให้คุณภาพดีขึ้นได้เช่นกันหากทำการสุ่มตัวอย่างหลายครั้ง
- รองรับ zero-shot data editing, image inpainting, colorization, Super-Resolution เป็นต้น โดยไม่ต้องฝึกเพิ่มเติมเป็นพิเศษ
- สามารถฝึกได้ทั้งในรูปแบบการ distill จาก Diffusion Model ที่ผ่านการ pre-train มาแล้ว หรือฝึกเป็นโมเดลสร้างข้อมูลแบบอิสระ
1 ความคิดเห็น
บทความวิจัยถูกเผยแพร่ออกมาก่อนหน้านี้แล้ว: Consistency Models https://arxiv.org/abs/2303.01469
ในบทความแรกของโมเดล Diffusion นั้น การสร้างต้องผ่าน 1,000 ขั้นตอน และปัจจุบันก็พัฒนาต่อเนื่องจนลดลงมาเหลือต่ำกว่า 50 ขั้นตอนได้แล้ว
ส่วน Distilled StableDiffusion2 ที่ลดจำนวนนี้ลงเหลือ 1~4 ขั้นตอน ก็มีการพูดถึงมาตั้งแต่ปลายปีก่อน แต่จนถึงตอนนี้ยังไม่มีการเผยแพร่บทความวิจัย
https://twitter.com/EMostaque/status/1598131202044866560