SnapFusion - โมเดล diffusion แบบ Text-to-Image ที่สร้างได้บนอุปกรณ์พกพาในเวลาเพียง 2 วินาที

xguru · 2023-06-14T11:17:02+09:00

ทำได้ด้วยการปรับปรุงสถาปัตยกรรมเครือข่ายที่มีประสิทธิภาพและการ distillation แบบเป็นขั้นตอน ระบุความซ้ำซ้อนของโมเดลต้นฉบับ และนำเสนอ UNet ที่มีประสิทธิภาพซึ่งลดการคำนวณของ image decoder ผ่านการกลั่นข้อมูล จากผลการทดลองด้วย MS-COCO โมเดล SnapFusion ที่มีเพียง 8 ขั้นตอนการลด noise ทำคะแนน FID และ CLIP ได้ดีกว่า Stable Diffusion v.15 ที่มี 50 ขั้นตอน

(snap-research.github.io)

9 คะแนน โดย xguru 2023-06-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทำได้ด้วยการปรับปรุงสถาปัตยกรรมเครือข่ายที่มีประสิทธิภาพและการ distillation แบบเป็นขั้นตอน
ระบุความซ้ำซ้อนของโมเดลต้นฉบับ และนำเสนอ UNet ที่มีประสิทธิภาพซึ่งลดการคำนวณของ image decoder ผ่านการกลั่นข้อมูล
จากผลการทดลองด้วย MS-COCO โมเดล SnapFusion ที่มีเพียง 8 ขั้นตอนการลด noise ทำคะแนน FID และ CLIP ได้ดีกว่า Stable Diffusion v.15 ที่มี 50 ขั้นตอน

1 ความคิดเห็น

xguru 2023-06-14

นี่เป็นงานวิจัยที่ Snapchat เผยแพร่ แต่โค้ดยังไม่ถูกเปิดเผย เลยมีคอมเมนต์เถียงกันอยู่ว่า.. มันทำได้จริงเหรอ?
https://news.ycombinator.com/item?id=36304716
อย่างน้อยในวิดีโอเดโมก็กำลังรันในโหมดเครื่องบินอยู่

SnapFusion - โมเดล diffusion แบบ Text-to-Image ที่สร้างได้บนอุปกรณ์พกพาในเวลาเพียง 2 วินาที

บทความที่เกี่ยวข้อง

1 ความคิดเห็น