SnapFusion - โมเดล diffusion แบบ Text-to-Image ที่สร้างได้บนอุปกรณ์พกพาในเวลาเพียง 2 วินาที
(snap-research.github.io)- ทำได้ด้วยการปรับปรุงสถาปัตยกรรมเครือข่ายที่มีประสิทธิภาพและการ distillation แบบเป็นขั้นตอน
- ระบุความซ้ำซ้อนของโมเดลต้นฉบับ และนำเสนอ UNet ที่มีประสิทธิภาพซึ่งลดการคำนวณของ image decoder ผ่านการกลั่นข้อมูล
- จากผลการทดลองด้วย MS-COCO โมเดล SnapFusion ที่มีเพียง 8 ขั้นตอนการลด noise ทำคะแนน FID และ CLIP ได้ดีกว่า Stable Diffusion v.15 ที่มี 50 ขั้นตอน
1 ความคิดเห็น
นี่เป็นงานวิจัยที่ Snapchat เผยแพร่ แต่โค้ดยังไม่ถูกเปิดเผย เลยมีคอมเมนต์เถียงกันอยู่ว่า.. มันทำได้จริงเหรอ?
https://news.ycombinator.com/item?id=36304716
อย่างน้อยในวิดีโอเดโมก็กำลังรันในโหมดเครื่องบินอยู่