- แนวทางเชิงกำเนิดแบบใหม่สำหรับการเติมเต็มภาพที่พัฒนาโดย Google Research และมหาวิทยาลัยคอร์เนล
- RealFill มีเป้าหมายเพื่อเติมส่วนที่หายไปของภาพด้วยเนื้อหาที่ควรมีอยู่เดิม เพื่อสร้างภาพที่สมจริงยิ่งขึ้น
- โมเดลนี้ถูกปรับให้เหมาะกับงานโดยใช้ภาพอ้างอิงจำนวนหนึ่ง ซึ่งไม่จำเป็นต้องตรงกับภาพเป้าหมาย และอาจมีความหลากหลายในมุมมอง สภาพแสง รูรับแสงของกล้อง หรือสไตล์ของภาพ
- RealFill ทำผลงานได้เหนือกว่าวิธีการเดิมอย่างชัดเจนบนเบนช์มาร์กการเติมเต็มภาพใหม่ที่ครอบคลุมสถานการณ์หลากหลายและท้าทาย
- กระบวนการนี้ประกอบด้วยการปรับจูนแบบละเอียดของโมเดล inpainting diffusion ที่ผ่านการฝึกมาก่อนแล้วสำหรับภาพอ้างอิงและภาพเป้าหมาย ซึ่งช่วยให้เรียนรู้เนื้อหา แสง และสไตล์ของฉากในภาพอินพุต
- จากนั้นโมเดลที่ผ่านการปรับจูนแบบละเอียดจะถูกใช้เพื่อเติมพื้นที่ที่หายไปของภาพเป้าหมายผ่านกระบวนการ sampling ของ diffusion มาตรฐาน
- RealFill สร้างภาพคุณภาพสูงที่ยังคงซื่อตรงต่อฉากต้นฉบับและดูน่าสนใจทางสายตา แม้จะมีความแตกต่างอย่างมากระหว่างภาพอ้างอิงกับภาพเป้าหมาย
- ข้อจำกัดของ RealFill คือกระบวนการปรับจูนแบบละเอียดที่อิงกับ gradient ซึ่งค่อนข้างช้า และมีความยากในการกู้คืนฉาก 3D เมื่อมุมมองระหว่างภาพอ้างอิงกับภาพเป้าหมายต่างกันมาก
- RealFill ยังประสบความยากลำบากในกรณีที่ท้าทาย แม้จะใช้โมเดลพื้นฐานที่ผ่านการฝึกมาก่อนอย่าง Stable Diffusion
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News