Stable Video 3D: การสังเคราะห์มุมมองใหม่คุณภาพสูงและการสร้าง 3D จากภาพเดี่ยว
- เปิดตัว Stable Video 3D (SV3D) โมเดลเชิงกำเนิดที่อิงกับ Stable Video Diffusion โดยปรับปรุงคุณภาพวิดีโอและความสอดคล้องของมุมมองอย่างมาก
- มี 2 เวอร์ชัน: SV3D_u และ SV3D_p
- SV3D_u สร้างวิดีโอแบบโคจรรอบวัตถุจากภาพอินพุตเดี่ยวโดยไม่ต้องมีเงื่อนไขกล้อง
- SV3D_p รองรับทั้งภาพเดี่ยวและมุมมองแบบโคจร พร้อมขยายความสามารถในการสร้างวิดีโอ 3D ตามเส้นทางกล้องที่กำหนด
- Stable Video 3D สามารถใช้งานเชิงพาณิชย์ผ่านสมาชิกภาพของ Stability AI และสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์สามารถดาวน์โหลดค่าน้ำหนักโมเดลจาก Hugging Face และอ่านงานวิจัยได้
ข้อดีของ Video Diffusion
- ด้วยการนำโมเดล image-to-video diffusion ของ Stable Video Diffusion มาใช้ร่วมกับการเพิ่มเงื่อนไขเส้นทางกล้อง Stable Video 3D จึงสามารถสร้างวิดีโอหลายมุมมองของวัตถุได้
- การใช้โมเดล Video Diffusion ให้ข้อได้เปรียบสำคัญด้านความสามารถในการทั่วไปของผลลัพธ์ที่สร้างขึ้นและความสอดคล้องของมุมมอง เมื่อเทียบกับโมเดล image diffusion ที่ใช้ใน Stable Zero123
- นอกจากนี้ ยังเสนอการปรับเหมาะ 3D ที่ดีขึ้นซึ่งใช้ความสามารถอันแข็งแกร่งของ Stable Video 3D เพื่อสร้างวงโคจรแบบกำหนดเองรอบวัตถุ
การสร้างมุมมองใหม่
- SV3D นำเสนอความก้าวหน้าสำคัญโดยเฉพาะในด้านการสังเคราะห์มุมมองใหม่ (NVS)
- ขณะที่แนวทางเดิมมักเผชิญข้อจำกัดด้านมุมมองและปัญหาความไม่สอดคล้องของผลลัพธ์ SV3D สามารถให้มุมมองที่สอดคล้องกันได้จากทุกมุมที่กำหนด
- ความสามารถนี้ไม่เพียงเพิ่มการควบคุมท่าทางการมองเห็น แต่ยังรับประกันลักษณะของวัตถุที่สอดคล้องกันในหลายมุมมอง ซึ่งช่วยยกระดับด้านสำคัญของการสร้าง 3D ที่สมจริงและแม่นยำยิ่งขึ้น
การสร้าง 3D
- SV3D ใช้ประโยชน์จากความสอดคล้องระหว่างหลายมุมมองเพื่อปรับเหมาะ 3D Neural Radiance Fields (NeRF) และการแทนค่าแบบเมช ทำให้คุณภาพของเมช 3D ที่สร้างโดยตรงจากมุมมองใหม่ดีขึ้น
- เพื่อการนี้ ได้ออกแบบ mask score distillation sampling loss เพื่อปรับปรุงคุณภาพ 3D ของบริเวณที่มองไม่เห็นในมุมมองที่คาดการณ์ไว้ให้ดียิ่งขึ้น
- นอกจากนี้ SV3D ยังใช้โมเดลแสงแยกส่วนที่ถูกปรับเหมาะร่วมกับรูปทรง 3D และพื้นผิว เพื่อลดปัญหาแสงที่ถูก bake ติดมากับโมเดล
1 ความคิดเห็น
ความคิดเห็นบน Hacker News