2 คะแนน โดย GN⁺ 2024-03-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Stable Video 3D: การสังเคราะห์มุมมองใหม่คุณภาพสูงและการสร้าง 3D จากภาพเดี่ยว

  • เปิดตัว Stable Video 3D (SV3D) โมเดลเชิงกำเนิดที่อิงกับ Stable Video Diffusion โดยปรับปรุงคุณภาพวิดีโอและความสอดคล้องของมุมมองอย่างมาก
  • มี 2 เวอร์ชัน: SV3D_u และ SV3D_p
    • SV3D_u สร้างวิดีโอแบบโคจรรอบวัตถุจากภาพอินพุตเดี่ยวโดยไม่ต้องมีเงื่อนไขกล้อง
    • SV3D_p รองรับทั้งภาพเดี่ยวและมุมมองแบบโคจร พร้อมขยายความสามารถในการสร้างวิดีโอ 3D ตามเส้นทางกล้องที่กำหนด
  • Stable Video 3D สามารถใช้งานเชิงพาณิชย์ผ่านสมาชิกภาพของ Stability AI และสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์สามารถดาวน์โหลดค่าน้ำหนักโมเดลจาก Hugging Face และอ่านงานวิจัยได้

ข้อดีของ Video Diffusion

  • ด้วยการนำโมเดล image-to-video diffusion ของ Stable Video Diffusion มาใช้ร่วมกับการเพิ่มเงื่อนไขเส้นทางกล้อง Stable Video 3D จึงสามารถสร้างวิดีโอหลายมุมมองของวัตถุได้
  • การใช้โมเดล Video Diffusion ให้ข้อได้เปรียบสำคัญด้านความสามารถในการทั่วไปของผลลัพธ์ที่สร้างขึ้นและความสอดคล้องของมุมมอง เมื่อเทียบกับโมเดล image diffusion ที่ใช้ใน Stable Zero123
  • นอกจากนี้ ยังเสนอการปรับเหมาะ 3D ที่ดีขึ้นซึ่งใช้ความสามารถอันแข็งแกร่งของ Stable Video 3D เพื่อสร้างวงโคจรแบบกำหนดเองรอบวัตถุ

การสร้างมุมมองใหม่

  • SV3D นำเสนอความก้าวหน้าสำคัญโดยเฉพาะในด้านการสังเคราะห์มุมมองใหม่ (NVS)
  • ขณะที่แนวทางเดิมมักเผชิญข้อจำกัดด้านมุมมองและปัญหาความไม่สอดคล้องของผลลัพธ์ SV3D สามารถให้มุมมองที่สอดคล้องกันได้จากทุกมุมที่กำหนด
  • ความสามารถนี้ไม่เพียงเพิ่มการควบคุมท่าทางการมองเห็น แต่ยังรับประกันลักษณะของวัตถุที่สอดคล้องกันในหลายมุมมอง ซึ่งช่วยยกระดับด้านสำคัญของการสร้าง 3D ที่สมจริงและแม่นยำยิ่งขึ้น

การสร้าง 3D

  • SV3D ใช้ประโยชน์จากความสอดคล้องระหว่างหลายมุมมองเพื่อปรับเหมาะ 3D Neural Radiance Fields (NeRF) และการแทนค่าแบบเมช ทำให้คุณภาพของเมช 3D ที่สร้างโดยตรงจากมุมมองใหม่ดีขึ้น
  • เพื่อการนี้ ได้ออกแบบ mask score distillation sampling loss เพื่อปรับปรุงคุณภาพ 3D ของบริเวณที่มองไม่เห็นในมุมมองที่คาดการณ์ไว้ให้ดียิ่งขึ้น
  • นอกจากนี้ SV3D ยังใช้โมเดลแสงแยกส่วนที่ถูกปรับเหมาะร่วมกับรูปทรง 3D และพื้นผิว เพื่อลดปัญหาแสงที่ถูก bake ติดมากับโมเดล

1 ความคิดเห็น

 
GN⁺ 2024-03-19
ความคิดเห็นบน Hacker News
  • ผู้ใช้คนแรกลองใช้โมเดล Stable Video 3D (SV3D) ด้วยการ์ดจอ 4090 (VRAM 24GB) แต่เจอปัญหาเมมโมรีไม่พอ ทำงานได้นานกว่าหนึ่งนาทีก่อนจะล่ม หลังจากปรับสคริปต์เพื่อลดจำนวนเฟรมที่สร้างพร้อมกัน ก็สามารถสร้างได้สำเร็จ โดยใช้ VRAM สูงสุด 19.5GB ใช้เวลา 1 นาที 25 วินาที ที่ 225 วัตต์

    Stable Video 3D (SV3D): โมเดลเชิงสร้างที่รับภาพนิ่งเป็นอินพุตแล้วสร้างวิดีโอแบบโคจรรอบวัตถุนั้น โดยพัฒนาบนพื้นฐานของ Stable Video Diffusion

  • ผู้ใช้คนที่สองสงสัยว่า SV3D สามารถส่งออกเป็นโมเดล 3D จริงได้หรือไม่ หรือแค่สร้างภาพว่่าวัตถุจะดูเป็นอย่างไรจากมุมอื่น
  • ผู้ใช้คนที่สามมองว่าถ้าแอนิเมชันที่นำเสนอถือเป็นตัวแทนของผลลัพธ์จริง เมชที่สร้างขึ้นก็อาจดีพอสำหรับใช้งานกับเครื่องพิมพ์ 3D และรอการทดลองเพิ่มเติม
  • ผู้ใช้คนที่สี่ถามถึงข้อกำหนดด้านฮาร์ดแวร์หรือหน่วยความจำสำหรับการรัน SV3D
  • ผู้ใช้คนที่ห้าสงสัยว่าต้องใช้ภาพอินพุตมากกว่าหนึ่งภาพหรือไม่ มีเดโม URL ให้ลองหรือเปล่า และถามว่า "อินพุตภาพเดี่ยว" หมายถึงหลายภาพหรือไม่
  • ผู้ใช้คนที่หกบอกว่าตัวอย่างทั้งหมดดูเหมือนของเล่นเด็กพลาสติก และสงสัยว่าจะจัดการกับวัตถุประเภทอื่นอย่างไร เช่น คน ผ้า อาคาร พืช ภูเขา หรือชิ้นส่วนเครื่องจักร
  • ผู้ใช้คนที่เจ็ดประเมินว่าแอนิเมชันเดโมฉลาดมากและน่าพอใจ
  • ผู้ใช้คนที่แปดหวังว่าเทคโนโลยีแบบนี้จะนำไปใช้กับงานออกแบบสถาปัตยกรรมได้
  • ความคิดเห็นที่เก้าและสิบถูกแสดงเป็น "[dead]" และ "[flagged]" ตามลำดับ จึงไม่สามารถทราบเนื้อหาได้.