- โมเดลการแพร่กระจายในปริภูมิแฝง (latent diffusion model) สำหรับการสร้างฉาก 3D ความเร็วสูงพิเศษ
- สามารถสร้างฉาก 3D ความละเอียดสูงจากภาพอินพุตหนึ่งภาพขึ้นไปได้ภายใน 7 วินาที
- ฝึกด้วยชุดข้อมูลขนาดใหญ่ที่มีความสอดคล้องกันข้ามหลายมุมมอง และ เร็วกว่าโมเดลสร้าง 3D เดิมได้สูงสุด 300 เท่า
- ขณะที่โมเดลเดิมต้องอาศัยกระบวนการ optimization แต่ Bolt3D สามารถสร้างฉากได้ทันทีด้วยวิธี feed-forward
ข้อจำกัดและปัญหาของโมเดลเดิม
- โมเดลสร้างภาพ 2D แบบเดิมสามารถสร้างภาพคุณภาพสูงได้ แต่ การสร้างฉาก 3D ยังทำได้ยาก
- โมเดล 3D แบบเดิมมีปัญหาดังนี้:
- ความยากในการจัดการโครงสร้างข้อมูล 3D ที่ซับซ้อน
- การขาดแคลนข้อมูลฉาก 3D จริงคุณภาพสูง
- ต้นทุนการคำนวณสูงและความเร็วในการประมวลผลต่ำ
เทคนิคและโครงสร้างหลักของ Bolt3D
วิธีการแทนภาพ 3D
- ใช้ วิธีการแทนภาพแบบ 3D Gaussian:
- 3D Gaussian ประกอบด้วยสี ตำแหน่ง ความทึบ และเมทริกซ์โควาเรียนซ์
- ทำการเรนเดอร์ 3D Gaussian ผ่านภาพที่จัดแนวระดับพิกเซลชื่อ Splatter Image
- สามารถเติมสร้างส่วนที่มองไม่เห็นได้ด้วย
กระบวนการสร้างของ Bolt3D
- ประเมินฉาก 3D จากภาพอินพุตด้วย โมเดลการแพร่กระจายในปริภูมิแฝง (latent diffusion model)
- เข้ารหัสข้อมูลเรขาคณิตเข้าสู่ปริภูมิแฝงผ่าน Geometry VAE
- Gaussian Head ทำนายและปรับแก้คุณสมบัติละเอียดของ 3D Gaussian (เช่น ความทึบ สี)
- ทำ การเรนเดอร์ ฉาก 3D ความละเอียดสูงได้ทันที
โครงสร้างโมเดล
- โมเดลการแพร่กระจายในปริภูมิแฝง ใช้โครงสร้างที่พัฒนาต่อจากโมเดลสร้างภาพ 2D
- Geometry VAE เข้ารหัส point map 3D และ camera pose
- Gaussian Head ช่วยเติมคุณสมบัติรายละเอียดของฉาก 3D ที่สร้างขึ้น
ชุดข้อมูลและการฝึก
- สร้างชุดข้อมูลหลายมุมมองขนาดใหญ่:
- รวม CO3D, MVImg, RealEstate10K, DL3DV-7K
- ประกอบด้วย ฉากหลายมุมมองรวมประมาณ 300,000 ฉาก
- ใช้เทคนิค MASt3R เพื่อให้ได้ข้อมูลเรขาคณิตที่แม่นยำ
- กระบวนการฝึก:
- Geometry VAE: ฝึกจากความละเอียด 256×256 → 512×512
- Gaussian Head: ปรับแก้การสร้าง Splatter Image
- Latent Diffusion Model: ปรับจูนละเอียดบนพื้นฐานของโมเดล CAT3D
ผลการทดลองและการเปรียบเทียบประสิทธิภาพ
เปรียบเทียบกับโมเดลเดิม
- Bolt3D มีประสิทธิภาพเหนือกว่าโมเดล Flash3D และ DepthSplat เดิม
- เมื่อเทียบกับ Flash3D นั้น Bolt3D ทำคะแนน PSNR ได้สูงกว่าประมาณ 3.6 จุด และยังดีขึ้นในตัวชี้วัด SSIM และ LPIPS
- เมื่อเทียบกับโมเดล DepthSplat แล้ว Bolt3D เหนือกว่าในทุกตัวชี้วัดประสิทธิภาพ
- โดยเฉพาะในกรณีที่มีภาพอินพุตเพียงภาพเดียว การปรับปรุงประสิทธิภาพมีขนาดมากที่สุด
เปรียบเทียบกับโมเดลแบบอาศัย optimization
- เมื่อเทียบกับโมเดลแบบอาศัย optimization เช่น CAT3D นั้น Bolt3D ให้ประสิทธิภาพใกล้เคียงหรือดีกว่า พร้อมทั้ง เร็วกว่า 300 เท่า
- ในกรณีของ CAT3D การสร้างฉากใช้เวลาประมาณ 5 นาที แต่ Bolt3D ทำงานเดียวกันได้ภายใน 6.25 วินาที
- ในแง่ตัวชี้วัดประสิทธิภาพ CAT3D ทำคะแนน PSNR สูงกว่า Bolt3D เล็กน้อย แต่ในด้านความเร็วการประมวลผล Bolt3D เหนือกว่าอย่างชัดเจน
การปรับปรุงโครงสร้างและสถาปัตยกรรมของโมเดล
การปรับปรุง Geometry VAE
- ใช้ VAE สำหรับข้อมูลเรขาคณิตโดยเฉพาะ → เพิ่มความแม่นยำมากกว่า VAE สำหรับภาพทั่วไป
- ใช้ non-linear scaling และ depth mapping → ช่วยเพิ่มประสิทธิภาพของโมเดล
การปรับปรุง Gaussian Head
- รวมและปรับแก้ข้อมูลจากหลายมุมมอง
- ใช้ Cross-Attention → สามารถเติมสร้างส่วนที่มองไม่เห็นได้
บทสรุปและนัยสำคัญ
- Bolt3D สามารถสร้างฉาก 3D ความเร็วสูงได้ผ่าน การเรียนรู้ข้อมูลเรขาคณิต และวิธี feed-forward
- ปรับปรุงทั้งประสิทธิภาพและความเร็วเมื่อเทียบกับโมเดลเดิม
- สามารถสร้างฉาก 3D คุณภาพสูงได้ทันทีในหลากหลายการใช้งาน:
- การพัฒนาเกม
- ความจริงเสมือน (VR) และความจริงเสริม (AR)
- การทำภาพแสดงสถาปัตยกรรมและงานออกแบบ
- ด้วย ความเร็วในการประมวลผลที่ดีขึ้น 300 เท่า จึงมีศักยภาพสูงต่อการนำไปใช้เชิงพาณิชย์และการขยายต่อยอด
สรุปผลงานสำคัญ
- สร้างฉาก 3D ได้ภายใน 7 วินาที
- เร็วกว่าโมเดลเดิม 300 เท่า
- ได้ทั้ง รายละเอียดและความสอดคล้อง ในระดับความละเอียดสูง
- ให้ประสิทธิภาพสูงทั้งในแบบ มุมมองเดี่ยวและหลายมุมมอง
- สามารถ เติมสร้างได้อย่างเป็นธรรมชาติ แม้ในฉากที่ซับซ้อนและไม่สมบูรณ์
ยังไม่มีความคิดเห็น