Bolt3D - โมเดลสร้างฉาก 3D ความเร็วสูงพิเศษ

(szymanowiczs.github.io)

6 คะแนน โดย GN⁺ 2025-03-22 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดลการแพร่กระจายในปริภูมิแฝง (latent diffusion model) สำหรับการสร้างฉาก 3D ความเร็วสูงพิเศษ
สามารถสร้างฉาก 3D ความละเอียดสูงจากภาพอินพุตหนึ่งภาพขึ้นไปได้ภายใน 7 วินาที
ฝึกด้วยชุดข้อมูลขนาดใหญ่ที่มีความสอดคล้องกันข้ามหลายมุมมอง และ เร็วกว่าโมเดลสร้าง 3D เดิมได้สูงสุด 300 เท่า
ขณะที่โมเดลเดิมต้องอาศัยกระบวนการ optimization แต่ Bolt3D สามารถสร้างฉากได้ทันทีด้วยวิธี feed-forward

ข้อจำกัดและปัญหาของโมเดลเดิม

โมเดลสร้างภาพ 2D แบบเดิมสามารถสร้างภาพคุณภาพสูงได้ แต่ การสร้างฉาก 3D ยังทำได้ยาก
โมเดล 3D แบบเดิมมีปัญหาดังนี้:
- ความยากในการจัดการโครงสร้างข้อมูล 3D ที่ซับซ้อน
- การขาดแคลนข้อมูลฉาก 3D จริงคุณภาพสูง
- ต้นทุนการคำนวณสูงและความเร็วในการประมวลผลต่ำ

เทคนิคและโครงสร้างหลักของ Bolt3D

วิธีการแทนภาพ 3D

ใช้ วิธีการแทนภาพแบบ 3D Gaussian:
- 3D Gaussian ประกอบด้วยสี ตำแหน่ง ความทึบ และเมทริกซ์โควาเรียนซ์
- ทำการเรนเดอร์ 3D Gaussian ผ่านภาพที่จัดแนวระดับพิกเซลชื่อ Splatter Image
- สามารถเติมสร้างส่วนที่มองไม่เห็นได้ด้วย

กระบวนการสร้างของ Bolt3D

ประเมินฉาก 3D จากภาพอินพุตด้วย โมเดลการแพร่กระจายในปริภูมิแฝง (latent diffusion model)
เข้ารหัสข้อมูลเรขาคณิตเข้าสู่ปริภูมิแฝงผ่าน Geometry VAE
Gaussian Head ทำนายและปรับแก้คุณสมบัติละเอียดของ 3D Gaussian (เช่น ความทึบ สี)
ทำ การเรนเดอร์ ฉาก 3D ความละเอียดสูงได้ทันที

โครงสร้างโมเดล

โมเดลการแพร่กระจายในปริภูมิแฝง ใช้โครงสร้างที่พัฒนาต่อจากโมเดลสร้างภาพ 2D
Geometry VAE เข้ารหัส point map 3D และ camera pose
Gaussian Head ช่วยเติมคุณสมบัติรายละเอียดของฉาก 3D ที่สร้างขึ้น

ชุดข้อมูลและการฝึก

สร้างชุดข้อมูลหลายมุมมองขนาดใหญ่:
- รวม CO3D, MVImg, RealEstate10K, DL3DV-7K
- ประกอบด้วย ฉากหลายมุมมองรวมประมาณ 300,000 ฉาก
- ใช้เทคนิค MASt3R เพื่อให้ได้ข้อมูลเรขาคณิตที่แม่นยำ
กระบวนการฝึก:
1. Geometry VAE: ฝึกจากความละเอียด 256×256 → 512×512
2. Gaussian Head: ปรับแก้การสร้าง Splatter Image
3. Latent Diffusion Model: ปรับจูนละเอียดบนพื้นฐานของโมเดล CAT3D

ผลการทดลองและการเปรียบเทียบประสิทธิภาพ

เปรียบเทียบกับโมเดลเดิม

Bolt3D มีประสิทธิภาพเหนือกว่าโมเดล Flash3D และ DepthSplat เดิม
เมื่อเทียบกับ Flash3D นั้น Bolt3D ทำคะแนน PSNR ได้สูงกว่าประมาณ 3.6 จุด และยังดีขึ้นในตัวชี้วัด SSIM และ LPIPS
เมื่อเทียบกับโมเดล DepthSplat แล้ว Bolt3D เหนือกว่าในทุกตัวชี้วัดประสิทธิภาพ
โดยเฉพาะในกรณีที่มีภาพอินพุตเพียงภาพเดียว การปรับปรุงประสิทธิภาพมีขนาดมากที่สุด

เปรียบเทียบกับโมเดลแบบอาศัย optimization

เมื่อเทียบกับโมเดลแบบอาศัย optimization เช่น CAT3D นั้น Bolt3D ให้ประสิทธิภาพใกล้เคียงหรือดีกว่า พร้อมทั้ง เร็วกว่า 300 เท่า
ในกรณีของ CAT3D การสร้างฉากใช้เวลาประมาณ 5 นาที แต่ Bolt3D ทำงานเดียวกันได้ภายใน 6.25 วินาที
ในแง่ตัวชี้วัดประสิทธิภาพ CAT3D ทำคะแนน PSNR สูงกว่า Bolt3D เล็กน้อย แต่ในด้านความเร็วการประมวลผล Bolt3D เหนือกว่าอย่างชัดเจน

การปรับปรุงโครงสร้างและสถาปัตยกรรมของโมเดล

การปรับปรุง Geometry VAE

ใช้ VAE สำหรับข้อมูลเรขาคณิตโดยเฉพาะ → เพิ่มความแม่นยำมากกว่า VAE สำหรับภาพทั่วไป
ใช้ non-linear scaling และ depth mapping → ช่วยเพิ่มประสิทธิภาพของโมเดล

การปรับปรุง Gaussian Head

รวมและปรับแก้ข้อมูลจากหลายมุมมอง
ใช้ Cross-Attention → สามารถเติมสร้างส่วนที่มองไม่เห็นได้

บทสรุปและนัยสำคัญ

Bolt3D สามารถสร้างฉาก 3D ความเร็วสูงได้ผ่าน การเรียนรู้ข้อมูลเรขาคณิต และวิธี feed-forward
ปรับปรุงทั้งประสิทธิภาพและความเร็วเมื่อเทียบกับโมเดลเดิม
สามารถสร้างฉาก 3D คุณภาพสูงได้ทันทีในหลากหลายการใช้งาน:
- การพัฒนาเกม
- ความจริงเสมือน (VR) และความจริงเสริม (AR)
- การทำภาพแสดงสถาปัตยกรรมและงานออกแบบ
ด้วย ความเร็วในการประมวลผลที่ดีขึ้น 300 เท่า จึงมีศักยภาพสูงต่อการนำไปใช้เชิงพาณิชย์และการขยายต่อยอด

สรุปผลงานสำคัญ

สร้างฉาก 3D ได้ภายใน 7 วินาที
เร็วกว่าโมเดลเดิม 300 เท่า
ได้ทั้ง รายละเอียดและความสอดคล้อง ในระดับความละเอียดสูง
ให้ประสิทธิภาพสูงทั้งในแบบ มุมมองเดี่ยวและหลายมุมมอง
สามารถ เติมสร้างได้อย่างเป็นธรรมชาติ แม้ในฉากที่ซับซ้อนและไม่สมบูรณ์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น