1 คะแนน โดย GN⁺ 2023-12-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เรเดียนซ์ฟิลด์ที่สตรีมได้และใช้หน่วยความจำอย่างมีประสิทธิภาพ (SMERF) สำหรับการสำรวจฉากขนาดใหญ่แบบเรียลไทม์

  • ความก้าวหน้าของเทคโนโลยีการสังเคราะห์มุมมองแบบเรียลไทม์ ทำให้สามารถเรนเดอร์ฉากที่เกือบเหมือนภาพถ่ายได้แบบเรียลไทม์
  • มีความตึงเครียดเชิงแนวคิดระหว่างการแทนฉากแบบชัดเจนที่สามารถทำ rasterization ได้ กับ neural field ที่อาศัย ray marching
  • SMERF นำเสนอแนวทางการสังเคราะห์มุมมองที่บรรลุความแม่นยำระดับสูงสุดในฉากขนาดใหญ่แบบเรียลไทม์

วิธีเพิ่มความสามารถในการแทนข้อมูลเพื่อจัดการฉากขนาดใหญ่

  • โมเดลฉากหลายห้องขนาดใหญ่ด้วยซับโมเดลอิสระหลายตัว และเลือกซับโมเดลระหว่างการเรนเดอร์ตามตำแหน่งต้นกำเนิดของกล้อง
  • เพื่อสร้างแบบจำลองเอฟเฟกต์ที่ขึ้นกับมุมมองซึ่งมีความซับซ้อน จะมีการอินสแตนซ์พารามิเตอร์ของ delayed MLP ที่จัดแนวกับกริดเพิ่มเติมภายในแต่ละซับโมเดล
  • แต่ละซับโมเดลแทนทั้งฉากทั้งหมด แต่จะสร้างแบบจำลองความละเอียดสูงเฉพาะเซลล์กริดที่ถูกกำหนดให้กับซับโมเดลนั้น

วิธีใช้การกลั่นความรู้ (distillation) เพื่อเพิ่มความสามารถในการแทนข้อมูลให้สูงสุด

  • แสดงให้เห็นว่าสามารถยกระดับคุณภาพของภาพได้อย่างมากผ่านการกลั่นความรู้
  • ฝึกเรเดียนซ์ฟิลด์ออฟไลน์รุ่นล้ำสมัย (Zip-NeRF) ก่อน แล้วใช้การคาดการณ์ค่าสี RGB ของโมเดลนี้เป็นสัญญาณกำกับให้กับโมเดลของตนเอง
  • ลดค่าความหนาแน่นเชิงปริมาตรของโมเดลครูให้ต่ำที่สุด เพื่อลดความแตกต่างของค่าน้ำหนักในการเรนเดอร์เชิงปริมาตรระหว่างโมเดลครูและโมเดลนักเรียน

ความเห็นของ GN⁺

  • SMERF เป็นเทคโนโลยีนวัตกรรมที่ทำให้การสังเคราะห์มุมมองคุณภาพสูงในฉากขนาดใหญ่แบบเรียลไทม์เป็นไปได้
  • เทคโนโลยีนี้ทำให้สามารถนำทางแบบ 6DOF ภายในเว็บเบราว์เซอร์ได้ และมอบประสิทธิภาพแบบเรียลไทม์บนอุปกรณ์ผู้บริโภคทั่วไปหลากหลายประเภท
  • แนวทางของ SMERF แสดงประสิทธิภาพที่เหนือกว่าเทคโนโลยีเดิมในด้านการสังเคราะห์มุมมองแบบเรียลไทม์ ซึ่งเป็นพัฒนาการที่น่าสนใจและอาจนำไปประยุกต์ใช้ได้ในหลายด้าน เช่น ความเป็นจริงเสมือน การพัฒนาเกม และทัวร์อสังหาริมทรัพย์ออนไลน์

1 ความคิดเห็น

 
GN⁺ 2023-12-14
ความคิดเห็นจาก Hacker News
  • กระจกบนผนังห้องน้ำในสถานที่แห่งหนึ่งที่เบอร์ลินสามารถมองทะลุไปยังห้องครัวของห้องข้าง ๆ ได้ คาดว่าเกิดจากอัลกอริทึมวัดความลึกใช้พารัลแลกซ์ และกระจกทำให้สับสนราวกับเป็นหน้าต่าง ด้านหลังของกระจกทำให้เกิดบริเวณพร่ามัวในห้องครัว แต่ผ่านความพร่ามัวนั้นกลับมองเห็นทั้งสองห้องได้ เอฟเฟกต์นี้ให้ความรู้สึกหลอนนิด ๆ เหมือนเป็นผีเดินทะลุกำแพง และยังทำงานได้ดีอย่างน่าประทับใจแม้บน s21fe ที่มีอายุ 2 ปี
  • ในเดโมเบอร์ลิน การที่มีการสตรีมภาพเข้ามาเพิ่มระหว่างสำรวจพื้นที่นั้นน่าประทับใจมาก เอฟเฟกต์การสะท้อนบนทีวีก็น่าประทับใจมากเช่นกัน แต่ฉากจะไม่เรนเดอร์เลยจนกว่าจะโหลดภาพทั้งหมด ทำให้ต้องใช้เวลานานกว่าภาพเริ่มต้นราว 40 ภาพจะโหลดครบ สงสัยว่าสามารถเริ่มเรนเดอร์แบบบางส่วนได้ทันทีที่ภาพทยอยมาถึงหรือไม่ หรือจำเป็นต้องรอภาพทั้งหมดก่อนถึงจะเรนเดอร์ครั้งใหญ่ครั้งแรกได้
  • มีคำถามบางอย่างเกี่ยวกับเดโม fulllivingroom (ชอบโหมด FPS)
    1. ใช้ภาพอินพุตกี่ภาพ?
    2. ใช้เวลานานแค่ไหนในการคำนวณโมเดลนี้?
    3. ใช้เวลานานแค่ไหนในการเตรียมโมเดลนี้ในเบราว์เซอร์พร้อมทุกเลเวลและอย่างอื่น?
    4. เคยลองสิ่งนี้ใน VR หรือยัง?
  • สงสัยว่าเทคนิคการเรนเดอร์นี้เกี่ยวข้องอย่างไรกับฉาก BD ที่สร้างใน Cyberpunk 2077 พฤติกรรมของวอลุ่มและ "ว็อกเซล" ดูคล้ายกันมาก
  • ติดตามเทคโนโลยีนี้ผ่าน Two Minute Papers และตั้งตารอที่จะได้ใช้งาน คุณปู่ของผมเสียไปเมื่อ 2 ปีก่อน และผมได้ถ่ายรูปเก็บไว้แบบเดียวกับที่ใช้ในเดโม ขอบคุณมาก
  • สงสัยว่ามีทูลเชนโอเพนซอร์สสำหรับโฮสต์ 3D walkthrough ที่สามารถจับภาพ ประมวลผล และสำรวจได้หรือไม่ (เช่น Matterport แบบโอเพนซอร์ส)
  • ข้อมูลเกี่ยวกับการเปรียบเทียบเทคโนโลยีนี้กับ 3D Gaussian Splatting ในด้านประสิทธิภาพ คุณภาพ หรือขนาดข้อมูลนั้นน่าประทับใจมาก
  • สิ่งที่เห็นได้จากเทคโนโลยีเหล่านี้คือภาพ 3D เดียวที่สำรวจได้และมีความแม่นยำมาก แต่ยังไม่เห็นอะไรเกี่ยวกับการตรวจจับฟีเจอร์และวัตถุ การบังกัน และการแยกออกมาเลย หวังว่าโคเด็กที่มีประสิทธิภาพและสตรีมได้มากขึ้นจะต้องการโครงสร้างที่นำไปใช้กับการวิเคราะห์ได้ง่ายกว่า
  • สงสัยว่าเมื่อไรจะได้เห็นเทคโนโลยีนี้ใน VR สำหรับผู้บริโภค ผมเคยคิดว่าน่าจะมีแล้ว แต่ดูเหมือนว่ายังไม่มีเพราะข้อจำกัดด้านการคำนวณ สงสัยว่างานนี้ช่วยคลายข้อจำกัดด้านการคำนวณได้พอสำหรับการรันบน Quest 2/3 หรือยัง หรือมีปัจจัยอื่นที่ขัดขวางการใช้งานแบบสองตา
  • คำถามถึงผู้เขียน: สงสัยว่ามีโอกาสที่จะสร้างโมเดลของฉากขึ้นใหม่โดยไม่ใช้วิธี optimization หรือ tuning หรือไม่ แม้ว่าคุณจะกำลังปรับปรุงวิธีเรนเดอร์มุมมองของฉากให้มีประสิทธิภาพขึ้น แต่ฉากก็ยังคงเป็นแบบคงที่ และการสร้างฉากขึ้นใหม่ก็ยังใช้เวลาอยู่เช่นกัน สงสัยว่ามีวิธีใดที่จะได้รูปลักษณ์และรายละเอียดที่ยอดเยี่ยมของ RF และ GS โดยไม่ต้องมีต้นทุนการสร้างใหม่ที่แพง หรือมีวิธีใช้เทคนิค CG แบบดั้งเดิมกับ representation แบบใหม่ที่เรนเดอร์ได้เร็วในตอนนี้เพื่อสร้างฉากขึ้นใหม่แบบละโมบหรือไม่ ต้องขออภัยล่วงหน้าหากเข้าใจอะไรผิด และขอขอบคุณมากสำหรับงานที่พวกคุณกำลังทำอยู่