1 คะแนน โดย GN⁺ 2023-11-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

MeshGPT: ดีโคเดอร์ล้วนทรานส์ฟอร์เมอร์สำหรับการสร้างเมชสามเหลี่ยม

  • MeshGPT สร้างเมชสามเหลี่ยมโดยสุ่มตัวอย่างโมเดลทรานส์ฟอร์เมอร์แบบอัตโนมัติถดถอยที่สร้างโทเค็นจากคลังคำศัพท์เชิงเรขาคณิตที่เรียนรู้ไว้
  • โทเค็นเหล่านี้สามารถถอดรหัสเป็นหน้าของเมชสามเหลี่ยมได้ และเมชที่สร้างขึ้นมีลักษณะสะอาด สอดคล้องกัน พร้อมขอบคมและความเที่ยงตรงสูง

สรุป

  • MeshGPT เป็นวิธีใหม่ในการสร้างเมชสามเหลี่ยมที่สะท้อนความกะทัดรัดซึ่งเป็นลักษณะเฉพาะของเมชที่ศิลปินสร้างขึ้น แตกต่างจากเมชสามเหลี่ยมหนาแน่นที่สกัดจาก neural field
  • โดยได้รับแรงบันดาลใจจากความก้าวหน้าล่าสุดของโมเดลภาษาขนาดใหญ่ที่ทรงพลัง จึงนำแนวทางแบบลำดับมาใช้เพื่อสร้างเมชสามเหลี่ยมแบบอัตโนมัติถดถอยเป็นลำดับของสามเหลี่ยม
  • ขั้นแรก ใช้กราฟคอนโวลูชันเพื่อเรียนรู้คลังคำศัพท์ของ embedding ที่อาจถูกควอนไทซ์ แล้ว embedding เหล่านี้จะถูกจัดเป็นลำดับและถอดรหัสเป็นสามเหลี่ยมโดยดีโคเดอร์เพื่อให้สามารถสร้างเมชกลับคืนได้อย่างมีประสิทธิภาพ

การเปรียบเทียบวิดีโอและการประยุกต์ใช้อื่น ๆ

  • แนวทางของ MeshGPT สร้างเมชที่กะทัดรัดและมีรายละเอียดเชิงเรขาคณิตที่คมชัด ขณะที่วิธีเดิมมักพลาดรายละเอียดเหล่านี้ หรือสร้างเมชที่ถูกแบ่งสามเหลี่ยมมากเกินไป หรือให้ผลลัพธ์เป็นรูปทรงที่เรียบง่ายเกินไป
  • เมื่อให้เมชเพียงบางส่วน วิธีนี้สามารถอนุมานการเติมเต็มรูปทรงที่เป็นไปได้หลายแบบได้
  • วิธีนี้สามารถใช้สร้าง 3D asset สำหรับฉากได้ และในที่นี้แสดงตัวอย่างห้องที่ถูกเติมด้วย asset ที่สร้างขึ้นด้วยวิธีนี้

ภาพรวมของวิธีการ

  • เริ่มจากเรียนรู้คลังคำศัพท์สำหรับเมชสามเหลี่ยมก่อน แล้วจึงใช้สิ่งนั้นเพื่อสร้างเมชแบบอัตโนมัติถดถอย
  • เรียนรู้คลังคำศัพท์ของ embedding เชิงเรขาคณิตจากคอลเลกชันของรูปทรงหลากหลายชนิด โดยมีเครือข่าย encoder-decoder พร้อม vector quantization เป็นองค์ประกอบหลัก
  • หลังจากฝึกเสร็จสมบูรณ์ ทรานส์ฟอร์เมอร์นี้จะสามารถสุ่มตัวอย่างเมชได้โดยตรงเป็นลำดับของโทเค็นจากคลังคำศัพท์ที่เรียนรู้ไว้

ความเห็นของ GN⁺

MeshGPT นำเสนอแนวทางที่ล้ำหน้าและเหนือกว่าวิธีสร้างเมชแบบเดิม โดยแสดงให้เห็นถึงการปรับปรุงที่เด่นชัดทั้งในด้านการครอบคลุมรูปทรงและคะแนน FID เทคโนโลยีนี้ถือเป็นความก้าวหน้าครั้งสำคัญในวงการ 3D modeling และ computer graphics โดยเฉพาะความสามารถในการสร้างเมชที่กะทัดรัด มีขอบคม และเลียนแบบรูปแบบการแบ่งสามเหลี่ยมอย่างมีประสิทธิภาพของเมชที่มนุษย์สร้างขึ้นได้ดียิ่งขึ้น ความก้าวหน้านี้เปิดโอกาสให้ผู้สร้างคอนเทนต์ 3D มีเครื่องมือใหม่ และอาจทำให้การสร้าง 3D asset คุณภาพสูงทำได้รวดเร็วและมีประสิทธิภาพมากขึ้น

1 ความคิดเห็น

 
GN⁺ 2023-11-29
ความคิดเห็นจาก Hacker News
  • เป็นงานวิจัยที่แสดงให้เห็นภาพของไอเดียเชิงปฏิวัติ และในเปเปอร์มีรายละเอียดรวมไว้อย่างมาก เป็นที่ทราบกันว่าโมเดลทรานส์ฟอร์เมอร์สามารถขยายสเกลได้ และคาดว่าไอเดียนี้จะถูกหลายบริษัทนำไปใช้ในการฝึก pipeline สำหรับการสร้าง 3D asset ทั่วไป

    "อันดับแรก เราใช้ graph convolution เพื่อเรียนรู้ vocabulary ของ latent quantized embeddings ที่บรรจุข้อมูลเกี่ยวกับเรขาคณิตและโทโพโลยีของ mesh เฉพาะส่วน จากนั้น embedding เหล่านี้จะถูกทำให้เป็นลำดับและถอดรหัสเป็นสามเหลี่ยมโดย decoder ซึ่งทำให้สามารถสร้าง mesh กลับขึ้นมาได้อย่างมีประสิทธิภาพ"

  • ในฐานะวิศวกรแมชชีนเลิร์นนิงที่สนใจ Blender และการพัฒนาเกมเป็นงานอดิเรก งานวิจัยนี้น่าประทับใจ แต่ยังไม่ค่อยมีประโยชน์ในเชิงปฏิบัติสำหรับตัวอย่างเฟอร์นิเจอร์ที่มีอยู่อย่างจำกัด โมเดลเลอร์ที่มีทักษะสามารถสร้าง mesh แบบนี้ได้ภายใน 5 นาที และก็ยังต้องใช้ polygon สำหรับการสร้างอยู่ดี ขั้นต่อไปน่าจะเป็นการควบคุมการสร้าง seed ด้วย LLM และเพิ่มโมเดลภาพเข้าไปในส่วน autoregressive ของสถาปัตยกรรม แบบนั้นเราน่าจะได้เห็น asset ที่เหมาะกับเกมมือถืออย่างแท้จริง

  • ในฐานะคนที่ทำอาชีพด้านการผลิต 3D/ภาพยนตร์ สถานการณ์ตอนนี้ให้ความรู้สึกทั้งน่าตื่นเต้นและน่ากลัวมาก

  • สงสัยว่าอินพุตคืออะไร เป็นการแปลงข้อความอย่าง "เก้าอี้" ให้เป็น mesh หรือไม่? แก้ไข: ดูเหมือนว่า mesh completion จะเป็นวิธีอินพุต-เอาต์พุตหลัก ไม่ใช่แค่ฟีเจอร์เล็ก ๆ

  • ดูเหมือนว่าปัญหายาก ๆ ที่ยังหลงเหลืออยู่และแทบไม่มีความก้าวหน้ามากนักตั้งแต่ยุค 90 จะถูกแก้ได้ไม่ทางใดก็ทางหนึ่งด้วยทรานส์ฟอร์เมอร์ เป็นยุคสมัยที่น่าสนใจจริง ๆ

  • นวัตกรรมถัดไปน่าจะเป็น UX สำหรับสร้างฉาก 3D แบบเดียวกับโมเดลเหล่านี้ต่อหน้าใน VR ซึ่งจะทำให้เราสามารถ สร้าง สภาพแวดล้อม 3D แบบถาวรและตามต้องการสำหรับสภาพแวดล้อมใดก็ตามที่เรามีข้อมูลฝึกอยู่แล้ว ส่วน diffusion model ก็สามารถใช้สร้าง texture ได้

  • ต่อให้สิ่งนี้เป็น "แค่" การเติม mesh อัตโนมัติ มันก็มีประโยชน์มากสำหรับศิลปิน 3D ตอนนี้ยังมีช่องว่างระหว่างวิธีการปั้นตัวละครกับวิธีการทำแอนิเมชัน การทำ retopology ให้โมเดลใช้เวลามากมาก ถ้ามี retopology แบบใช้ทรานส์ฟอร์เมอร์ที่รับ mesh หยาบแล้วให้ topology ที่สะอาดได้ ก็จะช่วยประหยัดเวลาได้มาก

  • ชอบสาขานี้มาก ในเปเปอร์มีเว็บไซต์ ตัวอย่าง และวิดีโอที่ยอดเยี่ยม รวมอยู่ด้วย ให้ความรู้สึกสดชื่นกว่าสไตล์เปเปอร์ที่มักเขียนแบบบทคัดย่อ บทนำ และผลลัพธ์ที่อัดแน่นไปหมดมาก

  • เทคโนโลยีนี้กำลังดีขึ้นมากจริง ๆ! ยังมีขอบแปลก ๆ อยู่บ้าง แต่ตอนนี้มันให้ความรู้สึกเหมือนเป็นเรื่องของ "รายละเอียดที่ต้องทำซ้ำ" มากกว่าจะเป็นปัญหาเชิงอัลกอริทึมหรือปัญหาซับซ้อน ถ้าสามารถเอา mesh ทั้งหมดใส่ไว้ในโฟลเดอร์เดียว ฝึกเครือข่าย แล้วขอให้มันสร้างอย่างอื่นในสไตล์นั้นได้ เราก็คงไม่ต้องมานั่งทำ retopology กับของที่สร้างขึ้น หรือใส่อิทธิพลเชิงสร้างสรรค์อื่น ๆ เพิ่มอีก แน่นอนว่าก่อนจะไปถึงจุดนั้น procgen ก็ยังให้ผลที่ดีกว่าอยู่ แต่ก็ตื่นเต้นมากกับความเร็วที่เทคโนโลยีนี้กำลังก้าวหน้า! หวังว่าในงาน Unreal showcase ปีหน้าเราจะได้คุยกันเรื่องฟีเจอร์ใหม่อย่าง "Asset Generator"

  • เทคโนโลยีนี้ดูเจ๋งมากจริง ๆ! ดูเหมือนว่าจะช่วยนักพัฒนาเกมอินดี้ได้อย่างมหาศาลในการสร้าง asset จำนวนมาก