- ไปป์ไลน์ใหม่ที่รวดเร็วและล้ำสมัยสำหรับการสร้างแอสเซ็ต 3D จากข้อความ
- 3DGen สามารถสร้างรูปทรงและเท็กซ์เจอร์ 3D คุณภาพสูงที่ตรงตามพรอมป์ต์ได้ภายในเวลาไม่ถึง 1 นาที
- รองรับ PBR (การเรนเดอร์เชิงกายภาพ) ที่จำเป็นต่อการจัดแสงใหม่ให้แอสเซ็ต 3D ในแอปพลิเคชันโลกจริง
- สามารถปรับเปลี่ยนวัสดุพื้นผิวของรูปทรง 3D ที่สร้างไว้ก่อนหน้า (หรือศิลปินสร้างไว้) แบบกำเนิดใหม่ได้ โดยใช้ข้อความอินพุตเพิ่มเติมจากผู้ใช้
- 3DGen ผสานองค์ประกอบเทคโนโลยีหลักคือ Meta 3D AssetGen และ Meta 3D TextureGen ที่พัฒนาขึ้นสำหรับการสร้าง 3D จากข้อความและการสร้างเท็กซ์เจอร์จากข้อความ
- ด้วยการรวมสองเทคโนโลยีนี้ 3DGen จึงแสดงวัตถุ 3D พร้อมกันได้ 3 แบบใน view space, volume space และ UV (หรือ texture) space
- ทำอัตราชนะได้ 68% เมื่อเทียบกับโมเดลแบบขั้นตอนเดียว
- 3DGen เร็วกว่ามาก พร้อมทั้งเหนือกว่ามาตรฐานอ้างอิงในอุตสาหกรรมทั้งด้านความตรงตามพรอมป์ต์และคุณภาพภาพสำหรับพรอมป์ต์ข้อความที่ซับซ้อน
งานวิจัยที่เกี่ยวข้อง
Meta 3D AssetGen: การสร้างข้อความเป็นเมชพร้อมเรขาคณิตคุณภาพสูง เท็กซ์เจอร์ และวัสดุ PBR
- AssetGen เป็นความก้าวหน้าสำคัญของการสร้าง 3D จากข้อความ โดยสร้างเมชคุณภาพสูงที่ตรงตามคำสั่ง พร้อมการควบคุมพื้นผิวและวัสดุ
- เมื่อเทียบกับการเบกเงาลงบนรูปลักษณ์ของวัตถุ 3D, AssetGen จะส่งออกวัสดุ PBR ที่รองรับการจัดแสงใหม่จริง
- AssetGen จะสร้างหลายมุมมองของวัตถุก่อนด้วยช่องลักษณะภายนอกแบบแยกองค์ประกอบของเงาและ albedo จากนั้นจึงสร้างสี ความเป็นโลหะ และความหยาบกลับขึ้นมาใน 3D โดยใช้ deferred shading loss เพื่อการกำกับดูแลที่มีประสิทธิภาพ
- นอกจากนี้ยังใช้ signed distance function เพื่อแสดงรูปทรง 3D ให้เสถียรมากขึ้น และนำ loss ที่เกี่ยวข้องมาใช้สำหรับการกำกับดูแลรูปทรงโดยตรง
- หลังจากแยกเมชแล้ว ตัวแปลงปรับปรุงเท็กซ์เจอร์ที่ทำงานใน UV space จะช่วยเพิ่มความคมชัดและรายละเอียดอย่างมาก
- AssetGen ทำได้ดีกว่างานร่วมสมัยที่ดีที่สุดสำหรับการสร้างซ้ำจากไม่กี่มุมมอง โดยปรับปรุง Chamfer distance 17% และ LPIPS 40% และได้ความชอบจากมนุษย์สูงกว่า 72% เมื่อเทียบกับคู่แข่งอุตสาหกรรมชั้นนำที่มีความเร็วใกล้เคียงกันและรองรับ PBR
Meta 3D TextureGen: การสร้างเท็กซ์เจอร์ที่รวดเร็วและสอดคล้องกันสำหรับวัตถุ 3D
- การเข้าถึงได้และความสามารถในการปรับใช้ของโมเดล text-to-image ในช่วงหลัง ได้เปิดยุคใหม่ให้กับหลายสาขาที่เกี่ยวข้อง เช่น การสร้างเท็กซ์เจอร์
- วิธีการสร้างเท็กซ์เจอร์ล่าสุดให้ผลลัพธ์ที่น่าประทับใจโดยใช้เครือข่าย text-to-image แต่การผสมผสานระหว่างความสอดคล้องทั่วทั้งภาพ คุณภาพ และความเร็ว เป็นปัจจัยสำคัญในการผลักดันการสร้างเท็กซ์เจอร์ไปสู่การใช้งานจริง
- แนะนำ Meta 3D TextureGen ซึ่งเป็นวิธี feed-forward ใหม่ที่ประกอบด้วยเครือข่ายแบบลำดับต่อเนื่องสองชุด เพื่อสร้างเท็กซ์เจอร์คุณภาพสูงที่สอดคล้องกันทั่วทั้งภาพสำหรับเรขาคณิตใดก็ได้ในเวลาไม่ถึง 20 วินาที
- 3DGen บรรลุผลลัพธ์ล้ำสมัยทั้งด้านคุณภาพและความเร็ว โดยทำ conditioning ให้โมเดล text-to-image ด้วยความหมายเชิง 3D ในพื้นที่ 2D แล้วหลอมรวมออกมาเป็นแผนที่เท็กซ์เจอร์ UV ที่สมบูรณ์และความละเอียดสูง
- ยังมีการแนะนำเครือข่ายปรับปรุงเท็กซ์เจอร์ที่สามารถขยายเท็กซ์เจอร์ได้ในสัดส่วนใดก็ได้ เพื่อสร้างเท็กซ์เจอร์ความละเอียด 4k พิกเซล
ความเห็นจาก GN+
- 3DGen ดูเป็นความก้าวหน้าที่พลิกวงการในด้านการสร้างแอสเซ็ต 3D เทคโนโลยีที่สร้างโมเดล 3D คุณภาพสูงได้อย่างรวดเร็วจากข้อความพรอมป์ต์ สามารถนำไปใช้ได้ในหลายสาขา เช่น เกม ภาพยนตร์ และงานออกแบบ
- โดยเฉพาะการรองรับวัสดุ PBR และความสามารถในการเปลี่ยนเท็กซ์เจอร์ของโมเดล 3D ที่สร้างไว้แล้ว น่าจะช่วยเพิ่มการใช้งานจริงได้มาก
- อย่างไรก็ตาม การตีความความหมายของข้อความพรอมป์ต์ให้แม่นยำและสร้างโมเดล 3D ได้ตามที่ตั้งใจไว้ ยังคงเป็นโจทย์ที่ท้าทาย และดูเหมือนว่ายังต้องอาศัยพัฒนาการของเทคนิค prompt engineering ควบคู่กันไป
- น่าสนใจว่าผู้เชี่ยวชาญด้าน 3D modeling จะนำเทคโนโลยีนี้ไปใช้อย่างไร และจะส่งผลต่อการแสดงออกเชิงสร้างสรรค์อย่างไรบ้าง อีกทั้งยังควรมีการเปรียบเทียบความแตกต่าง จุดเด่น และข้อจำกัดกับเครื่องมือ 3D modeling แบบเดิม
- ยังมีโซลูชันอื่นที่ให้ความสามารถคล้ายกัน เช่น Nvidia GET3D, Luma Lab Imagine 3D ควรมีการวิเคราะห์เปรียบเทียบเพิ่มเติมว่ามีจุดเด่นจุดด้อยด้านประสิทธิภาพและการใช้งานอย่างไร
- เมื่อเทคโนโลยีสร้างโมเดล 3D พัฒนาไปจนทุกคนสามารถสร้างโมเดล 3D ที่ต้องการได้ง่ายขึ้น ก็อาจเกิดประเด็นใหม่ เช่น ปัญหาลิขสิทธิ์ของโมเดล 3D และความเป็นไปได้ในการนำไปใช้ในทางที่ผิด ซึ่งดูเหมือนว่าจะต้องมีการถกเถียงทางสังคมและหาฉันทามติร่วมกัน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้ใช้คนหนึ่งมองว่าความก้าวหน้าของการสร้างโมเดล 3D เป็นแง่มุมสำคัญของ generative AI และกล่าวถึงความยากของการสร้างแอสเซ็ตสำหรับ VR โดยเฉพาะ
ผู้ใช้อีกคนกล่าวว่าการสร้างคอนเทนต์ VR ใช้แรงงานอย่างมาก และคาดหวังว่าเครื่องมือสร้างโมเดล 3D จะเป็นตัวเร่งสำคัญของเมตาเวิร์ส
ผู้ใช้อีกคนประเมินว่าบริการแปลงข้อความ/ภาพเป็นโมเดล 3D ในช่วงหลังทั้งหมดให้ผลลัพธ์ที่ใช้งานไม่ได้
ผู้ใช้คนหนึ่งกล่าวว่าการรันทั้งระบบด้วย PBR texturing pipeline น่าประทับใจมาก
ผู้ใช้อีกคนกล่าวว่าสามารถดูออกได้ว่า topology ไม่ดีจากการไม่มี wireframe ให้เห็น
ผู้ใช้คนหนึ่งมองว่านี่เป็นอีกก้าวบุกเบิกในการจำลองความเป็นจริงในรูปแบบดิจิทัล
ผู้ใช้อีกคนคาดหวังว่าในไม่ช้าจะสามารถแปลง 3D-to-3D แบบง่าย ๆ ได้
ผู้ใช้คนหนึ่งจินตนาการว่าหากมีอินพุตจากศิลปิน ก็จะสามารถนำโมเดลที่สร้างขึ้นไปแก้ไขภายหลังหรือใช้เป็นจุดเริ่มต้นได้
มองว่า Meta 3D Gen แสดงถึงความก้าวหน้าครั้งสำคัญในการสร้างคอนเทนต์ 3D สำหรับแอปพลิเคชัน VR
สุดท้าย ผู้ใช้คนหนึ่งบอกว่าอยากเห็นเทคนิคทางเลือกแทน screened Poisson surface reconstruction ที่ใช้ neural network