Meta 3D Gen - สร้างแอสเซ็ต 3D จากข้อความ

(ai.meta.com)

4 คะแนน โดย GN⁺ 2024-07-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ไปป์ไลน์ใหม่ที่รวดเร็วและล้ำสมัยสำหรับการสร้างแอสเซ็ต 3D จากข้อความ
3DGen สามารถสร้างรูปทรงและเท็กซ์เจอร์ 3D คุณภาพสูงที่ตรงตามพรอมป์ต์ได้ภายในเวลาไม่ถึง 1 นาที
รองรับ PBR (การเรนเดอร์เชิงกายภาพ) ที่จำเป็นต่อการจัดแสงใหม่ให้แอสเซ็ต 3D ในแอปพลิเคชันโลกจริง
สามารถปรับเปลี่ยนวัสดุพื้นผิวของรูปทรง 3D ที่สร้างไว้ก่อนหน้า (หรือศิลปินสร้างไว้) แบบกำเนิดใหม่ได้ โดยใช้ข้อความอินพุตเพิ่มเติมจากผู้ใช้
3DGen ผสานองค์ประกอบเทคโนโลยีหลักคือ Meta 3D AssetGen และ Meta 3D TextureGen ที่พัฒนาขึ้นสำหรับการสร้าง 3D จากข้อความและการสร้างเท็กซ์เจอร์จากข้อความ
ด้วยการรวมสองเทคโนโลยีนี้ 3DGen จึงแสดงวัตถุ 3D พร้อมกันได้ 3 แบบใน view space, volume space และ UV (หรือ texture) space
ทำอัตราชนะได้ 68% เมื่อเทียบกับโมเดลแบบขั้นตอนเดียว
3DGen เร็วกว่ามาก พร้อมทั้งเหนือกว่ามาตรฐานอ้างอิงในอุตสาหกรรมทั้งด้านความตรงตามพรอมป์ต์และคุณภาพภาพสำหรับพรอมป์ต์ข้อความที่ซับซ้อน

งานวิจัยที่เกี่ยวข้อง

Meta 3D AssetGen: การสร้างข้อความเป็นเมชพร้อมเรขาคณิตคุณภาพสูง เท็กซ์เจอร์ และวัสดุ PBR

AssetGen เป็นความก้าวหน้าสำคัญของการสร้าง 3D จากข้อความ โดยสร้างเมชคุณภาพสูงที่ตรงตามคำสั่ง พร้อมการควบคุมพื้นผิวและวัสดุ
เมื่อเทียบกับการเบกเงาลงบนรูปลักษณ์ของวัตถุ 3D, AssetGen จะส่งออกวัสดุ PBR ที่รองรับการจัดแสงใหม่จริง
AssetGen จะสร้างหลายมุมมองของวัตถุก่อนด้วยช่องลักษณะภายนอกแบบแยกองค์ประกอบของเงาและ albedo จากนั้นจึงสร้างสี ความเป็นโลหะ และความหยาบกลับขึ้นมาใน 3D โดยใช้ deferred shading loss เพื่อการกำกับดูแลที่มีประสิทธิภาพ
นอกจากนี้ยังใช้ signed distance function เพื่อแสดงรูปทรง 3D ให้เสถียรมากขึ้น และนำ loss ที่เกี่ยวข้องมาใช้สำหรับการกำกับดูแลรูปทรงโดยตรง
หลังจากแยกเมชแล้ว ตัวแปลงปรับปรุงเท็กซ์เจอร์ที่ทำงานใน UV space จะช่วยเพิ่มความคมชัดและรายละเอียดอย่างมาก
AssetGen ทำได้ดีกว่างานร่วมสมัยที่ดีที่สุดสำหรับการสร้างซ้ำจากไม่กี่มุมมอง โดยปรับปรุง Chamfer distance 17% และ LPIPS 40% และได้ความชอบจากมนุษย์สูงกว่า 72% เมื่อเทียบกับคู่แข่งอุตสาหกรรมชั้นนำที่มีความเร็วใกล้เคียงกันและรองรับ PBR

Meta 3D TextureGen: การสร้างเท็กซ์เจอร์ที่รวดเร็วและสอดคล้องกันสำหรับวัตถุ 3D

การเข้าถึงได้และความสามารถในการปรับใช้ของโมเดล text-to-image ในช่วงหลัง ได้เปิดยุคใหม่ให้กับหลายสาขาที่เกี่ยวข้อง เช่น การสร้างเท็กซ์เจอร์
วิธีการสร้างเท็กซ์เจอร์ล่าสุดให้ผลลัพธ์ที่น่าประทับใจโดยใช้เครือข่าย text-to-image แต่การผสมผสานระหว่างความสอดคล้องทั่วทั้งภาพ คุณภาพ และความเร็ว เป็นปัจจัยสำคัญในการผลักดันการสร้างเท็กซ์เจอร์ไปสู่การใช้งานจริง
แนะนำ Meta 3D TextureGen ซึ่งเป็นวิธี feed-forward ใหม่ที่ประกอบด้วยเครือข่ายแบบลำดับต่อเนื่องสองชุด เพื่อสร้างเท็กซ์เจอร์คุณภาพสูงที่สอดคล้องกันทั่วทั้งภาพสำหรับเรขาคณิตใดก็ได้ในเวลาไม่ถึง 20 วินาที
3DGen บรรลุผลลัพธ์ล้ำสมัยทั้งด้านคุณภาพและความเร็ว โดยทำ conditioning ให้โมเดล text-to-image ด้วยความหมายเชิง 3D ในพื้นที่ 2D แล้วหลอมรวมออกมาเป็นแผนที่เท็กซ์เจอร์ UV ที่สมบูรณ์และความละเอียดสูง
ยังมีการแนะนำเครือข่ายปรับปรุงเท็กซ์เจอร์ที่สามารถขยายเท็กซ์เจอร์ได้ในสัดส่วนใดก็ได้ เพื่อสร้างเท็กซ์เจอร์ความละเอียด 4k พิกเซล

ความเห็นจาก GN+

3DGen ดูเป็นความก้าวหน้าที่พลิกวงการในด้านการสร้างแอสเซ็ต 3D เทคโนโลยีที่สร้างโมเดล 3D คุณภาพสูงได้อย่างรวดเร็วจากข้อความพรอมป์ต์ สามารถนำไปใช้ได้ในหลายสาขา เช่น เกม ภาพยนตร์ และงานออกแบบ
โดยเฉพาะการรองรับวัสดุ PBR และความสามารถในการเปลี่ยนเท็กซ์เจอร์ของโมเดล 3D ที่สร้างไว้แล้ว น่าจะช่วยเพิ่มการใช้งานจริงได้มาก
อย่างไรก็ตาม การตีความความหมายของข้อความพรอมป์ต์ให้แม่นยำและสร้างโมเดล 3D ได้ตามที่ตั้งใจไว้ ยังคงเป็นโจทย์ที่ท้าทาย และดูเหมือนว่ายังต้องอาศัยพัฒนาการของเทคนิค prompt engineering ควบคู่กันไป
น่าสนใจว่าผู้เชี่ยวชาญด้าน 3D modeling จะนำเทคโนโลยีนี้ไปใช้อย่างไร และจะส่งผลต่อการแสดงออกเชิงสร้างสรรค์อย่างไรบ้าง อีกทั้งยังควรมีการเปรียบเทียบความแตกต่าง จุดเด่น และข้อจำกัดกับเครื่องมือ 3D modeling แบบเดิม
ยังมีโซลูชันอื่นที่ให้ความสามารถคล้ายกัน เช่น Nvidia GET3D, Luma Lab Imagine 3D ควรมีการวิเคราะห์เปรียบเทียบเพิ่มเติมว่ามีจุดเด่นจุดด้อยด้านประสิทธิภาพและการใช้งานอย่างไร
เมื่อเทคโนโลยีสร้างโมเดล 3D พัฒนาไปจนทุกคนสามารถสร้างโมเดล 3D ที่ต้องการได้ง่ายขึ้น ก็อาจเกิดประเด็นใหม่ เช่น ปัญหาลิขสิทธิ์ของโมเดล 3D และความเป็นไปได้ในการนำไปใช้ในทางที่ผิด ซึ่งดูเหมือนว่าจะต้องมีการถกเถียงทางสังคมและหาฉันทามติร่วมกัน

1 ความคิดเห็น

GN⁺ 2024-07-03

ความคิดเห็นจาก Hacker News

ผู้ใช้คนหนึ่งมองว่าความก้าวหน้าของการสร้างโมเดล 3D เป็นแง่มุมสำคัญของ generative AI และกล่าวถึงความยากของการสร้างแอสเซ็ตสำหรับ VR โดยเฉพาะ
- สนใจความเป็นไปได้ที่ AI จะสร้างโมเดลซึ่งสามารถนำไปพิมพ์ 3D วัตถุในโลกจริงได้ โดยอาศัยอินพุตอย่างข้อความ รูปภาพ และ LIDAR
ผู้ใช้อีกคนกล่าวว่าการสร้างคอนเทนต์ VR ใช้แรงงานอย่างมาก และคาดหวังว่าเครื่องมือสร้างโมเดล 3D จะเป็นตัวเร่งสำคัญของเมตาเวิร์ส
ผู้ใช้อีกคนประเมินว่าบริการแปลงข้อความ/ภาพเป็นโมเดล 3D ในช่วงหลังทั้งหมดให้ผลลัพธ์ที่ใช้งานไม่ได้
ผู้ใช้คนหนึ่งกล่าวว่าการรันทั้งระบบด้วย PBR texturing pipeline น่าประทับใจมาก
- สงสัยว่าการใช้ SDFs (signed distance fields) อาจทำให้เกิด topology ที่ไม่ดีหรือไม่
- กล่าวถึงงานวิจัยที่สร้าง topology ระดับพร้อมใช้ในเกม และมองว่าน่าจะทำ rigging สำหรับแอนิเมชันได้
ผู้ใช้อีกคนกล่าวว่าสามารถดูออกได้ว่า topology ไม่ดีจากการไม่มี wireframe ให้เห็น
ผู้ใช้คนหนึ่งมองว่านี่เป็นอีกก้าวบุกเบิกในการจำลองความเป็นจริงในรูปแบบดิจิทัล
- หากมันตอบสนองต่อสภาวะของมนุษย์ได้ ก็อาจใช้เรียนรู้สถานการณ์ที่รับมือได้ยากในโลกจริงภายใต้สภาพแวดล้อมที่ปลอดภัย
- และอาจก้าวออกสู่โลกจริงได้เหมือนการเกิดใหม่ โดยอาศัยบทเรียนที่เรียนรู้จากโลกเสมือน
ผู้ใช้อีกคนคาดหวังว่าในไม่ช้าจะสามารถแปลง 3D-to-3D แบบง่าย ๆ ได้
- โดยอยากใช้สิ่งนี้อัปสเกล mesh และ texture ของเกมเก่า
ผู้ใช้คนหนึ่งจินตนาการว่าหากมีอินพุตจากศิลปิน ก็จะสามารถนำโมเดลที่สร้างขึ้นไปแก้ไขภายหลังหรือใช้เป็นจุดเริ่มต้นได้
- หรืออาจใส่ฟิลเตอร์ PS1 เพื่อสร้างเกมสไตล์เรโทรก็ได้
มองว่า Meta 3D Gen แสดงถึงความก้าวหน้าครั้งสำคัญในการสร้างคอนเทนต์ 3D สำหรับแอปพลิเคชัน VR
- ความสามารถในการสร้างโมเดล 3D ที่มีรายละเอียดจากอินพุตข้อความอาจช่วยย่นกระบวนการสร้างคอนเทนต์ได้อย่างมาก
- อย่างไรก็ตาม ยังกล่าวว่าปัจจุบันเทคโนโลยียังคงมีความท้าทายในการสร้าง geometry ที่มีรายละเอียดและคุณภาพสูง
- การผสาน PBR texturing ดูมีอนาคต แต่ประเด็นสำคัญคือโมเดลจะถูกขัดเกลาและนำไปใช้งานจริงได้ดีเพียงใด
สุดท้าย ผู้ใช้คนหนึ่งบอกว่าอยากเห็นเทคนิคทางเลือกแทน screened Poisson surface reconstruction ที่ใช้ neural network
- กล่าวว่าตนได้ดู MeshAnything แล้ว แต่คิดว่านั่นยังไม่ใช่เป้าหมายสุดท้าย

Meta 3D Gen - สร้างแอสเซ็ต 3D จากข้อความ

งานวิจัยที่เกี่ยวข้อง

Meta 3D AssetGen: การสร้างข้อความเป็นเมชพร้อมเรขาคณิตคุณภาพสูง เท็กซ์เจอร์ และวัสดุ PBR

Meta 3D TextureGen: การสร้างเท็กซ์เจอร์ที่รวดเร็วและสอดคล้องกันสำหรับวัตถุ 3D

ความเห็นจาก GN+

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News