4 คะแนน โดย GN⁺ 2024-07-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ไปป์ไลน์ใหม่ที่รวดเร็วและล้ำสมัยสำหรับการสร้างแอสเซ็ต 3D จากข้อความ
  • 3DGen สามารถสร้างรูปทรงและเท็กซ์เจอร์ 3D คุณภาพสูงที่ตรงตามพรอมป์ต์ได้ภายในเวลาไม่ถึง 1 นาที
  • รองรับ PBR (การเรนเดอร์เชิงกายภาพ) ที่จำเป็นต่อการจัดแสงใหม่ให้แอสเซ็ต 3D ในแอปพลิเคชันโลกจริง
  • สามารถปรับเปลี่ยนวัสดุพื้นผิวของรูปทรง 3D ที่สร้างไว้ก่อนหน้า (หรือศิลปินสร้างไว้) แบบกำเนิดใหม่ได้ โดยใช้ข้อความอินพุตเพิ่มเติมจากผู้ใช้
  • 3DGen ผสานองค์ประกอบเทคโนโลยีหลักคือ Meta 3D AssetGen และ Meta 3D TextureGen ที่พัฒนาขึ้นสำหรับการสร้าง 3D จากข้อความและการสร้างเท็กซ์เจอร์จากข้อความ
  • ด้วยการรวมสองเทคโนโลยีนี้ 3DGen จึงแสดงวัตถุ 3D พร้อมกันได้ 3 แบบใน view space, volume space และ UV (หรือ texture) space
  • ทำอัตราชนะได้ 68% เมื่อเทียบกับโมเดลแบบขั้นตอนเดียว
  • 3DGen เร็วกว่ามาก พร้อมทั้งเหนือกว่ามาตรฐานอ้างอิงในอุตสาหกรรมทั้งด้านความตรงตามพรอมป์ต์และคุณภาพภาพสำหรับพรอมป์ต์ข้อความที่ซับซ้อน
งานวิจัยที่เกี่ยวข้อง
Meta 3D AssetGen: การสร้างข้อความเป็นเมชพร้อมเรขาคณิตคุณภาพสูง เท็กซ์เจอร์ และวัสดุ PBR
  • AssetGen เป็นความก้าวหน้าสำคัญของการสร้าง 3D จากข้อความ โดยสร้างเมชคุณภาพสูงที่ตรงตามคำสั่ง พร้อมการควบคุมพื้นผิวและวัสดุ
  • เมื่อเทียบกับการเบกเงาลงบนรูปลักษณ์ของวัตถุ 3D, AssetGen จะส่งออกวัสดุ PBR ที่รองรับการจัดแสงใหม่จริง
  • AssetGen จะสร้างหลายมุมมองของวัตถุก่อนด้วยช่องลักษณะภายนอกแบบแยกองค์ประกอบของเงาและ albedo จากนั้นจึงสร้างสี ความเป็นโลหะ และความหยาบกลับขึ้นมาใน 3D โดยใช้ deferred shading loss เพื่อการกำกับดูแลที่มีประสิทธิภาพ
  • นอกจากนี้ยังใช้ signed distance function เพื่อแสดงรูปทรง 3D ให้เสถียรมากขึ้น และนำ loss ที่เกี่ยวข้องมาใช้สำหรับการกำกับดูแลรูปทรงโดยตรง
  • หลังจากแยกเมชแล้ว ตัวแปลงปรับปรุงเท็กซ์เจอร์ที่ทำงานใน UV space จะช่วยเพิ่มความคมชัดและรายละเอียดอย่างมาก
  • AssetGen ทำได้ดีกว่างานร่วมสมัยที่ดีที่สุดสำหรับการสร้างซ้ำจากไม่กี่มุมมอง โดยปรับปรุง Chamfer distance 17% และ LPIPS 40% และได้ความชอบจากมนุษย์สูงกว่า 72% เมื่อเทียบกับคู่แข่งอุตสาหกรรมชั้นนำที่มีความเร็วใกล้เคียงกันและรองรับ PBR
Meta 3D TextureGen: การสร้างเท็กซ์เจอร์ที่รวดเร็วและสอดคล้องกันสำหรับวัตถุ 3D
  • การเข้าถึงได้และความสามารถในการปรับใช้ของโมเดล text-to-image ในช่วงหลัง ได้เปิดยุคใหม่ให้กับหลายสาขาที่เกี่ยวข้อง เช่น การสร้างเท็กซ์เจอร์
  • วิธีการสร้างเท็กซ์เจอร์ล่าสุดให้ผลลัพธ์ที่น่าประทับใจโดยใช้เครือข่าย text-to-image แต่การผสมผสานระหว่างความสอดคล้องทั่วทั้งภาพ คุณภาพ และความเร็ว เป็นปัจจัยสำคัญในการผลักดันการสร้างเท็กซ์เจอร์ไปสู่การใช้งานจริง
  • แนะนำ Meta 3D TextureGen ซึ่งเป็นวิธี feed-forward ใหม่ที่ประกอบด้วยเครือข่ายแบบลำดับต่อเนื่องสองชุด เพื่อสร้างเท็กซ์เจอร์คุณภาพสูงที่สอดคล้องกันทั่วทั้งภาพสำหรับเรขาคณิตใดก็ได้ในเวลาไม่ถึง 20 วินาที
  • 3DGen บรรลุผลลัพธ์ล้ำสมัยทั้งด้านคุณภาพและความเร็ว โดยทำ conditioning ให้โมเดล text-to-image ด้วยความหมายเชิง 3D ในพื้นที่ 2D แล้วหลอมรวมออกมาเป็นแผนที่เท็กซ์เจอร์ UV ที่สมบูรณ์และความละเอียดสูง
  • ยังมีการแนะนำเครือข่ายปรับปรุงเท็กซ์เจอร์ที่สามารถขยายเท็กซ์เจอร์ได้ในสัดส่วนใดก็ได้ เพื่อสร้างเท็กซ์เจอร์ความละเอียด 4k พิกเซล
ความเห็นจาก GN+
  • 3DGen ดูเป็นความก้าวหน้าที่พลิกวงการในด้านการสร้างแอสเซ็ต 3D เทคโนโลยีที่สร้างโมเดล 3D คุณภาพสูงได้อย่างรวดเร็วจากข้อความพรอมป์ต์ สามารถนำไปใช้ได้ในหลายสาขา เช่น เกม ภาพยนตร์ และงานออกแบบ
  • โดยเฉพาะการรองรับวัสดุ PBR และความสามารถในการเปลี่ยนเท็กซ์เจอร์ของโมเดล 3D ที่สร้างไว้แล้ว น่าจะช่วยเพิ่มการใช้งานจริงได้มาก
  • อย่างไรก็ตาม การตีความความหมายของข้อความพรอมป์ต์ให้แม่นยำและสร้างโมเดล 3D ได้ตามที่ตั้งใจไว้ ยังคงเป็นโจทย์ที่ท้าทาย และดูเหมือนว่ายังต้องอาศัยพัฒนาการของเทคนิค prompt engineering ควบคู่กันไป
  • น่าสนใจว่าผู้เชี่ยวชาญด้าน 3D modeling จะนำเทคโนโลยีนี้ไปใช้อย่างไร และจะส่งผลต่อการแสดงออกเชิงสร้างสรรค์อย่างไรบ้าง อีกทั้งยังควรมีการเปรียบเทียบความแตกต่าง จุดเด่น และข้อจำกัดกับเครื่องมือ 3D modeling แบบเดิม
  • ยังมีโซลูชันอื่นที่ให้ความสามารถคล้ายกัน เช่น Nvidia GET3D, Luma Lab Imagine 3D ควรมีการวิเคราะห์เปรียบเทียบเพิ่มเติมว่ามีจุดเด่นจุดด้อยด้านประสิทธิภาพและการใช้งานอย่างไร
  • เมื่อเทคโนโลยีสร้างโมเดล 3D พัฒนาไปจนทุกคนสามารถสร้างโมเดล 3D ที่ต้องการได้ง่ายขึ้น ก็อาจเกิดประเด็นใหม่ เช่น ปัญหาลิขสิทธิ์ของโมเดล 3D และความเป็นไปได้ในการนำไปใช้ในทางที่ผิด ซึ่งดูเหมือนว่าจะต้องมีการถกเถียงทางสังคมและหาฉันทามติร่วมกัน

1 ความคิดเห็น

 
GN⁺ 2024-07-03
ความคิดเห็นจาก Hacker News
  • ผู้ใช้คนหนึ่งมองว่าความก้าวหน้าของการสร้างโมเดล 3D เป็นแง่มุมสำคัญของ generative AI และกล่าวถึงความยากของการสร้างแอสเซ็ตสำหรับ VR โดยเฉพาะ

    • สนใจความเป็นไปได้ที่ AI จะสร้างโมเดลซึ่งสามารถนำไปพิมพ์ 3D วัตถุในโลกจริงได้ โดยอาศัยอินพุตอย่างข้อความ รูปภาพ และ LIDAR
  • ผู้ใช้อีกคนกล่าวว่าการสร้างคอนเทนต์ VR ใช้แรงงานอย่างมาก และคาดหวังว่าเครื่องมือสร้างโมเดล 3D จะเป็นตัวเร่งสำคัญของเมตาเวิร์ส

  • ผู้ใช้อีกคนประเมินว่าบริการแปลงข้อความ/ภาพเป็นโมเดล 3D ในช่วงหลังทั้งหมดให้ผลลัพธ์ที่ใช้งานไม่ได้

  • ผู้ใช้คนหนึ่งกล่าวว่าการรันทั้งระบบด้วย PBR texturing pipeline น่าประทับใจมาก

    • สงสัยว่าการใช้ SDFs (signed distance fields) อาจทำให้เกิด topology ที่ไม่ดีหรือไม่
    • กล่าวถึงงานวิจัยที่สร้าง topology ระดับพร้อมใช้ในเกม และมองว่าน่าจะทำ rigging สำหรับแอนิเมชันได้
  • ผู้ใช้อีกคนกล่าวว่าสามารถดูออกได้ว่า topology ไม่ดีจากการไม่มี wireframe ให้เห็น

  • ผู้ใช้คนหนึ่งมองว่านี่เป็นอีกก้าวบุกเบิกในการจำลองความเป็นจริงในรูปแบบดิจิทัล

    • หากมันตอบสนองต่อสภาวะของมนุษย์ได้ ก็อาจใช้เรียนรู้สถานการณ์ที่รับมือได้ยากในโลกจริงภายใต้สภาพแวดล้อมที่ปลอดภัย
    • และอาจก้าวออกสู่โลกจริงได้เหมือนการเกิดใหม่ โดยอาศัยบทเรียนที่เรียนรู้จากโลกเสมือน
  • ผู้ใช้อีกคนคาดหวังว่าในไม่ช้าจะสามารถแปลง 3D-to-3D แบบง่าย ๆ ได้

    • โดยอยากใช้สิ่งนี้อัปสเกล mesh และ texture ของเกมเก่า
  • ผู้ใช้คนหนึ่งจินตนาการว่าหากมีอินพุตจากศิลปิน ก็จะสามารถนำโมเดลที่สร้างขึ้นไปแก้ไขภายหลังหรือใช้เป็นจุดเริ่มต้นได้

    • หรืออาจใส่ฟิลเตอร์ PS1 เพื่อสร้างเกมสไตล์เรโทรก็ได้
  • มองว่า Meta 3D Gen แสดงถึงความก้าวหน้าครั้งสำคัญในการสร้างคอนเทนต์ 3D สำหรับแอปพลิเคชัน VR

    • ความสามารถในการสร้างโมเดล 3D ที่มีรายละเอียดจากอินพุตข้อความอาจช่วยย่นกระบวนการสร้างคอนเทนต์ได้อย่างมาก
    • อย่างไรก็ตาม ยังกล่าวว่าปัจจุบันเทคโนโลยียังคงมีความท้าทายในการสร้าง geometry ที่มีรายละเอียดและคุณภาพสูง
    • การผสาน PBR texturing ดูมีอนาคต แต่ประเด็นสำคัญคือโมเดลจะถูกขัดเกลาและนำไปใช้งานจริงได้ดีเพียงใด
  • สุดท้าย ผู้ใช้คนหนึ่งบอกว่าอยากเห็นเทคนิคทางเลือกแทน screened Poisson surface reconstruction ที่ใช้ neural network

    • กล่าวว่าตนได้ดู MeshAnything แล้ว แต่คิดว่านั่นยังไม่ใช่เป้าหมายสุดท้าย