1 คะแนน โดย GN⁺ 2024-12-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำวิธีการสร้าง 3D แบบใหม่

  • Structured LATent (SLAT): นำเสนอการแทนค่าแฝงเชิงโครงสร้างแบบรวมศูนย์ที่สามารถถอดรหัสเป็นรูปแบบผลลัพธ์ได้หลากหลาย โดยผสานคุณลักษณะภาพแบบหลายมุมมองที่หนาแน่นซึ่งสกัดจากโมเดล vision ที่ทรงพลังเข้ากับกริด 3D ที่เติมข้อมูลแบบเบาบาง เพื่อเก็บข้อมูลเชิงโครงสร้าง (เรขาคณิต) และเชิงเท็กซ์เจอร์ (รูปลักษณ์) ได้อย่างครอบคลุม

  • Rectified Flow Transformers: โมเดลสร้าง 3D ที่ออกแบบมาสำหรับ SLAT โดยฝึกโมเดลขนาดพารามิเตอร์สูงสุด 2 พันล้านตัวบนชุดข้อมูลแอสเซ็ต 3D ขนาดใหญ่ที่ประกอบด้วยวัตถุหลากหลาย 500,000 ชิ้น สร้างผลลัพธ์คุณภาพสูงจากเงื่อนไขแบบข้อความหรือภาพ และมีประสิทธิภาพเหนือกว่าวิธีเดิมอย่างชัดเจน

การสร้างและแก้ไขแอสเซ็ต 3D

  • การสร้างแอสเซ็ต 3D จากข้อความและภาพ: TRELLIS สามารถสร้างแอสเซ็ต 3D ได้หลากหลายจากพรอมป์ต์ข้อความหรือภาพ ตัวอย่างเช่น โทรศัพท์หมุนทองแดง บ้านอิฐสองชั้น และหุ่นยนต์ทรงกลม

  • การดัดแปลงแอสเซ็ตและการแก้ไขเฉพาะจุด: สามารถสร้างรูปแบบดัดแปลงของแอสเซ็ต 3D ที่กำหนดตามพรอมป์ต์ข้อความได้ และสามารถปรับแต่งบางพื้นที่เพื่อสร้างดีไซน์ใหม่ได้ เช่น ลบแขนของหุ่นยนต์รบหรือเพิ่มอาวุธ

การประยุกต์ใช้และวิธีการของ TRELLIS

  • การออกแบบงานศิลปะ 3D: สามารถนำแอสเซ็ต 3D คุณภาพสูงที่ TRELLIS สร้างขึ้นมาผสมผสานกัน เพื่อสร้างงานออกแบบศิลปะ 3D ที่ซับซ้อนและมีชีวิตชีวาได้อย่างง่ายดาย

  • การแทนค่าแฝงเชิงโครงสร้าง: SLAT ผสานโครงสร้างแบบ sparse เข้ากับการแทนค่าภาพที่ทรงพลัง โดยกำหนด latent เฉพาะตำแหน่งให้กับ active voxel ที่ตัดผ่านพื้นผิวของวัตถุ คุณลักษณะเหล่านี้ได้มาจาก vision encoder ที่ผ่านการพรีเทรนอย่างแข็งแกร่ง และสามารถเก็บรายละเอียดทั้งด้านเรขาคณิตและลักษณะภาพได้

  • โมเดล TRELLIS: ฝึกโมเดลสร้าง 3D ขนาดใหญ่โดยใช้พรอมป์ต์ข้อความหรือภาพเป็นเงื่อนไข ใช้ไปป์ไลน์สองขั้นตอนเพื่อสร้างโครงสร้างแบบ sparse ของ SLAT ก่อน จากนั้นจึงสร้างเวกเตอร์ latent สำหรับเซลล์ที่ไม่ว่าง ทำให้สามารถสร้างแอสเซ็ต 3D ในรูปแบบผลลัพธ์ที่หลากหลายได้อย่างง่ายดาย

1 ความคิดเห็น

 
GN⁺ 2024-12-10
ความคิดเห็นจาก Hacker News
  • นี่เป็นครั้งแรกที่รู้สึกไม่สบายใจเมื่อเห็นคอนเทนต์ที่สร้างด้วย AI คอนเทนต์แบบนี้ยอดเยี่ยมมากก็จริง แต่ก็รู้สึกเศร้าที่งานที่ทำด้วยมือมนุษย์กำลังหายไป อยากได้โลกที่เกิดจากความคิดของมนุษย์มากกว่าเกมที่สร้างแบบ procedural

    • ไม่ได้ต้องการคอนเทนต์ แต่อยากได้งานศิลปะ อยากได้งานที่เพื่อนร่วมวงการสร้างขึ้นโดยใส่วิสัยทัศน์และคุณค่าของตัวเองลงไป
  • ดูเหมือนทุกคนจะคิดเรื่องนี้มาตั้งแต่เดโม NeRF แล้ว เจอคอมเมนต์ของตัวเองเมื่อ 5 ปีก่อน ขั้นต่อไปคือการเพิ่ม "โหนด" ให้กับภาพ 3D เพื่อสร้างคอนเทนต์ที่ทำแอนิเมชันและโต้ตอบได้

    • ป้อนรูปถ่ายสมัยเด็กเพื่อจำลองความทรงจำขึ้นมาใหม่ แล้วเพิ่มตัวอย่างเสียงของคนที่รักเพื่อให้พูดคุยได้ สามารถเพิ่มความดื่มด่ำด้วย VR และหูฟังตัดเสียงรบกวน
  • มันยังไม่สมบูรณ์แบบ แต่เป็นตัวสร้างโมเดล 3D ที่ดีที่สุดเท่าที่เคยลองมา อยากได้รูปแบบไฟล์ที่เอาไปใส่ใน Orca Slicer ได้ทันที

  • ลองใช้ภาพเครื่องบินทิ้งระเบิดล่องหน F-117 จาก Wikipedia แต่ผลลัพธ์ล้มเหลวโดยสิ้นเชิง ต้องมีฟีเจอร์ให้อัปโหลดภาพได้หลายมุม

  • สงสัยว่ามีเดโมของฟีเจอร์ "Text to 3D Asset" ไหม

  • เห็นที่ส่งมาเมื่อไม่กี่วันก่อนแล้ว แต่เป็นเดโมที่น่าประทับใจมาก อยากให้มีการพูดคุยกันที่นี่

  • มองเห็นศักยภาพได้ แต่ดูเหมือนภาพที่ให้มาจะอยู่นอกขอบเขตการฝึก เลยสร้างออกมาเป็นเพียงระนาบแปลก ๆ

  • ใช้ layer diffusion ทำเรือเหาะ low-poly ขึ้นมา ตอนนี้ไปถึงระดับที่ใช้เป็นแอสเซ็ตในเกมได้แล้ว

  • อัปโหลดรูปสายเคเบิลกับปลั๊ก แล้วสร้างเมชปลั๊กที่มีสายแต่ละเส้นและรูที่ถูกต้องได้

  • การทำโมเดลเกล็ดหิมะใน Nix แย่มาก ดูเหมือนมันจะถูกฝึกกับโครงสร้างและพื้นผิวจากธรรมชาติและชีววิทยามากกว่า