3 คะแนน โดย GN⁺ 2025-01-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Hunyuan3D 2.0 เป็นระบบสังเคราะห์ 3D ขนาดใหญ่สำหรับการสร้างแอสเซ็ต 3D พร้อมเท็กซ์เจอร์ความละเอียดสูง
  • มีองค์ประกอบหลัก 2 ส่วน:
    • Hunyuan3D-DiT: โมเดลสร้างรูปร่างขนาดใหญ่ สร้างขึ้นบน scalable flow-based diffusion transformer ที่ผสานรวมกัน เพื่อสร้างเรขาคณิตที่สอดคล้องกับภาพตามเงื่อนไขที่กำหนด จึงให้ฐานที่เสถียร
    • Hunyuan3D-Paint: ใช้ความรู้เดิมด้านเรขาคณิตและ diffusion ที่แข็งแกร่ง เพื่อสร้าง texture map ที่มีความละเอียดสูงและสมจริงให้กับเมช (mesh) ที่สร้างขึ้นหรือเมชที่ทำด้วยมือ
  • Hunyuan3D-Studio เป็นแพลตฟอร์มที่ทำให้กระบวนการสร้างแอสเซ็ต 3D ซ้ำทำได้ง่ายขึ้น และช่วยให้ทั้งผู้เชี่ยวชาญและผู้เริ่มต้นสามารถปรับแต่งหรือทำแอนิเมชันเมชได้อย่างมีประสิทธิภาพ
  • Hunyuan3D 2.0 แสดงประสิทธิภาพที่เหนือกว่าทั้งโมเดลโอเพนซอร์สและโมเดลปิดที่มีอยู่เดิม ในด้านรายละเอียดเชิงเรขาคณิต การจัดแนวตามเงื่อนไข และคุณภาพของเท็กซ์เจอร์

Hunyuan3D 2.0

สถาปัตยกรรม

  • ไปป์ไลน์การสร้างแบบ 2 ขั้นตอน: สร้างเมชก่อน แล้วจึงสังเคราะห์ texture map
  • แยกความยากของการสร้างรูปร่างและเท็กซ์เจอร์ออกจากกัน และรองรับการทำเท็กซ์เจอร์กับทั้งเมชที่สร้างขึ้นและเมชที่ทำด้วยมือได้อย่างยืดหยุ่น

ประสิทธิภาพ

  • Hunyuan3D 2.0 ให้ประสิทธิภาพเหนือกว่าวิธีการสร้าง 3D แบบโอเพนซอร์สและแบบปิดอื่น ๆ
  • ทำได้ดีกว่าเกณฑ์ทั้งหมดใน CMMD, FID_CLIP, FID และ CLIP-score

โมเดลที่พรีเทรนไว้

  • Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B พารามิเตอร์
  • Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B พารามิเตอร์
  • Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B พารามิเตอร์

วิธีใช้ API

  • ออกแบบ API คล้าย diffusers สำหรับใช้งานโมเดล Hunyuan3D-DiT และ Hunyuan3D-Paint
  • สามารถสร้างเมชผ่าน Hunyuan3D-DiT
  • สามารถสังเคราะห์เท็กซ์เจอร์ผ่าน Hunyuan3D-Paint

แอป Gradio

  • สามารถโฮสต์บนคอมพิวเตอร์ส่วนตัวผ่านแอป Gradio

📑 แผนโอเพนซอร์ส

  • รวมโค้ดสำหรับ inference, model checkpoint, รายงานทางเทคนิค, ComfyUI และเวอร์ชัน TensorRT

1 ความคิดเห็น

 
GN⁺ 2025-01-23
ความเห็นจาก Hacker News
  • มีการพูดคุยกันในคำถามเกี่ยวกับโมเดลเมช 3D ว่ามีโมเดลที่เหมาะกับการทำ photogrammetry หรือไม่ แม้จะใช้ภาพถ่ายคุณภาพสูง แสงที่สม่ำเสมอ และฉากหลังสีพื้น แต่แอปพลิเคชันทั่วไปก็มักสร้างเมชที่มีจำนวนโพลิกอนต่ำหรือมีรูจำนวนมาก

  • มีความเห็นว่า generative AI จะลดต้นทุนส่วนเพิ่มของการสร้างคอนเทนต์ 3D แบบโต้ตอบลงเหลือศูนย์ ซึ่งอาจมีศักยภาพในการกระตุ้น metaverse ได้

  • ไลเซนส์ของ Tencent Hunyuan 3D 2.0 ไม่ครอบคลุมสหภาพยุโรป สหราชอาณาจักร และเกาหลีใต้

  • มีความเห็นว่าแม้จะมีไดอะแกรมที่แสดงว่าเมชถูกสร้างด้วยอัลกอริทึม marching cubes แต่ในความเป็นจริงดูเหมือนจะถูกสร้างด้วยวิธีอื่น

  • มีคำถามว่าสามารถรันโมเดล AI นี้ที่บ้านได้หรือไม่ เช่น มีการพูดคุยกันว่าสามารถรันบนการ์ดจอ 4090 ได้หรือไม่

  • มีความเห็นว่าสิ่งที่มีคำว่า "ขั้นสูง" อยู่ในนั้นย่อมเป็นสิ่งที่ดี

  • ระบบคอนเทนต์ที่ผู้ใช้สร้างขึ้นอาจเผชิญกับปัญหาที่เรียกว่า "ปัญหาอวัยวะเพศชาย"

  • มีความเห็นว่าควรเชื่อถือโมเดลเชิงกำเนิด แต่ก็ต้องตรวจสอบด้วย การลองด้วยตัวเองเป็นสิ่งสำคัญ

  • ลองใช้โมเดลที่ลิงก์ไว้บนหน้า Huggingface แล้ว แต่ไม่สามารถทดสอบได้เพราะเจอข้อผิดพลาดจากการใช้งานเกิน ผลลัพธ์ที่ได้ดูค่อนข้างดี

  • จำเป็นต้องใช้พรอมป์ต์ที่ยาว ซึ่งอาจทำให้น่าสงสัย ผู้ใช้จึงลองด้วยพรอมป์ต์ง่าย ๆ เพื่อดูว่าการใช้งานจริงยากแค่ไหน

  • ผลลัพธ์ของพรอมป์ต์ "กีตาร์" ออกมาเป็นกีตาร์ที่ดูหนาเล็กน้อย ส่วนพรอมป์ต์ "ใบมอนสเตอร่า" ออกมาเป็นรูปร่างที่ดูแปลกนิดหน่อย

  • ผลลัพธ์ของพรอมป์ต์ตัวละคร "Super Mario" ดูน่าสงสัย Luigi ควรจะออกมาแตกต่างจาก Mario แต่กลับไม่เป็นเช่นนั้น

  • ผลลัพธ์ของพรอมป์ต์ "Peach" ชวนให้ขำ เพราะออกมาเป็นลูกพีชที่มีใบหน้าน่ารัก

  • ผลลัพธ์ของพรอมป์ต์ "Toad" ดูเหมือน Squirtle ที่บิดเบี้ยว

  • สามารถดูงานวิจัยได้บน arXiv มีความเห็นว่าโมเดลเชิงกำเนิดได้รับการฝึกจากข้อมูลจำนวนมาก และอาจต้องการอินเทอร์เฟซคล้ายฐานข้อมูล

  • สามารถจินตนาการถึงโมเดลที่ปรับให้เหมาะกับวัตถุเชิงฟังก์ชันสำหรับการพิมพ์ 3D ได้