- Hunyuan3D 2.0 เป็นระบบสังเคราะห์ 3D ขนาดใหญ่สำหรับการสร้างแอสเซ็ต 3D พร้อมเท็กซ์เจอร์ความละเอียดสูง
- มีองค์ประกอบหลัก 2 ส่วน:
- Hunyuan3D-DiT: โมเดลสร้างรูปร่างขนาดใหญ่ สร้างขึ้นบน scalable flow-based diffusion transformer ที่ผสานรวมกัน เพื่อสร้างเรขาคณิตที่สอดคล้องกับภาพตามเงื่อนไขที่กำหนด จึงให้ฐานที่เสถียร
- Hunyuan3D-Paint: ใช้ความรู้เดิมด้านเรขาคณิตและ diffusion ที่แข็งแกร่ง เพื่อสร้าง texture map ที่มีความละเอียดสูงและสมจริงให้กับเมช (mesh) ที่สร้างขึ้นหรือเมชที่ทำด้วยมือ
- Hunyuan3D-Studio เป็นแพลตฟอร์มที่ทำให้กระบวนการสร้างแอสเซ็ต 3D ซ้ำทำได้ง่ายขึ้น และช่วยให้ทั้งผู้เชี่ยวชาญและผู้เริ่มต้นสามารถปรับแต่งหรือทำแอนิเมชันเมชได้อย่างมีประสิทธิภาพ
- Hunyuan3D 2.0 แสดงประสิทธิภาพที่เหนือกว่าทั้งโมเดลโอเพนซอร์สและโมเดลปิดที่มีอยู่เดิม ในด้านรายละเอียดเชิงเรขาคณิต การจัดแนวตามเงื่อนไข และคุณภาพของเท็กซ์เจอร์
Hunyuan3D 2.0
สถาปัตยกรรม
- ไปป์ไลน์การสร้างแบบ 2 ขั้นตอน: สร้างเมชก่อน แล้วจึงสังเคราะห์ texture map
- แยกความยากของการสร้างรูปร่างและเท็กซ์เจอร์ออกจากกัน และรองรับการทำเท็กซ์เจอร์กับทั้งเมชที่สร้างขึ้นและเมชที่ทำด้วยมือได้อย่างยืดหยุ่น
ประสิทธิภาพ
- Hunyuan3D 2.0 ให้ประสิทธิภาพเหนือกว่าวิธีการสร้าง 3D แบบโอเพนซอร์สและแบบปิดอื่น ๆ
- ทำได้ดีกว่าเกณฑ์ทั้งหมดใน CMMD, FID_CLIP, FID และ CLIP-score
โมเดลที่พรีเทรนไว้
- Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B พารามิเตอร์
- Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B พารามิเตอร์
- Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B พารามิเตอร์
วิธีใช้ API
- ออกแบบ API คล้าย diffusers สำหรับใช้งานโมเดล Hunyuan3D-DiT และ Hunyuan3D-Paint
- สามารถสร้างเมชผ่าน Hunyuan3D-DiT
- สามารถสังเคราะห์เท็กซ์เจอร์ผ่าน Hunyuan3D-Paint
แอป Gradio
- สามารถโฮสต์บนคอมพิวเตอร์ส่วนตัวผ่านแอป Gradio
📑 แผนโอเพนซอร์ส
- รวมโค้ดสำหรับ inference, model checkpoint, รายงานทางเทคนิค, ComfyUI และเวอร์ชัน TensorRT
1 ความคิดเห็น
ความเห็นจาก Hacker News
มีการพูดคุยกันในคำถามเกี่ยวกับโมเดลเมช 3D ว่ามีโมเดลที่เหมาะกับการทำ photogrammetry หรือไม่ แม้จะใช้ภาพถ่ายคุณภาพสูง แสงที่สม่ำเสมอ และฉากหลังสีพื้น แต่แอปพลิเคชันทั่วไปก็มักสร้างเมชที่มีจำนวนโพลิกอนต่ำหรือมีรูจำนวนมาก
มีความเห็นว่า generative AI จะลดต้นทุนส่วนเพิ่มของการสร้างคอนเทนต์ 3D แบบโต้ตอบลงเหลือศูนย์ ซึ่งอาจมีศักยภาพในการกระตุ้น metaverse ได้
ไลเซนส์ของ Tencent Hunyuan 3D 2.0 ไม่ครอบคลุมสหภาพยุโรป สหราชอาณาจักร และเกาหลีใต้
มีความเห็นว่าแม้จะมีไดอะแกรมที่แสดงว่าเมชถูกสร้างด้วยอัลกอริทึม marching cubes แต่ในความเป็นจริงดูเหมือนจะถูกสร้างด้วยวิธีอื่น
มีคำถามว่าสามารถรันโมเดล AI นี้ที่บ้านได้หรือไม่ เช่น มีการพูดคุยกันว่าสามารถรันบนการ์ดจอ 4090 ได้หรือไม่
มีความเห็นว่าสิ่งที่มีคำว่า "ขั้นสูง" อยู่ในนั้นย่อมเป็นสิ่งที่ดี
ระบบคอนเทนต์ที่ผู้ใช้สร้างขึ้นอาจเผชิญกับปัญหาที่เรียกว่า "ปัญหาอวัยวะเพศชาย"
มีความเห็นว่าควรเชื่อถือโมเดลเชิงกำเนิด แต่ก็ต้องตรวจสอบด้วย การลองด้วยตัวเองเป็นสิ่งสำคัญ
ลองใช้โมเดลที่ลิงก์ไว้บนหน้า Huggingface แล้ว แต่ไม่สามารถทดสอบได้เพราะเจอข้อผิดพลาดจากการใช้งานเกิน ผลลัพธ์ที่ได้ดูค่อนข้างดี
จำเป็นต้องใช้พรอมป์ต์ที่ยาว ซึ่งอาจทำให้น่าสงสัย ผู้ใช้จึงลองด้วยพรอมป์ต์ง่าย ๆ เพื่อดูว่าการใช้งานจริงยากแค่ไหน
ผลลัพธ์ของพรอมป์ต์ "กีตาร์" ออกมาเป็นกีตาร์ที่ดูหนาเล็กน้อย ส่วนพรอมป์ต์ "ใบมอนสเตอร่า" ออกมาเป็นรูปร่างที่ดูแปลกนิดหน่อย
ผลลัพธ์ของพรอมป์ต์ตัวละคร "Super Mario" ดูน่าสงสัย Luigi ควรจะออกมาแตกต่างจาก Mario แต่กลับไม่เป็นเช่นนั้น
ผลลัพธ์ของพรอมป์ต์ "Peach" ชวนให้ขำ เพราะออกมาเป็นลูกพีชที่มีใบหน้าน่ารัก
ผลลัพธ์ของพรอมป์ต์ "Toad" ดูเหมือน Squirtle ที่บิดเบี้ยว
สามารถดูงานวิจัยได้บน arXiv มีความเห็นว่าโมเดลเชิงกำเนิดได้รับการฝึกจากข้อมูลจำนวนมาก และอาจต้องการอินเทอร์เฟซคล้ายฐานข้อมูล
สามารถจินตนาการถึงโมเดลที่ปรับให้เหมาะกับวัตถุเชิงฟังก์ชันสำหรับการพิมพ์ 3D ได้