- Voyager คือ เฟรมเวิร์กการแพร่กระจายวิดีโอ แบบใหม่ที่สร้าง ลำดับพอยต์คลาวด์ 3D ที่สอดคล้องกัน โดยอิงจากภาพอินพุตและเส้นทางกล้องที่ผู้ใช้กำหนด
- สร้างทั้งข้อมูล RGB และความลึกพร้อมกัน จึงทำให้ การสร้างใหม่ 3D ที่มีประสิทธิภาพและตรงไปตรงมา เป็นไปได้
- นำเสนอ ไปป์ไลน์สร้างชุดข้อมูลวิดีโอขนาดใหญ่ เพื่อจัดเตรียมข้อมูลฝึกที่หลากหลายโดยไม่ต้องมีการทำคำอธิบายประกอบ 3D ด้วยมือ
- บน เกณฑ์ทดสอบ WorldScore แสดงประสิทธิภาพที่โดดเด่นเหนือหลายโมเดลก่อนหน้าในหลายด้าน เช่น ความสอดคล้อง 3D และการจัดแนวเนื้อหา
- รองรับการอนุมานแบบขนานที่ปรับแต่งแล้วบน GPU เดี่ยวหรือหลายตัว และแสดงให้เห็นความเป็นไปได้ในการประยุกต์ใช้ที่หลากหลายผ่านเดโมแบบเรียลไทม์
แนะนำโปรเจกต์
- HunyuanWorld-Voyager สร้าง ลำดับวิดีโอพอยต์คลาวด์ที่มีความสอดคล้องในระดับโลก (3D-Consistent) โดยอิงจากภาพอินพุตและเส้นทางการเคลื่อนที่ของกล้องที่ผู้ใช้กำหนด
- ผู้ใช้สามารถตั้งค่าเส้นทางกล้องได้อย่างอิสระเพื่อสร้าง วิดีโอฉาก 3D สำหรับการสำรวจโลก
- สร้าง วิดีโอ RGB และ Depth แบบกำหนดเองพร้อมกัน จึงรองรับการสร้างใหม่ 3D ที่รวดเร็วและเชื่อถือได้
สถาปัตยกรรม
- Voyager ถูกออกแบบด้วยองค์ประกอบหลัก 2 ส่วน
- (1) สถาปัตยกรรมการแพร่กระจายวิดีโอที่มีความสอดคล้องในระดับโลก: รับประกันความสอดคล้องของฉากโดยรวม และสร้าง RGB กับความลึกพร้อมกันในสภาพที่จัดแนวกัน
- (2) การสำรวจโลกในระยะไกล: รองรับการขยายฉากแบบสอดคล้องกับบริบทด้วย point culling, การอนุมานแบบอัตโนมัติถดถอย และการสุ่มตัวอย่างวิดีโอที่ลื่นไหล
ดาต้าเอนจิน
- สำหรับการฝึก Voyager มีการออกแบบ ดาต้าเอนจินแบบขยายขนาดได้ที่อิงบนไปป์ไลน์การสร้างใหม่วิดีโอ แยกต่างหาก
- สำหรับวิดีโอทั่วไปแบบสุ่ม สามารถทำการประเมินท่าโพสของกล้องและการทำนายความลึกแบบมีหน่วยเมตรได้โดยอัตโนมัติ ทำให้สร้างชุดข้อมูลฝึกขนาดใหญ่ได้โดยไม่ต้องทำด้วยมือ
- มีชุดข้อมูลที่ประกอบด้วยคลิปวิดีโอกว่า 100,000 คลิป รวมถึงวิดีโอที่ถ่ายจากโลกจริงและข้อมูลสังเคราะห์ที่อิงบน Unreal Engine
ฟีเจอร์หลักและเดโม
- มีเดโม การสร้างวิดีโอแบบอินเทอร์แอ็กทีฟด้วยการควบคุมเส้นทางกล้อง
- สามารถสร้างใหม่พอยต์คลาวด์ 3D ที่เชื่อมโยงกับวิดีโอที่สร้างได้ทันที
- สาธิตสถานการณ์ใช้งานที่หลากหลาย เช่น การสร้างฉาก 3D จากภาพเดี่ยว และ การประเมิน video-depth
การเปรียบเทียบประสิทธิภาพ
- ประเมินบน เกณฑ์ทดสอบ WorldScore
- Voyager ทำผลงาน ระดับแนวหน้า ในหลายหมวดหมู่ เช่น การควบคุมกล้อง การควบคุมวัตถุ การจัดแนวเนื้อหา และความสอดคล้อง 3D
- โดยเฉพาะในด้าน คุณภาพเชิงอัตวิสัย (Subjective Quality) และ ความสอดคล้อง 3D ได้คะแนนสูงสุด
ความต้องการของระบบ
- เมื่อสร้างวิดีโอความละเอียด 540p บน GPU 80GB เดี่ยว ต้องใช้ หน่วยความจำอย่างน้อย 60GB
- ให้ประสิทธิภาพสูงสุดบนระบบปฏิบัติการ Linux และสภาพแวดล้อม CUDA 12.4 (แนะนำ 80GB ขึ้นไป)
ประสิทธิภาพการอนุมานแบบขนาน
- รองรับการอนุมานแบบขนานหลาย GPU บนพื้นฐาน xDiT
- เมื่อใช้ GPU H20 จำนวน 8 ตัว สามารถสร้างผลลัพธ์ได้ใน 288 วินาที สำหรับ 49 เฟรม 50 สเต็ป (512x768) ซึ่งเร็วขึ้น 6.69 เท่าเมื่อเทียบกับ GPU เดี่ยว
อินเทอร์เฟซผู้ใช้และเดโม
- มีเดโมแบบเรียลไทม์บนพื้นฐาน Gradio
- ผู้ใช้สามารถอัปโหลดภาพ เลือกทิศทางกล้อง และป้อนข้อความพรอมป์ต์ เพื่อสร้างวิดีโอ RGB-D ได้อย่างง่ายดาย
การเปิดเผยดาต้าเอนจิน
- ดาต้าเอนจินสำหรับสร้างข้อมูลขนาดใหญ่แบบขยายขนาดได้สำหรับการฝึกวิดีโอ RGB-D ก็เปิดซอร์สเช่นกัน
การอ้างอิงและข้อมูลประกอบ
- บทความ arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager ถูกออกแบบและพัฒนาโดยอิงจากผลงานวิจัยและโอเพนซอร์สหลากหลายโครงการ (VGGT, MoGE, Metric3D เป็นต้น)
คุณค่าหลักและจุดแตกต่างของโปรเจกต์
- จุดแข็งของ Voyager เมื่อเทียบกับโปรเจกต์ image-to-video ส่วนใหญ่ที่มีอยู่ คือสามารถสร้าง วิดีโอ 3D ที่มีความสอดคล้องในระดับโลก (อิงพอยต์คลาวด์) จากภาพเดี่ยวได้ตามเส้นทางที่หลากหลาย
- ด้วยการสร้างทั้งข้อมูล RGB และความลึก พร้อมทั้งมีดาต้าเอนจินอัตโนมัติขนาดใหญ่ให้ด้วย จึงมีศักยภาพสูงในการนำไปใช้ในหลายอุตสาหกรรม เช่น การสร้างคอนเทนต์ 3D จริง การผลิตสภาพแวดล้อมเสมือน ดิจิทัลทวิน และการประยุกต์ใช้ AIGC
ยังไม่มีความคิดเห็น