• Voyager คือ เฟรมเวิร์กการแพร่กระจายวิดีโอ แบบใหม่ที่สร้าง ลำดับพอยต์คลาวด์ 3D ที่สอดคล้องกัน โดยอิงจากภาพอินพุตและเส้นทางกล้องที่ผู้ใช้กำหนด
  • สร้างทั้งข้อมูล RGB และความลึกพร้อมกัน จึงทำให้ การสร้างใหม่ 3D ที่มีประสิทธิภาพและตรงไปตรงมา เป็นไปได้
  • นำเสนอ ไปป์ไลน์สร้างชุดข้อมูลวิดีโอขนาดใหญ่ เพื่อจัดเตรียมข้อมูลฝึกที่หลากหลายโดยไม่ต้องมีการทำคำอธิบายประกอบ 3D ด้วยมือ
  • บน เกณฑ์ทดสอบ WorldScore แสดงประสิทธิภาพที่โดดเด่นเหนือหลายโมเดลก่อนหน้าในหลายด้าน เช่น ความสอดคล้อง 3D และการจัดแนวเนื้อหา
  • รองรับการอนุมานแบบขนานที่ปรับแต่งแล้วบน GPU เดี่ยวหรือหลายตัว และแสดงให้เห็นความเป็นไปได้ในการประยุกต์ใช้ที่หลากหลายผ่านเดโมแบบเรียลไทม์

แนะนำโปรเจกต์

  • HunyuanWorld-Voyager สร้าง ลำดับวิดีโอพอยต์คลาวด์ที่มีความสอดคล้องในระดับโลก (3D-Consistent) โดยอิงจากภาพอินพุตและเส้นทางการเคลื่อนที่ของกล้องที่ผู้ใช้กำหนด
  • ผู้ใช้สามารถตั้งค่าเส้นทางกล้องได้อย่างอิสระเพื่อสร้าง วิดีโอฉาก 3D สำหรับการสำรวจโลก
  • สร้าง วิดีโอ RGB และ Depth แบบกำหนดเองพร้อมกัน จึงรองรับการสร้างใหม่ 3D ที่รวดเร็วและเชื่อถือได้

สถาปัตยกรรม

  • Voyager ถูกออกแบบด้วยองค์ประกอบหลัก 2 ส่วน
    • (1) สถาปัตยกรรมการแพร่กระจายวิดีโอที่มีความสอดคล้องในระดับโลก: รับประกันความสอดคล้องของฉากโดยรวม และสร้าง RGB กับความลึกพร้อมกันในสภาพที่จัดแนวกัน
    • (2) การสำรวจโลกในระยะไกล: รองรับการขยายฉากแบบสอดคล้องกับบริบทด้วย point culling, การอนุมานแบบอัตโนมัติถดถอย และการสุ่มตัวอย่างวิดีโอที่ลื่นไหล

ดาต้าเอนจิน

  • สำหรับการฝึก Voyager มีการออกแบบ ดาต้าเอนจินแบบขยายขนาดได้ที่อิงบนไปป์ไลน์การสร้างใหม่วิดีโอ แยกต่างหาก
    • สำหรับวิดีโอทั่วไปแบบสุ่ม สามารถทำการประเมินท่าโพสของกล้องและการทำนายความลึกแบบมีหน่วยเมตรได้โดยอัตโนมัติ ทำให้สร้างชุดข้อมูลฝึกขนาดใหญ่ได้โดยไม่ต้องทำด้วยมือ
    • มีชุดข้อมูลที่ประกอบด้วยคลิปวิดีโอกว่า 100,000 คลิป รวมถึงวิดีโอที่ถ่ายจากโลกจริงและข้อมูลสังเคราะห์ที่อิงบน Unreal Engine

ฟีเจอร์หลักและเดโม

  • มีเดโม การสร้างวิดีโอแบบอินเทอร์แอ็กทีฟด้วยการควบคุมเส้นทางกล้อง
  • สามารถสร้างใหม่พอยต์คลาวด์ 3D ที่เชื่อมโยงกับวิดีโอที่สร้างได้ทันที
  • สาธิตสถานการณ์ใช้งานที่หลากหลาย เช่น การสร้างฉาก 3D จากภาพเดี่ยว และ การประเมิน video-depth

การเปรียบเทียบประสิทธิภาพ

  • ประเมินบน เกณฑ์ทดสอบ WorldScore
    • Voyager ทำผลงาน ระดับแนวหน้า ในหลายหมวดหมู่ เช่น การควบคุมกล้อง การควบคุมวัตถุ การจัดแนวเนื้อหา และความสอดคล้อง 3D
    • โดยเฉพาะในด้าน คุณภาพเชิงอัตวิสัย (Subjective Quality) และ ความสอดคล้อง 3D ได้คะแนนสูงสุด

ความต้องการของระบบ

  • เมื่อสร้างวิดีโอความละเอียด 540p บน GPU 80GB เดี่ยว ต้องใช้ หน่วยความจำอย่างน้อย 60GB
  • ให้ประสิทธิภาพสูงสุดบนระบบปฏิบัติการ Linux และสภาพแวดล้อม CUDA 12.4 (แนะนำ 80GB ขึ้นไป)

ประสิทธิภาพการอนุมานแบบขนาน

  • รองรับการอนุมานแบบขนานหลาย GPU บนพื้นฐาน xDiT
    • เมื่อใช้ GPU H20 จำนวน 8 ตัว สามารถสร้างผลลัพธ์ได้ใน 288 วินาที สำหรับ 49 เฟรม 50 สเต็ป (512x768) ซึ่งเร็วขึ้น 6.69 เท่าเมื่อเทียบกับ GPU เดี่ยว

อินเทอร์เฟซผู้ใช้และเดโม

  • มีเดโมแบบเรียลไทม์บนพื้นฐาน Gradio
    • ผู้ใช้สามารถอัปโหลดภาพ เลือกทิศทางกล้อง และป้อนข้อความพรอมป์ต์ เพื่อสร้างวิดีโอ RGB-D ได้อย่างง่ายดาย

การเปิดเผยดาต้าเอนจิน

  • ดาต้าเอนจินสำหรับสร้างข้อมูลขนาดใหญ่แบบขยายขนาดได้สำหรับการฝึกวิดีโอ RGB-D ก็เปิดซอร์สเช่นกัน

การอ้างอิงและข้อมูลประกอบ

  • บทความ arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • HunyuanWorld-Voyager ถูกออกแบบและพัฒนาโดยอิงจากผลงานวิจัยและโอเพนซอร์สหลากหลายโครงการ (VGGT, MoGE, Metric3D เป็นต้น)

คุณค่าหลักและจุดแตกต่างของโปรเจกต์

  • จุดแข็งของ Voyager เมื่อเทียบกับโปรเจกต์ image-to-video ส่วนใหญ่ที่มีอยู่ คือสามารถสร้าง วิดีโอ 3D ที่มีความสอดคล้องในระดับโลก (อิงพอยต์คลาวด์) จากภาพเดี่ยวได้ตามเส้นทางที่หลากหลาย
  • ด้วยการสร้างทั้งข้อมูล RGB และความลึก พร้อมทั้งมีดาต้าเอนจินอัตโนมัติขนาดใหญ่ให้ด้วย จึงมีศักยภาพสูงในการนำไปใช้ในหลายอุตสาหกรรม เช่น การสร้างคอนเทนต์ 3D จริง การผลิตสภาพแวดล้อมเสมือน ดิจิทัลทวิน และการประยุกต์ใช้ AIGC

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น