Voyager – โมเดลสร้างวิดีโอแบบอินเทอร์แอ็กทีฟที่รองรับการสร้างใหม่ 3D แบบเรียลไทม์
(github.com/Tencent-Hunyuan)- Voyager คือ เฟรมเวิร์กการแพร่กระจายวิดีโอ แบบใหม่ที่สร้าง ลำดับพอยต์คลาวด์ 3D ที่สอดคล้องกัน โดยอิงจากภาพอินพุตและเส้นทางกล้องที่ผู้ใช้กำหนด
- สร้างทั้งข้อมูล RGB และความลึกพร้อมกัน จึงทำให้ การสร้างใหม่ 3D ที่มีประสิทธิภาพและตรงไปตรงมา เป็นไปได้
- นำเสนอ ไปป์ไลน์สร้างชุดข้อมูลวิดีโอขนาดใหญ่ เพื่อจัดเตรียมข้อมูลฝึกที่หลากหลายโดยไม่ต้องมีการทำคำอธิบายประกอบ 3D ด้วยมือ
- บน เกณฑ์ทดสอบ WorldScore แสดงประสิทธิภาพที่โดดเด่นเหนือหลายโมเดลก่อนหน้าในหลายด้าน เช่น ความสอดคล้อง 3D และการจัดแนวเนื้อหา
- รองรับการอนุมานแบบขนานที่ปรับแต่งแล้วบน GPU เดี่ยวหรือหลายตัว และแสดงให้เห็นความเป็นไปได้ในการประยุกต์ใช้ที่หลากหลายผ่านเดโมแบบเรียลไทม์
แนะนำโปรเจกต์
- HunyuanWorld-Voyager สร้าง ลำดับวิดีโอพอยต์คลาวด์ที่มีความสอดคล้องในระดับโลก (3D-Consistent) โดยอิงจากภาพอินพุตและเส้นทางการเคลื่อนที่ของกล้องที่ผู้ใช้กำหนด
- ผู้ใช้สามารถตั้งค่าเส้นทางกล้องได้อย่างอิสระเพื่อสร้าง วิดีโอฉาก 3D สำหรับการสำรวจโลก
- สร้าง วิดีโอ RGB และ Depth แบบกำหนดเองพร้อมกัน จึงรองรับการสร้างใหม่ 3D ที่รวดเร็วและเชื่อถือได้
สถาปัตยกรรม
- Voyager ถูกออกแบบด้วยองค์ประกอบหลัก 2 ส่วน
- (1) สถาปัตยกรรมการแพร่กระจายวิดีโอที่มีความสอดคล้องในระดับโลก: รับประกันความสอดคล้องของฉากโดยรวม และสร้าง RGB กับความลึกพร้อมกันในสภาพที่จัดแนวกัน
- (2) การสำรวจโลกในระยะไกล: รองรับการขยายฉากแบบสอดคล้องกับบริบทด้วย point culling, การอนุมานแบบอัตโนมัติถดถอย และการสุ่มตัวอย่างวิดีโอที่ลื่นไหล
ดาต้าเอนจิน
- สำหรับการฝึก Voyager มีการออกแบบ ดาต้าเอนจินแบบขยายขนาดได้ที่อิงบนไปป์ไลน์การสร้างใหม่วิดีโอ แยกต่างหาก
- สำหรับวิดีโอทั่วไปแบบสุ่ม สามารถทำการประเมินท่าโพสของกล้องและการทำนายความลึกแบบมีหน่วยเมตรได้โดยอัตโนมัติ ทำให้สร้างชุดข้อมูลฝึกขนาดใหญ่ได้โดยไม่ต้องทำด้วยมือ
- มีชุดข้อมูลที่ประกอบด้วยคลิปวิดีโอกว่า 100,000 คลิป รวมถึงวิดีโอที่ถ่ายจากโลกจริงและข้อมูลสังเคราะห์ที่อิงบน Unreal Engine
ฟีเจอร์หลักและเดโม
- มีเดโม การสร้างวิดีโอแบบอินเทอร์แอ็กทีฟด้วยการควบคุมเส้นทางกล้อง
- สามารถสร้างใหม่พอยต์คลาวด์ 3D ที่เชื่อมโยงกับวิดีโอที่สร้างได้ทันที
- สาธิตสถานการณ์ใช้งานที่หลากหลาย เช่น การสร้างฉาก 3D จากภาพเดี่ยว และ การประเมิน video-depth
การเปรียบเทียบประสิทธิภาพ
- ประเมินบน เกณฑ์ทดสอบ WorldScore
- Voyager ทำผลงาน ระดับแนวหน้า ในหลายหมวดหมู่ เช่น การควบคุมกล้อง การควบคุมวัตถุ การจัดแนวเนื้อหา และความสอดคล้อง 3D
- โดยเฉพาะในด้าน คุณภาพเชิงอัตวิสัย (Subjective Quality) และ ความสอดคล้อง 3D ได้คะแนนสูงสุด
ความต้องการของระบบ
- เมื่อสร้างวิดีโอความละเอียด 540p บน GPU 80GB เดี่ยว ต้องใช้ หน่วยความจำอย่างน้อย 60GB
- ให้ประสิทธิภาพสูงสุดบนระบบปฏิบัติการ Linux และสภาพแวดล้อม CUDA 12.4 (แนะนำ 80GB ขึ้นไป)
ประสิทธิภาพการอนุมานแบบขนาน
- รองรับการอนุมานแบบขนานหลาย GPU บนพื้นฐาน xDiT
- เมื่อใช้ GPU H20 จำนวน 8 ตัว สามารถสร้างผลลัพธ์ได้ใน 288 วินาที สำหรับ 49 เฟรม 50 สเต็ป (512x768) ซึ่งเร็วขึ้น 6.69 เท่าเมื่อเทียบกับ GPU เดี่ยว
อินเทอร์เฟซผู้ใช้และเดโม
- มีเดโมแบบเรียลไทม์บนพื้นฐาน Gradio
- ผู้ใช้สามารถอัปโหลดภาพ เลือกทิศทางกล้อง และป้อนข้อความพรอมป์ต์ เพื่อสร้างวิดีโอ RGB-D ได้อย่างง่ายดาย
การเปิดเผยดาต้าเอนจิน
- ดาต้าเอนจินสำหรับสร้างข้อมูลขนาดใหญ่แบบขยายขนาดได้สำหรับการฝึกวิดีโอ RGB-D ก็เปิดซอร์สเช่นกัน
การอ้างอิงและข้อมูลประกอบ
- บทความ arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager ถูกออกแบบและพัฒนาโดยอิงจากผลงานวิจัยและโอเพนซอร์สหลากหลายโครงการ (VGGT, MoGE, Metric3D เป็นต้น)
คุณค่าหลักและจุดแตกต่างของโปรเจกต์
- จุดแข็งของ Voyager เมื่อเทียบกับโปรเจกต์ image-to-video ส่วนใหญ่ที่มีอยู่ คือสามารถสร้าง วิดีโอ 3D ที่มีความสอดคล้องในระดับโลก (อิงพอยต์คลาวด์) จากภาพเดี่ยวได้ตามเส้นทางที่หลากหลาย
- ด้วยการสร้างทั้งข้อมูล RGB และความลึก พร้อมทั้งมีดาต้าเอนจินอัตโนมัติขนาดใหญ่ให้ด้วย จึงมีศักยภาพสูงในการนำไปใช้ในหลายอุตสาหกรรม เช่น การสร้างคอนเทนต์ 3D จริง การผลิตสภาพแวดล้อมเสมือน ดิจิทัลทวิน และการประยุกต์ใช้ AIGC
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ไลเซนส์นี้มีเงื่อนไขที่ค่อนข้างน่าสนใจ
คิดว่าน่าจะเพราะกฎหมาย AI ของ EU
ผมลองใช้แอปเช็ก compliance โดยติ๊กว่าเป็นธุรกิจขนาดเล็ก/โอเพนซอร์ส/งานวิจัย/ไม่มีลูกค้าแล้ว แต่ก็ยังเจอทั้งเรื่องการลงทะเบียน การเปิดเผยข้อมูล และขั้นตอนสารพัดที่ยุ่งเหยิง
ร่างแรกสับสนมาก และแม้จะดูเหมือนดีขึ้นแล้ว แต่ก็ยังคลุมเครือและเป็นระบบราชการอยู่ดี
พื้นที่อย่าง EU พยายามผลักดันการกำกับดูแล AI อย่างจริงจัง
จุดประสงค์ของไลบรารีโอเพนซอร์สคือหลีกเลี่ยงความรับผิดทางกฎหมาย
แต่พื้นที่พวกนี้มีประเด็นความรับผิดที่ซับซ้อน เลยดูเหมือนตัดสินใจไปทางห้ามใช้งานไปเลย
เนื้อหาไลเซนส์ที่ “แนะนำให้เขียนบล็อกหรือรีวิว และใส่ ‘Powered by Tencent Hunyuan’”
มันชวนให้นึกถึงวิธีโปรโมตแบบใหม่คล้าย ๆ ยูทูบเบอร์ที่พูดว่า “ฝากกดติดตามและกดไลก์”
ข้อจำกัดแบบนี้ผมมองว่าเป็น malicious compliance ในทางปฏิบัติ
จริง ๆ แล้วกฎหมาย AI ก็ต้องการแค่คำอธิบายสรุปเรื่องข้อมูลฝึก ความสอดคล้องด้านลิขสิทธิ์ และแนวทางจัดการความเสี่ยงเท่านั้น
มันไม่ได้ซับซ้อนมหาศาลหรือระดับวิศวกรรมจรวดอะไรเลย
แต่ก็ยังสงสัยอยู่ดีว่าใน EU จะดาวน์โหลดและใช้งานได้จริงหรือไม่
ผมไม่ค่อยสนไลเซนส์เท่าไร แต่เดาว่าถ้าจะดาวน์โหลดอะไรสักอย่างก็คงต้องสมัครสมาชิกก่อน
ในเชิงเทคนิคมีการระบุชัดว่าอินพุตรับได้แค่ภาพเดียว แต่ก็สงสัยว่าถ้าใส่หลายภาพแล้วทำแนว photogrammetry จะได้ความสามารถในการแสดงผลที่กว้างขึ้นไหม
ผมก็สงสัยเหมือนกัน
สำหรับผมมันมีประโยชน์ในงานคนละแบบเลย
บางพื้นที่เราไม่ได้ข้อมูลวัดความลึกจากเรือ lidar และบริเวณที่น่าสนใจก็ไม่มีข้อมูล
มีแค่วิดีโอจากการบินผ่านตรงนี้เท่านั้น (ช่วงที่ผิวน้ำโปร่งใส)
ถ้ามีวิดีโอจากมุมมากพอ ก็น่าจะตัด noise อย่างแสงสะท้อนบนผิวน้ำออก แล้วเสริมภาพพื้นด้านล่างเพื่อพยายามกู้คืนด้วย photogrammetry ได้
ประเด็นสำคัญคือถ้าจะกู้คืนให้แม่นยำต้องมีข้อมูลจากหลายมุม
เพราะการมองเห็นใต้น้ำเปลี่ยนไปตามแสงและมุมกล้อง เดิมทีเลยต้องบินซ้ำหลายรอบในหลายช่วงเวลา
แต่ก็อยากลองดูว่าโมเดลนี้จะทำอะไรคล้ายกันจากภาพเดียวได้ไหม
มีโมเดล photogrammetry ที่ทำงานแบบนี้จากหลายภาพอยู่แล้ว
การขยายความสามารถให้รับภาพจำนวนน้อยแทนภาพเดียวก็น่าจะมีคนลองทำได้ไม่ยาก
แต่จากน้ำเสียงของคำถาม ฟังเหมือนมันเป็นรายละเอียดที่ “ไม่ได้ใส่มาเพราะเผลอพลาด” มากกว่า
น่าสนใจดีที่ในตารางเปรียบเทียบประสิทธิภาพ เขาใช้สีแดงเน้น “คะแนนสูงสุด”
เป็นแพตเทิร์นเดียวกับกราฟหุ้นจีนเลย
ในจีนสีแดงหมายถึงขึ้น สีเขียวหมายถึงลง
อย่างที่พูดกันไป ในเอเชียตะวันออกสีแดงมีความหมายเชิงบวก
แต่ที่ผมว่าประหลาดกว่าคือสีที่สามเป็นสีเหลือง
ปกติจะไม่เรียงตามลำดับสเปกตรัมที่มองเห็น
(แดง~700nm, เขียว~550nm, เหลือง~580nm)
ลำดับสีที่ไม่ตรงกับสามัญสำนึกแบบนี้น่าสนใจดี
ความหมายของสีเป็นผลผลิตทางวัฒนธรรม
ในจีนสีแดงมีความหมายต่างจากตะวันตก
การเลือกแบบนั้นจึงไม่ได้แปลกอะไรเลยในบริบทแบบจีน
แม้แต่การสื่อสารแบบตะวันตกเอง (ภาพยนตร์ แฟชั่น) ก็ใช้สีเชิงสัญลักษณ์แบบนี้บ่อย
สีแดงมักถูกใช้เป็นสีที่ชวนให้นึกถึงจีน
มันเป็นปรากฏการณ์จากความต่างทางวัฒนธรรม และผมว่ามันน่าสนใจมาก
เพียงแต่ไม่ได้ส่งผลอะไรกับชีวิตประจำวันผม ก็เลยเป็นแค่ข้อสังเกตทางสังคมที่น่าสนใจ
ในปี 1995 ผมเคยเรียนวิชาประมวลผลภาพจากอาจารย์ชาวอินเดีย
ตอนนั้นผมถามว่าจะทำให้ภาพความละเอียดต่ำดูดีขึ้นได้อย่างไร และได้รับคำตอบว่า “ข้อมูลไม่สามารถถูกสร้างขึ้นมาได้”
แต่ตอนนี้ผ่านไป 30 ปี เรามาถึงยุคที่สร้างวิดีโอจากภาพถ่ายเพียงภาพเดียวได้แล้ว
จริง ๆ แล้วเราดึงข้อมูลจากภาพได้มากกว่าที่คิด
โดยเฉพาะในวิดีโอ ยิ่งมีข้อมูลมากขึ้นอีก
เทคโนโลยีนี้เรียกว่า “super-resolution”
เราอาจสร้างข้อมูลจากความว่างเปล่าไม่ได้ แต่สามารถใช้ความรู้เกี่ยวกับลักษณะของสิ่งที่เห็นมาเติมส่วนที่ขาดให้ดูเป็นธรรมชาติได้
ความก้าวหน้าทางเทคนิคยิ่งใหญ่ก็จริง แต่ความหมายของ “ข้อมูล” และ “การสร้าง” ในตอนนั้นกับตอนนี้ไม่เหมือนกัน
ตัวอย่างเช่น เด็กเอาเครยอนวาดลำตัวเป็นเส้นไม้ต่อเข้าไปในภาพคน ก็อาจเรียกว่า “เพิ่มข้อมูล” ได้
แต่มันไม่ใช่ข้อมูลของเหตุการณ์จริงที่เคยมีอยู่
และนักวิจัยก็ไม่ควรแต่งข้อมูล นักข่าวก็ไม่ควรแต่งคำอ้างอิง เพราะบริบทของความรับผิดชอบแต่ละแบบต่างกัน
โมเดลนี้หมุนได้ครบ 360 องศาจริงหรือเปล่า?
จากวิดีโอที่ปล่อยออกมาดูเหมือนขยับนิดหน่อย หรืออย่างมากก็แค่แพนเล็กน้อย
ทุกเฟรมโมเดลจะสร้างภาพความลึก และแต่ละพิกเซลก็กลายเป็นจุด 3D
ถ้าสมมติว่าทั้งฉาก 3D เป็นฉากนิ่ง ก็สามารถรวบทุกเฟรมมาเป็น point cloud 3D เดียวกันได้
หลังจากนั้นก็ใช้ 3D renderer แบบคลาสสิกหมุนมุมมองได้ตามใจ
แต่ถ้าในขั้นสร้างวิดีโอจริง ข้อมูลรายเฟรมไม่คงเส้นคงวา (เช่น สีเปลี่ยนไปมา) point cloud ที่ได้ก็จะเป็นเพียง “ข้อมูลผิดที่ผิดอย่างสม่ำเสมอ”
สุดท้ายพอหมุนดู สีจะไม่เข้ากันและดูเบลอเหมือนถูก blend รวมกัน
แถมยังใส่วัตถุเสมือนลงในฉากที่สร้างขึ้นได้ยาก
เพราะไม่มีข้อมูลแสง และการผสมสีก็ไม่เข้ากับสภาพแวดล้อม
ไอเดียนั้นเจ๋ง แต่ยังมีปัญหาอีกเยอะที่ต้องแก้
ผมตื่นเต้นมาก อยากลองใช้ความสามารถแบบนี้ใน VR จริง ๆ เร็ว ๆ
แนะนำให้ลองโหมด visionOS 26 “Immersive Photo”
รูปในคลัง iCloud จะถูกแปลงโดยโมเดลบนเครื่องอัตโนมัติ (น่าจะเป็นฉาก 3D แบบ Gaussian Splat)
ทั้งแพนและหมุนได้ ทำให้ Vision Pro ดูคุ้มค่าขึ้นมาเลย
แม้แต่รูปเก่าที่ถ่ายด้วย Nikon D70 ก็ยังทำให้วิวและคนในภาพดูเหมือนจริง
แต่อย่าเพิ่งรีบร้อนเกินไป
ตอนนี้เรายังห่างไกลจากระดับความละเอียดสูงจริง 120fps ภาพสามมิติที่เสถียร และ latency ต่ำมากอยู่มาก
ผมว่าถ้าเอาไปใช้ในสภาพปัจจุบันอาจเวียนหัวหนักมาก
มุมมองภาพ (fov) ของวิดีโอพวกนี้ดูวุ่นวายเกินไป
ตอนนี้มีโมเดลหรือชุดเครื่องมือไหนที่เก่งที่สุดสำหรับการแปลง text-to-3D-asset (ข้อความ→แอสเซ็ต 3D) บ้างไหม
ถ้าเป็นสายโอเพนซอร์สจะยิ่งดี
หรือข้อความ+ภาพเดียว→สไปรต์ชีต ทำได้ไหม
อันที่จริงนี่ไม่ใช่โอเพนซอร์ส แต่เป็นแบบ “weights-available”
ไม่มีข้อมูลฝึกด้วย และถ้าจะบอกว่าโอเพนซอร์สคือ “รูปแบบที่เหมาะที่สุดสำหรับการดัดแปลงแก้ไข” ก็ต้องมีข้อมูลมาด้วยถึงจะใช่
บางส่วนของไลเซนส์ต้นฉบับ:
ข้อจำกัด EU/UK/เกาหลีใต้ น่าจะเป็นเพราะพื้นที่เหล่านั้นอาจตั้งคำถามเรื่องการฝึกจากข้อมูลที่ไม่ได้รับอนุญาต หรือเรียกร้องค่าชดเชยทางการเงินได้
ผมเห็นด้วยกับคำกล่าวที่ว่า “มันไม่ใช่โอเพนซอร์ส”
แต่ถ้าจะพูดถึง “รูปแบบที่เหมาะที่สุดสำหรับการดัดแปลงแก้ไข” สิ่งนั้นไม่จำเป็นต้องเป็นข้อมูล (ข้อมูลฝึก) เสมอไป แต่คือ weights
ข้อมูลเป็นเพียงวิธีหนึ่งในการแก้ไข weights
อยากชี้ให้เห็นว่าการ fine-tuning ถูกกว่ามาก
ถ้าไม่นับ AI2 ผมคิดว่าแทบทุก AI โมเดลส่วนใหญ่ก็ไม่ใช่โอเพนซอร์สแท้จริงอยู่แล้ว (เปิดทั้ง log การฝึกและข้อมูล)
ทุกวันนี้คำว่าโอเพนซอร์สมักถูกใช้แทบจะเป็นคำพ้องกับ “weights-available” ไปแล้ว
“7. ห้ามสร้างและเผยแพร่ข้อมูลเท็จอย่างชัดเจนเพื่อจุดประสงค์ในการทำร้ายผู้อื่นหรือบิดเบือนการเลือกตั้ง”
“8. ห้ามสร้างกิจกรรมออนไลน์ปลอม เช่น รีวิวปลอม”
→ แต่พวกเขาทำเองได้ คนอื่นทำไม่ได้งั้นหรือ
“15. ห้ามใช้งานในลักษณะที่ขัดต่อจริยธรรม/ศีลธรรมทางสังคมของรัฐหรือภูมิภาคอื่น”
และอื่น ๆ เป็นข้อกำหนดที่ในทางปฏิบัติทำให้ใช้งานได้ยากในทุกภูมิภาค
นโยบายเข้มเกินไปมาก
สิ่งที่ผมสนใจคือเอารูปจาก Panoramax (ทางเลือกโอเพนของ StreetView) มาเป็นอินพุต แล้วสร้างเป็นฉากที่นำทางใน 3D ได้
อยากถามว่าหมุนกล้องได้ 1080 องศาไหม!!
วิดีโอมัน<i>สั้น</i>เกินไปมาก และหมุนไม่ถึง 45 องศาด้วยซ้ำ
แม้แต่ Genie3 ก็ยังหมุนได้แค่ราว 90 องศา
เราควรให้ความสำคัญกับสิ่งที่โมเดล “ทำไม่ได้” และในกรณีนี้ก็คือ “หมุนได้ไม่ดีจริง”
ถ้ายังไม่ผ่านการทดสอบง่าย ๆ แบบวางกล้องนิ่งแล้วหมุนรอบตัว ผมก็ไม่อยากเรียกมันว่า ‘world model’ อีกต่อไป
อื้อหือ หงุดหงิดจริง