SANA-WM โมเดลโลกโอเพนซอร์สขนาด 2.6B พารามิเตอร์สำหรับวิดีโอ 720p ความยาว 1 นาที

(nvlabs.github.io)

1 คะแนน โดย GN⁺ 1 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

SANA-WM ของ NVIDIA รับภาพ 1 ภาพและเส้นทางกล้องแบบ 6-DoF เป็นอินพุต แล้วสร้างวิดีโอที่ควบคุมได้ความละเอียด 720p ความยาว 1 นาทีบน GPU เพียงตัวเดียว
Hybrid Linear Diffusion Transformer ผสาน Gated DeltaNet ระดับเฟรมเข้ากับ softmax แบบเป็นคาบ เพื่อคงความสอดคล้องของลำดับที่ยาวต่อเนื่อง
การฝึกใช้เวลา 15 วันบน H100 จำนวน 64 ตัว และรุ่น distilled สามารถใช้ NVFP4 บน RTX 5090 1 ตัวเพื่อลด noise ของคลิป 720p ความยาว 60 วินาทีได้ใน 34 วินาที
ใช้วิดีโอสาธารณะราว 213,000 คลิป และ การกำกับ pose แบบ 6-DoF ระดับเมตร เพื่อรองรับการตามเส้นทางกล้องอย่างแม่นยำ
บน benchmark สำหรับ world model ระดับ 1 นาที ให้ความแม่นยำในการติดตาม action สูงกว่า baseline โอเพนซอร์สเดิม และทำ throughput สูงกว่า 36 เท่า ที่คุณภาพภาพใกล้เคียงกัน

โมเดลและข้อมูลที่เปิดเผย

SANA-WM เป็น world model โอเพนซอร์สขนาด 2.6B พารามิเตอร์ ที่รับภาพเดียวและเส้นทางกล้องเป็นอินพุตเพื่อสร้างวิดีโอที่ควบคุมได้ ความละเอียด 720p ความยาว 1 นาที
มีผู้ร่วมพัฒนาจาก NVIDIA ได้แก่ Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han และ Enze Xie
มีเอกสาร Paper, Code, Models soon ให้ใช้งาน
ชื่อบทความวิจัยคือ SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

การออกแบบหลักและ pipeline การสร้าง

โครงสร้างแบบ hybrid สำหรับลำดับยาว
- Hybrid Linear Diffusion Transformer ผสาน Gated DeltaNet ระดับเฟรมเข้ากับ softmax แบบเป็นคาบ เพื่อรักษาความสอดคล้องของโลกในลำดับระดับนาที
- ในการเปรียบเทียบด้านประสิทธิภาพ ตัวแปรแบบ recurrent ขยายตัวเล็กกว่าทั้งในด้านหน่วยความจำและ latency แต่แนวทาง all-softmax เกิด OOM เมื่อสร้างวิดีโอ 60 วินาที
การควบคุมกล้องอย่างแม่นยำ
- SANA-WM รับ เส้นทางกล้องแบบ 6-DoF เป็นอินพุต และสร้างวิดีโอที่ตามเส้นทางกล้องเชิง metric
- branch สำหรับ global pose แบบหยาบและ branch เชิงเรขาคณิตสำหรับการจัดแนวพิกเซลอย่างละเอียดทำงานร่วมกันเพื่อเพิ่มความเที่ยงตรงในการตามเส้นทางกล้อง
- ดึง camera pose แบบ 6-DoF ที่แม่นยำระดับเมตรจากวิดีโอสาธารณะ เพื่อสร้าง action label คุณภาพสูงที่สอดคล้องกันทั้งเชิงเวลาและเชิงพื้นที่
การยกระดับคุณภาพแบบ 2 ขั้นตอน
- เอาต์พุตจากขั้นที่ 1 ถูกนำไปผ่าน refiner สำหรับวิดีโอยาวขนาด 17B เพื่อปรับปรุงคุณภาพและความสอดคล้องตลอดทั้ง sequence
- refiner ช่วยให้ texture การเคลื่อนไหว และคุณภาพในช่วงท้ายของลำดับคมชัดขึ้นบน backbone สำหรับลำดับยาว

ประสิทธิภาพด้านการฝึกและการอนุมาน

การฝึกใช้เวลา 15 วันบน H100 จำนวน 64 ตัว และข้อมูลฝึกประกอบด้วยคลิปวิดีโอสาธารณะประมาณ 213,000 คลิป พร้อมการกำกับ pose ระดับเมตร
ในการอนุมาน สามารถสร้างวิดีโอ 720p ความยาว 1 นาทีได้ด้วย H100 เพียงตัวเดียว
โมเดลรุ่น distilled ใช้ RTX 5090 1 ตัว พร้อมการ quantization แบบ NVFP4 เพื่อลด noise ของคลิป 720p ความยาว 60 วินาทีได้ใน 34 วินาที
SANA-WM แสดงคุณภาพภาพใกล้เคียงกับ baseline อุตสาหกรรมขนาดใหญ่ เช่น LingBot-World และ HY-WorldPlay พร้อมปรับปรุงประสิทธิภาพ
บน benchmark สำหรับ world model ระดับ 1 นาที SANA-WM ให้ ความแม่นยำในการติดตาม action สูงกว่า baseline โอเพนซอร์สเดิม และทำ throughput สูงกว่า 36 เท่า ที่คุณภาพภาพใกล้เคียงกัน

ลักษณะการสร้างที่เห็นจากเดโม

เดโม world ระดับ 1 นาที
- ตัวอย่าง 1 นาทีหลายชุดคง มุมมองผู้สังเกตคงที่ แบบบุคคลที่หนึ่งไว้ พร้อมสร้างการเคลื่อนไหวของสภาพแวดล้อมเองโดยไม่มีการเคลื่อนกล้องหรือการกระทำของผู้สังเกต
- Video 68: เส้นทางในเทือกเขาแอลป์ที่ปกคลุมด้วยหิมะ หน้าผา ปากถ้ำ น้ำแข็งย้อย สนที่เอนตามลม และนักปีนเขาเสื้อแจ็กเก็ตสีส้ม พร้อมการสร้างอนุภาคหิมะ หมอก กิ่งไม้ไหว และการไหลของผงหิมะ
- Video 72: สร้างทางแยกสามทางที่เปิดโล่ง โดยมีป่าสีน้ำเงิน หอคอยร้างใต้เมฆพายุ และหมู่บ้านที่มีแสงแดดส่องอยู่ปลายทาง
- Video 81: ปรากฏทางแยกตัว T ในศูนย์วิจัยไซไฟใต้ดินที่ปิดตาย พร้อมทางเดินซ้ายที่ถูกน้ำท่วม ทางเดินขวาที่เต็มไปด้วยไอน้ำ และประตูโลหะทรงกลมที่เปิดสู่ความมืด
เดโม world ระดับ 20 วินาที
- Video 82: ภายในกระท่อมร้างบนภูเขา แผนที่วาดมือ กุญแจขึ้นสนิม ตะเกียงอุ่น และถ้ำสีทองถัดจากทางเดินในป่าหิมะ โดยมีควันจากสะเก็ดไฟ เปลวตะเกียง และพายุหิมะที่ลอดรอยประตูเคลื่อนไหว
- Video 85: ประตูทรงกลมที่ถูกผนึกในซากโบราณกลางป่า สัญลักษณ์สีเขียว และหุ่นยนต์สำรวจขนาดเล็ก พร้อมเถาวัลย์ แมลง ผีเสื้อ แอ่งน้ำ และสัญลักษณ์บนประตูที่เต้นเป็นจังหวะ
- Video 92: ทางเดินหินของวิหารโบราณใต้น้ำ เสาปะการัง รอยแยกเรืองแสงสีเขียว และหุ่นยนต์ดำน้ำทรงกลมขนาดเล็ก พร้อมปลา ฟอง อนุภาค สาหร่ายทะเล และ caustics
เฟรมแรกเดียวกันและ prompt ที่วนซ้ำ
- Video 100, Video 101, Video 102: จาก prompt ทุ่งเกลือเดียวกัน ยังคงรถสปอร์ต เปลือกเกลือหยาบ และแสงอาทิตย์ต่ำไว้ พร้อมสร้างฝุ่นเกลือ การเคลื่อนของเมฆ คลื่นความร้อน และลายลมบนพื้น
- Video 103, Video 104, Video 105: น้ำตื้นสะท้อนแสง ก้อนหินโคลนสำหรับก้าวข้าม ป่าสีม่วง ยานอวกาศตกที่จมอยู่ครึ่งลำ นักบินอวกาศในชุดอวกาศ และสิ่งมีชีวิตต่างดาวขนาดเล็ก ปรากฏในชุดแปรผันของ prompt เดียวกัน
- Video 119, Video 120, Video 121: สร้างคลื่น ใบมะพร้าว นก และการเคลื่อนของเมฆในฉากพระอาทิตย์ขึ้นริมชายหาดเขตร้อนจากมุมมองคงที่

ตัวอย่างผลของ Refiner

หุบเขาป่าดงดิบ
- Video 124 และ Video 125 เป็นตัวอย่าง Stage 1 Refined ที่จัดฉากภายในหุบเขาป่าดงดิบขนาดมหึมาจากมุมมองบุคคลที่หนึ่งแบบคงที่
- มีวิหารหินโบราณที่เห็นเลือนอยู่หลังน้ำตก เครื่องบินกระดาษที่พับแล้ว นกหลากสี ใบไม้ลอย ผนังหินเปียก เถาวัลย์พันเกี่ยว และหยดน้ำ
- น้ำตก หมอก การกระพือปีกของนก ใบไม้ร่วง หยดน้ำระยิบระยับ และเครื่องบินกระดาษที่สั่นไหวตามกระแสอากาศ ต่างเคลื่อนไหวได้เอง
ประตูโบราณสลักในหน้าผา
- Video 126 และ Video 127 แสดง ประตูโบราณในหน้าผา บนพื้นที่สูงของป่า
- ขั้นบันไดหินทอดจากทางที่ปกคลุมด้วยมอสไปสู่ประตูที่แง้มอยู่ครึ่งหนึ่ง พร้อมเสาแกะสลัก รูปปั้นผู้พิทักษ์ ผนังที่ถูกไม้เลื้อยปกคลุม หุบเขาภูเขาทางซ้าย และนักเดินทางสวมเสื้อคลุมใกล้ทางเข้า
- แสงอาทิตย์อุ่นยามบ่ายคล้อยผสานกับแสงสีเขียวน้ำทะเลที่รั่วออกมาจากประตู ขณะที่ใบไม้ นก เถาวัลย์ และแสงจากพอร์ทัลเคลื่อนไหวอย่างอิสระ
วิหารโบราณใต้น้ำ
- Video 130 และ Video 131 นำเสนอ ผลลัพธ์ Stage 1 และ refined แบบวางคู่กัน
- มีทางเดินหินทอดผ่านเสาที่มีปะการังเกาะอยู่ และแสงสีเขียวสดรั่วออกจากรอยแยกกลางผนังพิธีกรรมที่แตกร้าว โดยจัดแนวกับสัญลักษณ์เรืองแสงบนพื้น
- หุ่นยนต์ดำน้ำทรงกลมขนาดเล็กลอยอยู่ด้านหน้า ขณะที่ปลา ฟอง อนุภาค สาหร่ายทะเล caustics และสัญลักษณ์สีเขียวเคลื่อนไหวได้เอง

หมายเหตุการสร้างเดโม

วิดีโอทั้งหมดในหน้านี้ถูกสร้างด้วย SANA-WM แบบ bidirectional ก่อน แล้วจึงผ่าน refiner สำหรับวิดีโอระยะยาวแบบ 2 ขั้นตอน
ภาพเฟรมแรกของวิดีโอเดโมทั้งหมดในแกลเลอรีถูกสร้างด้วย OpenAI GPT Image 2 และ Google Nano Banana Pro จากนั้น SANA-WM จึงทำให้ภาพนิ่งเหล่านั้นกลายเป็นวิดีโอความยาว 1 นาที

1 ความคิดเห็น

GN⁺ 1 시간 전

ความคิดเห็นใน Hacker News

ถ้ามองจากมุมของวิดีโอเกม world model แบบนี้ยังไม่ค่อยทำให้รู้สึกว้าวเท่าไร
ผมไม่ได้เป็นนักพัฒนาเกมโดยตรง แต่เกมที่ชอบมีความตั้งใจในการออกแบบสูงมาก ตัวอย่างเช่นเกมของ FromSoftware หรือ Lies of P ช่วงหลัง ๆ ปกติแล้วแทบไม่มีของชิ้นไหนถูกวางแบบส่ง ๆ ไป และออบเจ็กต์แทบทุกชิ้นถูกจัดวางอย่างมีเจตนา
ตรงกันข้าม เกมที่ไม่มีความตั้งใจแบบนี้จะให้ความรู้สึกเหมือนโลกตาย ๆ ทำลายความอิน หรือทำให้หลุดออกจากประสบการณ์ที่ผู้พัฒนาต้องการส่งมอบ
นึกไม่ค่อยออกว่า world model จะไปถึงระดับที่จับ “ความตั้งใจ” แบบนี้ได้หรือไม่ แม้แต่ LLM ระดับท็อปก็ยังพลาดบ่อยในการเขียน ทั้งงานเขียนและโค้ด ทั้งที่พื้นผิวของประสบการณ์ในสื่อเหล่านั้นดูเล็กกว่าขอบเขตปฏิสัมพันธ์ของผู้ใช้ในวิดีโอเกมเสียอีก
และก็ยังไม่ชัดว่าถ้ามนุษย์อยากสร้างประสบการณ์ที่มีเจตนา จะใช้ world model แบบแยกเป็นโมดูลได้อย่างไร LLM ยังพอทำงานแบบให้มันสร้างข้อความ มนุษย์มาแก้ แล้วให้ LLM ตัวอื่นรับช่วงต่อได้ แต่ไม่แน่ใจว่าเอาต์พุตวิดีโอที่นี่จะเป็นแบบเดียวกันหรือไม่
สุดท้าย world model เองก็น่าประทับใจ แต่เหมือน LLM สำหรับการเขียนตรงที่ยังไม่ชัดว่าเรากำลังสร้างมันไปเพื่ออะไร เพื่อให้สร้างประสบการณ์ที่น่าพอใจน้อยลงและเป็นมนุษย์น้อยลงได้เร็วขึ้นหรือเปล่า หรือประโยชน์ที่เห็นได้ทันทีที่สุดคือให้ระบบหุ่นยนต์สร้างโลกขึ้นมาเพื่อจินตนาการผลของการกระทำและจำลองมัน
โดยรวมแล้วมันให้ความรู้สึกเหมือนเรากำลังพุ่งเข้าสู่โลกที่ ความตั้งใจ เบื้องหลังทุกสิ่งที่เราสัมผัสลดลงเรื่อย ๆ และทุกอย่างก็ดูไร้ตัวตนและอึกทึกขึ้น
- มันมีอยู่สองเรื่อง อย่างแรก ต่อให้ไม่มี AI ก็สร้างได้ทั้งสภาพแวดล้อมที่ออกแบบอย่างประณีตและสภาพแวดล้อมแบบ procedural generation และทั้งสองแบบก็ทำออกมาให้ดีได้ ในทางกลับกัน ทั้งสองแบบก็ล้มเหลวได้ด้วยเหตุผลเฉพาะของตัวเอง
  procedural generation ที่ทำแบบสะเพร่าอาจได้ผลลัพธ์ที่ขาดความหลากหลายหรือไร้เหตุผล ส่วนการวางองค์ประกอบด้วยมือแบบสะเพร่าก็อาจละเมิดกฎที่เกมตั้งไว้ ทำให้ประสบการณ์ไม่สอดคล้องกัน
  การรักษาความสอดคล้องภายในด้วยการวางแบบกำหนดชัดเจนจะยิ่งยากเมื่อขนาดใหญ่ขึ้น ถ้าความสอดคล้องภายในเป็นปัจจัยที่มีผลต่อคุณภาพ พอถึงระดับหนึ่งเนื้อหาที่สร้างขึ้นอาจกลายเป็นวิธีแก้ที่คุณภาพสูงกว่าเสียอีก
  อย่างที่สอง เวลาสร้างคอนเทนต์ด้วย AI กฎเรื่องความสะเพร่าก็ยังใช้เหมือนเดิม มีเครื่องมือ generative AI ที่มีตัวเลือกน้อยมากในการจัดองค์ประกอบสิ่งที่ต้องการ แต่สิ่งนั้นไม่ใช่คุณสมบัติบังคับของ AI บางกรณีก็เป็นเพราะคนอยากได้อินเทอร์เฟซที่เรียบง่าย หรือเพราะตัว generator ยังใหม่อยู่ เลยเน้นให้มันทำอะไรบางอย่างได้ก่อนมากกว่าการควบคุมแบบละเอียด จึงมีตัวควบคุมน้อย
  ในบางแง่มันยังใหม่เกินไปจนยากจะอธิบายว่าความสามารถในการควบคุมแบบไหนถึงจะพึงประสงค์ และการสร้าง generator ออกมาก่อนเพื่อดูว่าคนอยากทำอะไรกับมัน อาจเป็นเส้นทางที่สมเหตุสมผลก่อนจะสร้างฟีเจอร์ควบคุมที่ต้องการ เครื่องมือที่ควบคุมสไตล์ของสิ่งที่สร้าง การจัดวางออบเจ็กต์ การเคลื่อนกล้อง และองค์ประกอบฉากในระดับสูงก็มีอยู่ แต่มีคนเข้าถึงน้อยกว่ามาก
  AI อาจทำให้สิ่งที่เดิมเป็นไปไม่ได้กลายเป็นไปได้ แต่ถ้าจะสร้างอะไรที่พิเศษก็ยังต้องอาศัยความใส่ใจอยู่ดี
- ใช่เลย มันจะทำให้โลกเต็มไปด้วย คอนเทนต์ที่ดูเหมือนดีแต่ข้างในกลวงเปล่า แถมยังแปะหัวข้ออะไรก็ได้ตามต้องการ
  คนที่มาตรฐานต่ำอาจไม่บ่น แต่คนที่เหลือจะต้องใช้เวลามากขึ้นเรื่อย ๆ เพื่อหา 1 ชิ้นจาก 100 ชิ้นที่อีก 99 ชิ้นเป็นแค่เสียงรบกวน
  มันคล้าย Amazon มากเหมือนกัน การจัดเรียงผลลัพธ์ที่พัง การแสดงราคาต่อหน่วยที่ถูกบิดเบือน และน้ำท่วมของของเลียนแบบราคาถูก รวมกันจนผู้ใช้ยอมแพ้แล้วซื้อของที่โผล่อยู่บนสุด ไม่ว่าจะเป็นรายการแนะนำหรือสินค้าก๊อบของ Amazon เอง
  ถ้าลองค้นหาสินค้าหลายอย่างบนเว็บแล้วไปที่แท็บรูปภาพ บ่อยครั้งลิงก์สินค้า Amazon จะกินพื้นที่ผลลัพธ์ถึง 50~90%
- โมเดลแบบนี้น่าจะคล้าย แท่นพิมพ์ Gutenberg สมัยก่อน ปริมาณคอนเทนต์จะเพิ่มขึ้นอย่างรวดเร็ว และส่วนใหญ่ก็คงไม่ค่อยดีนัก
  แต่เพราะปริมาณมหาศาลนั้นเอง โดยรวมแล้วคอนเทนต์คุณภาพสูงอาจถูกสร้างมากขึ้นด้วย พูดอีกแบบคือคุณภาพเฉลี่ยของเกมอาจลดลง แต่ความถี่ที่มีเกม “ยอดเยี่ยม” ออกมาจริง ๆ จะเพิ่มขึ้น
- เหมือนจับแก่นของสิ่งที่กำลังเกิดขึ้นกับ AI ทั้งหมดตอนนี้ได้เลย ทั้งกราฟิก ภาพ วิดีโอ เพลง ข้อความ โค้ด ล้วนดูน่าทึ่ง แต่ก็ให้ความรู้สึก กลวงและไร้คุณค่า
  ไม่ว่างานส่วนไหนในชีวิต คุณภาพของผลลัพธ์เป็นภาพสะท้อนโดยตรงของความใส่ใจและเจตนาที่ใส่ลงไป ถ้าพูดให้เรียบง่ายก็คือสะท้อนว่าทุ่มเทแค่ไหน และสิ่งนั้นมักมองออกเสมอ ในยุค AI ก็ยังเหมือนเดิม
  เพียงแต่ตอนนี้เส้นทางจากไม่ต้องพยายามไปสู่ผลลัพธ์มันสั้นลงมาก เลยทำให้ปริมาณเพิ่มขึ้นและเจือจางภาพรวม ผลลัพธ์ราคาถูกแบบนี้จะทำให้ทุกวงการที่มันแตะดูราคาถูกลงไปด้วย ดังนั้นถ้าอยากโดดเด่นกลับจะยิ่งต้องใช้ความพยายามมากขึ้น
- ตัวอย่างแบบ FromSoftware หรือ Lies of P ที่ทุกอย่างถูกวางอย่างตั้งใจนั้นค่อนข้างเฉพาะทางและเอนเอียงไปด้านหนึ่ง
  ยังมีเกมดี ๆ อีกมากที่ไม่ได้พึ่งการวางไอเท็มอย่างพิถีพิถัน ตัวอย่างเช่นหลายเกมของ Bethesda เคยยอดเยี่ยมทั้งที่ของส่วนใหญ่เป็นแค่ของตกแต่งไร้ประโยชน์ แต่พอผลงานช่วงหลังพยายามให้เศษของจุกจิกเหล่านั้นมีจุดประสงค์ขึ้นมาและทำลายกฎนั้นไป มันกลับแย่ลงมาก
  ยังมีเกมดี ๆ อีกมากที่แทบไม่พึ่งความตั้งใจแบบนี้เลย และบางเกมก็แทบจะเป็นการโยนไอเดียเจ๋ง ๆ แบบสุ่ม ๆ มาปะติดปะต่อกัน หรือสร้างขึ้นแบบ procedural ล้วน ๆ
การบอกว่าน้ำหนักโมเดลจะมา “เร็ว ๆ นี้” ตอนนี้ก็แปลว่าเป็น vaporware นั่นแหละ ถ้ายังไม่ปล่อยน้ำหนักออกมา จะเรียกว่า “โอเพนซอร์ส” ได้อย่างไร
ที่ทุกคนสงสัยว่าผลลัพธ์แบบนี้จะออกมาจากโมเดล 2.8B ได้จริงหรือไม่ก็สมเหตุสมผลอยู่แล้ว ถ้าไม่มีน้ำหนักโมเดล ก็เท่ากับมันยังไม่เกิดขึ้นจริง
- โมเดลอยู่ที่นี่: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- ถ้าว่ากันอย่างเป็นธรรม codebase ทั้งชุดเป็น โอเพนซอร์ส จึงยังดีกว่าโมเดล open weights ส่วนใหญ่ด้วยซ้ำ แต่ก็เข้าใจความรู้สึกนั้น
  https://github.com/NVlabs/Sana
- ถ้าอย่างนั้นก็คงยังไม่เปิดจริง ๆ สงสัยว่าจะเปลี่ยนหัวข้อได้ไหม
ถึงจะบอกว่า 2.6B แต่ต่อจากนั้นก็มีประโยคนี้
“มี 17B long-video refiner แบบเฉพาะทางที่ทำให้พื้นผิว การเคลื่อนไหว และคุณภาพช่วงท้ายของวิดีโอคมชัดขึ้นบน long-rollout backbone”
มันดูเหมือน วิดีโอเกม ทั้งหมดเลย น่าจะใช้ Unreal Engine สร้างข้อมูลสังเคราะห์สำหรับเทรน
การรันสิ่งนี้บน GPU ได้นี่ค่อนข้างน่าประทับใจ เห็นคนแสดงความไม่พอใจและความกังวลอยู่บ้าง แต่ก็ยังเป็นช่วงแรกมาก และตอนนี้น่าจะเป็นสภาพที่แย่ที่สุดของมันแล้ว เลยตื่นเต้นมากว่ามันจะ ส่งผลต่อเกม อย่างไร
อาจเป็นคำถามโง่ ๆ แต่สิ่งที่สร้างขึ้นที่นี่ตรงไหนคือ “world” กันแน่ มีการแทนเชิงนามธรรมของพื้นที่ทางกายภาพจริง เช่น scene graph แบบ game engine หรือเปล่า หรือแค่หมายถึง “ตัวสร้างวิดีโอนี้มีความสอดคล้องทางฟิสิกส์มากกว่าตัวสร้างวิดีโออื่น”
- world model คือโมเดลที่ทำนายสถานะถัดไปของโลกจำลองจากสถานะปัจจุบัน และถ้ามีก็รวมถึงการกระทำของเอเจนต์ที่อาศัยอยู่ในโลกนั้นด้วย มันค่อนข้างคล้ายกับ language model ที่ทำนายคำถัดไป
  สถานะของโลกนั้นจะเป็นอะไรก็ได้ แต่ในช่วง 1~2 ปีที่ผ่านมา คำนี้ถูกใช้ในความหมายที่แคบลง หมายถึงโมเดลสร้างวิดีโอที่ตอบสนองต่อการควบคุมแบบเกมได้อย่างเป็นธรรมชาติ จนดูเหมือนกำลังจำลองวิดีโอเกมอยู่ เพียงแต่ไม่ได้มีสถานะเพิ่มเติมอยู่เบื้องหลังเฟรมวิดีโอ
- ในบริบทนี้ world หมายถึงวิดีโอเหล่านี้ โต้ตอบได้ เหมือนวิดีโอเกม ในตัวอย่างที่ลิงก์ไว้จะเห็นอินพุตจากคีย์บอร์ดและเมาส์
  โมเดลถูกฝึกให้รักษาความสอดคล้องของฉากได้ราว 1 นาที ดังนั้นหลังจากมองไปรอบ ๆ แล้ว วัตถุที่เคยออกนอกจอไปก็จะกลับมาปรากฏอีกเมื่อหันกลับไปมองทิศนั้น
ลิงก์ดาวน์โหลดอยู่ไหน หาใน GitHub ไม่เจอ และปุ่มดาวน์โหลดบนเว็บก็เป็นสีเทากดไม่ได้
แล้วมันจะรันบน RTX 4090 ที่มีหน่วยความจำ 24GB ได้ไหม?
- มีเวอร์ชัน 5 วินาทีอยู่: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- เลื่อนลงไปข้างล่างจะมีวิดีโอเพิ่ม และดูเหมือนโมเดลจะขึ้นมา “เร็ว ๆ นี้”
คำเตือน: ผมเปิดวิดีโอ autoplay ในหน้านั้นแล้วพบว่าดาวน์โหลดพุ่งไปถึง 350Mbps
- ผมเพิ่งรู้หลังจากเปิดหน้านั้นทิ้งไว้ในแท็บเกินชั่วโมงไปแล้ว มันกำลังสตรีมและสตรีมวิดีโอเดิมซ้ำไปซ้ำมาจริง ๆ เหรอ หรือมันเยอะเกินกว่าจะ cache เลยต้องส่งใหม่ไม่รู้จบ
  หวังว่าจะไม่มีใครเปิดหน้านั้นทิ้งไว้บนเครือข่ายที่คิดตามปริมาณหรือมีโควตาจำกัด
  แปลกใจที่ GitHub ยังไม่ปิดหน้านั้น
  นักวิจัย AI คงชินกับการเผาทรัพยากรคอมพิวต์และเครือข่ายมากเกินไป จนหยุดคิดไปว่าหน้าเว็บที่ autoplay และ loop วิดีโอ HD หลายตัวพร้อมกันมันหมายความว่าอย่างไร
- บน การเชื่อมต่อ 70Mbps ของผม วิดีโอยัง buffer ไม่ทันเลย เลยเลิกดูไป มันก็ไม่ได้ดูคมชัดขนาดนั้นด้วย
ที่โมเดล 2.6B จะสร้างวิดีโอความยาว 1 นาทีด้วยคุณภาพและความสอดคล้องระดับนั้นได้ ดูเหลือเชื่อจนน่าทึ่งมาก
วิดีโอแรกที่เป็นผู้ชายเดินอยู่บนภูเขาหิมะมีปัญหาเรื่อง ความสอดคล้องของทางเข้าถ้ำ อยู่บ้าง ในขนาดโมเดลระดับนี้ถือว่า “คาดไว้ได้” ไหม
- ดูเหมือนว่าวิดีโอส่วนใหญ่จะมีปัญหาแบบนั้นอยู่บ้าง เช่นในวิดีโอห้องสมุด รูปร่างของหนังสือบนโต๊ะเปลี่ยนไปเป็นบางครั้ง
  ถ้าตัวอย่างพวกนี้เป็นตัวแทนจริง ๆ ผลของ ‘Refiner’ ดูเหมือนจะทำงานย้อนทางเสียมากกว่า ในทุกกรณีภาพขั้นที่ 1 ดูดีกว่าภาพที่ ‘ขัดเกลา’ แล้ว ทั้งรกน้อยกว่า สมจริงกว่า และถ้าใครรู้จักคำนี้ก็จะรู้สึกว่า “คาวเบลล์” น้อยกว่า
- ทุกวิดีโอดูมี ปัญหาความสอดคล้อง ที่เห็นได้ชัดพอสมควรเวลาหันกลับไปยังบริเวณที่เคยแสดงไปก่อนหน้า

SANA-WM โมเดลโลกโอเพนซอร์สขนาด 2.6B พารามิเตอร์สำหรับวิดีโอ 720p ความยาว 1 นาที

โมเดลและข้อมูลที่เปิดเผย

การออกแบบหลักและ pipeline การสร้าง

โครงสร้างแบบ hybrid สำหรับลำดับยาว

การควบคุมกล้องอย่างแม่นยำ

การยกระดับคุณภาพแบบ 2 ขั้นตอน

ประสิทธิภาพด้านการฝึกและการอนุมาน

ลักษณะการสร้างที่เห็นจากเดโม

เดโม world ระดับ 1 นาที

เดโม world ระดับ 20 วินาที

เฟรมแรกเดียวกันและ prompt ที่วนซ้ำ

ตัวอย่างผลของ Refiner

หุบเขาป่าดงดิบ

ประตูโบราณสลักในหน้าผา

วิหารโบราณใต้น้ำ

หมายเหตุการสร้างเดโม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News