1 คะแนน โดย GN⁺ 1 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • SANA-WM ของ NVIDIA รับภาพ 1 ภาพและเส้นทางกล้องแบบ 6-DoF เป็นอินพุต แล้วสร้างวิดีโอที่ควบคุมได้ความละเอียด 720p ความยาว 1 นาทีบน GPU เพียงตัวเดียว
  • Hybrid Linear Diffusion Transformer ผสาน Gated DeltaNet ระดับเฟรมเข้ากับ softmax แบบเป็นคาบ เพื่อคงความสอดคล้องของลำดับที่ยาวต่อเนื่อง
  • การฝึกใช้เวลา 15 วันบน H100 จำนวน 64 ตัว และรุ่น distilled สามารถใช้ NVFP4 บน RTX 5090 1 ตัวเพื่อลด noise ของคลิป 720p ความยาว 60 วินาทีได้ใน 34 วินาที
  • ใช้วิดีโอสาธารณะราว 213,000 คลิป และ การกำกับ pose แบบ 6-DoF ระดับเมตร เพื่อรองรับการตามเส้นทางกล้องอย่างแม่นยำ
  • บน benchmark สำหรับ world model ระดับ 1 นาที ให้ความแม่นยำในการติดตาม action สูงกว่า baseline โอเพนซอร์สเดิม และทำ throughput สูงกว่า 36 เท่า ที่คุณภาพภาพใกล้เคียงกัน

โมเดลและข้อมูลที่เปิดเผย

  • SANA-WM เป็น world model โอเพนซอร์สขนาด 2.6B พารามิเตอร์ ที่รับภาพเดียวและเส้นทางกล้องเป็นอินพุตเพื่อสร้างวิดีโอที่ควบคุมได้ ความละเอียด 720p ความยาว 1 นาที
  • มีผู้ร่วมพัฒนาจาก NVIDIA ได้แก่ Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han และ Enze Xie
  • มีเอกสาร Paper, Code, Models soon ให้ใช้งาน
  • ชื่อบทความวิจัยคือ SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

การออกแบบหลักและ pipeline การสร้าง

  • โครงสร้างแบบ hybrid สำหรับลำดับยาว

    • Hybrid Linear Diffusion Transformer ผสาน Gated DeltaNet ระดับเฟรมเข้ากับ softmax แบบเป็นคาบ เพื่อรักษาความสอดคล้องของโลกในลำดับระดับนาที
    • ในการเปรียบเทียบด้านประสิทธิภาพ ตัวแปรแบบ recurrent ขยายตัวเล็กกว่าทั้งในด้านหน่วยความจำและ latency แต่แนวทาง all-softmax เกิด OOM เมื่อสร้างวิดีโอ 60 วินาที
  • การควบคุมกล้องอย่างแม่นยำ

    • SANA-WM รับ เส้นทางกล้องแบบ 6-DoF เป็นอินพุต และสร้างวิดีโอที่ตามเส้นทางกล้องเชิง metric
    • branch สำหรับ global pose แบบหยาบและ branch เชิงเรขาคณิตสำหรับการจัดแนวพิกเซลอย่างละเอียดทำงานร่วมกันเพื่อเพิ่มความเที่ยงตรงในการตามเส้นทางกล้อง
    • ดึง camera pose แบบ 6-DoF ที่แม่นยำระดับเมตรจากวิดีโอสาธารณะ เพื่อสร้าง action label คุณภาพสูงที่สอดคล้องกันทั้งเชิงเวลาและเชิงพื้นที่
  • การยกระดับคุณภาพแบบ 2 ขั้นตอน

    • เอาต์พุตจากขั้นที่ 1 ถูกนำไปผ่าน refiner สำหรับวิดีโอยาวขนาด 17B เพื่อปรับปรุงคุณภาพและความสอดคล้องตลอดทั้ง sequence
    • refiner ช่วยให้ texture การเคลื่อนไหว และคุณภาพในช่วงท้ายของลำดับคมชัดขึ้นบน backbone สำหรับลำดับยาว

ประสิทธิภาพด้านการฝึกและการอนุมาน

  • การฝึกใช้เวลา 15 วันบน H100 จำนวน 64 ตัว และข้อมูลฝึกประกอบด้วยคลิปวิดีโอสาธารณะประมาณ 213,000 คลิป พร้อมการกำกับ pose ระดับเมตร
  • ในการอนุมาน สามารถสร้างวิดีโอ 720p ความยาว 1 นาทีได้ด้วย H100 เพียงตัวเดียว
  • โมเดลรุ่น distilled ใช้ RTX 5090 1 ตัว พร้อมการ quantization แบบ NVFP4 เพื่อลด noise ของคลิป 720p ความยาว 60 วินาทีได้ใน 34 วินาที
  • SANA-WM แสดงคุณภาพภาพใกล้เคียงกับ baseline อุตสาหกรรมขนาดใหญ่ เช่น LingBot-World และ HY-WorldPlay พร้อมปรับปรุงประสิทธิภาพ
  • บน benchmark สำหรับ world model ระดับ 1 นาที SANA-WM ให้ ความแม่นยำในการติดตาม action สูงกว่า baseline โอเพนซอร์สเดิม และทำ throughput สูงกว่า 36 เท่า ที่คุณภาพภาพใกล้เคียงกัน

ลักษณะการสร้างที่เห็นจากเดโม

  • เดโม world ระดับ 1 นาที

    • ตัวอย่าง 1 นาทีหลายชุดคง มุมมองผู้สังเกตคงที่ แบบบุคคลที่หนึ่งไว้ พร้อมสร้างการเคลื่อนไหวของสภาพแวดล้อมเองโดยไม่มีการเคลื่อนกล้องหรือการกระทำของผู้สังเกต
    • Video 68: เส้นทางในเทือกเขาแอลป์ที่ปกคลุมด้วยหิมะ หน้าผา ปากถ้ำ น้ำแข็งย้อย สนที่เอนตามลม และนักปีนเขาเสื้อแจ็กเก็ตสีส้ม พร้อมการสร้างอนุภาคหิมะ หมอก กิ่งไม้ไหว และการไหลของผงหิมะ
    • Video 72: สร้างทางแยกสามทางที่เปิดโล่ง โดยมีป่าสีน้ำเงิน หอคอยร้างใต้เมฆพายุ และหมู่บ้านที่มีแสงแดดส่องอยู่ปลายทาง
    • Video 81: ปรากฏทางแยกตัว T ในศูนย์วิจัยไซไฟใต้ดินที่ปิดตาย พร้อมทางเดินซ้ายที่ถูกน้ำท่วม ทางเดินขวาที่เต็มไปด้วยไอน้ำ และประตูโลหะทรงกลมที่เปิดสู่ความมืด
  • เดโม world ระดับ 20 วินาที

    • Video 82: ภายในกระท่อมร้างบนภูเขา แผนที่วาดมือ กุญแจขึ้นสนิม ตะเกียงอุ่น และถ้ำสีทองถัดจากทางเดินในป่าหิมะ โดยมีควันจากสะเก็ดไฟ เปลวตะเกียง และพายุหิมะที่ลอดรอยประตูเคลื่อนไหว
    • Video 85: ประตูทรงกลมที่ถูกผนึกในซากโบราณกลางป่า สัญลักษณ์สีเขียว และหุ่นยนต์สำรวจขนาดเล็ก พร้อมเถาวัลย์ แมลง ผีเสื้อ แอ่งน้ำ และสัญลักษณ์บนประตูที่เต้นเป็นจังหวะ
    • Video 92: ทางเดินหินของวิหารโบราณใต้น้ำ เสาปะการัง รอยแยกเรืองแสงสีเขียว และหุ่นยนต์ดำน้ำทรงกลมขนาดเล็ก พร้อมปลา ฟอง อนุภาค สาหร่ายทะเล และ caustics
  • เฟรมแรกเดียวกันและ prompt ที่วนซ้ำ

    • Video 100, Video 101, Video 102: จาก prompt ทุ่งเกลือเดียวกัน ยังคงรถสปอร์ต เปลือกเกลือหยาบ และแสงอาทิตย์ต่ำไว้ พร้อมสร้างฝุ่นเกลือ การเคลื่อนของเมฆ คลื่นความร้อน และลายลมบนพื้น
    • Video 103, Video 104, Video 105: น้ำตื้นสะท้อนแสง ก้อนหินโคลนสำหรับก้าวข้าม ป่าสีม่วง ยานอวกาศตกที่จมอยู่ครึ่งลำ นักบินอวกาศในชุดอวกาศ และสิ่งมีชีวิตต่างดาวขนาดเล็ก ปรากฏในชุดแปรผันของ prompt เดียวกัน
    • Video 119, Video 120, Video 121: สร้างคลื่น ใบมะพร้าว นก และการเคลื่อนของเมฆในฉากพระอาทิตย์ขึ้นริมชายหาดเขตร้อนจากมุมมองคงที่

ตัวอย่างผลของ Refiner

  • หุบเขาป่าดงดิบ

    • Video 124 และ Video 125 เป็นตัวอย่าง Stage 1 Refined ที่จัดฉากภายในหุบเขาป่าดงดิบขนาดมหึมาจากมุมมองบุคคลที่หนึ่งแบบคงที่
    • มีวิหารหินโบราณที่เห็นเลือนอยู่หลังน้ำตก เครื่องบินกระดาษที่พับแล้ว นกหลากสี ใบไม้ลอย ผนังหินเปียก เถาวัลย์พันเกี่ยว และหยดน้ำ
    • น้ำตก หมอก การกระพือปีกของนก ใบไม้ร่วง หยดน้ำระยิบระยับ และเครื่องบินกระดาษที่สั่นไหวตามกระแสอากาศ ต่างเคลื่อนไหวได้เอง
  • ประตูโบราณสลักในหน้าผา

    • Video 126 และ Video 127 แสดง ประตูโบราณในหน้าผา บนพื้นที่สูงของป่า
    • ขั้นบันไดหินทอดจากทางที่ปกคลุมด้วยมอสไปสู่ประตูที่แง้มอยู่ครึ่งหนึ่ง พร้อมเสาแกะสลัก รูปปั้นผู้พิทักษ์ ผนังที่ถูกไม้เลื้อยปกคลุม หุบเขาภูเขาทางซ้าย และนักเดินทางสวมเสื้อคลุมใกล้ทางเข้า
    • แสงอาทิตย์อุ่นยามบ่ายคล้อยผสานกับแสงสีเขียวน้ำทะเลที่รั่วออกมาจากประตู ขณะที่ใบไม้ นก เถาวัลย์ และแสงจากพอร์ทัลเคลื่อนไหวอย่างอิสระ
  • วิหารโบราณใต้น้ำ

    • Video 130 และ Video 131 นำเสนอ ผลลัพธ์ Stage 1 และ refined แบบวางคู่กัน
    • มีทางเดินหินทอดผ่านเสาที่มีปะการังเกาะอยู่ และแสงสีเขียวสดรั่วออกจากรอยแยกกลางผนังพิธีกรรมที่แตกร้าว โดยจัดแนวกับสัญลักษณ์เรืองแสงบนพื้น
    • หุ่นยนต์ดำน้ำทรงกลมขนาดเล็กลอยอยู่ด้านหน้า ขณะที่ปลา ฟอง อนุภาค สาหร่ายทะเล caustics และสัญลักษณ์สีเขียวเคลื่อนไหวได้เอง

หมายเหตุการสร้างเดโม

  • วิดีโอทั้งหมดในหน้านี้ถูกสร้างด้วย SANA-WM แบบ bidirectional ก่อน แล้วจึงผ่าน refiner สำหรับวิดีโอระยะยาวแบบ 2 ขั้นตอน
  • ภาพเฟรมแรกของวิดีโอเดโมทั้งหมดในแกลเลอรีถูกสร้างด้วย OpenAI GPT Image 2 และ Google Nano Banana Pro จากนั้น SANA-WM จึงทำให้ภาพนิ่งเหล่านั้นกลายเป็นวิดีโอความยาว 1 นาที

1 ความคิดเห็น

 
GN⁺ 1 시간 전
ความคิดเห็นใน Hacker News
  • ถ้ามองจากมุมของวิดีโอเกม world model แบบนี้ยังไม่ค่อยทำให้รู้สึกว้าวเท่าไร
    ผมไม่ได้เป็นนักพัฒนาเกมโดยตรง แต่เกมที่ชอบมีความตั้งใจในการออกแบบสูงมาก ตัวอย่างเช่นเกมของ FromSoftware หรือ Lies of P ช่วงหลัง ๆ ปกติแล้วแทบไม่มีของชิ้นไหนถูกวางแบบส่ง ๆ ไป และออบเจ็กต์แทบทุกชิ้นถูกจัดวางอย่างมีเจตนา
    ตรงกันข้าม เกมที่ไม่มีความตั้งใจแบบนี้จะให้ความรู้สึกเหมือนโลกตาย ๆ ทำลายความอิน หรือทำให้หลุดออกจากประสบการณ์ที่ผู้พัฒนาต้องการส่งมอบ
    นึกไม่ค่อยออกว่า world model จะไปถึงระดับที่จับ “ความตั้งใจ” แบบนี้ได้หรือไม่ แม้แต่ LLM ระดับท็อปก็ยังพลาดบ่อยในการเขียน ทั้งงานเขียนและโค้ด ทั้งที่พื้นผิวของประสบการณ์ในสื่อเหล่านั้นดูเล็กกว่าขอบเขตปฏิสัมพันธ์ของผู้ใช้ในวิดีโอเกมเสียอีก
    และก็ยังไม่ชัดว่าถ้ามนุษย์อยากสร้างประสบการณ์ที่มีเจตนา จะใช้ world model แบบแยกเป็นโมดูลได้อย่างไร LLM ยังพอทำงานแบบให้มันสร้างข้อความ มนุษย์มาแก้ แล้วให้ LLM ตัวอื่นรับช่วงต่อได้ แต่ไม่แน่ใจว่าเอาต์พุตวิดีโอที่นี่จะเป็นแบบเดียวกันหรือไม่
    สุดท้าย world model เองก็น่าประทับใจ แต่เหมือน LLM สำหรับการเขียนตรงที่ยังไม่ชัดว่าเรากำลังสร้างมันไปเพื่ออะไร เพื่อให้สร้างประสบการณ์ที่น่าพอใจน้อยลงและเป็นมนุษย์น้อยลงได้เร็วขึ้นหรือเปล่า หรือประโยชน์ที่เห็นได้ทันทีที่สุดคือให้ระบบหุ่นยนต์สร้างโลกขึ้นมาเพื่อจินตนาการผลของการกระทำและจำลองมัน
    โดยรวมแล้วมันให้ความรู้สึกเหมือนเรากำลังพุ่งเข้าสู่โลกที่ ความตั้งใจ เบื้องหลังทุกสิ่งที่เราสัมผัสลดลงเรื่อย ๆ และทุกอย่างก็ดูไร้ตัวตนและอึกทึกขึ้น

    • มันมีอยู่สองเรื่อง อย่างแรก ต่อให้ไม่มี AI ก็สร้างได้ทั้งสภาพแวดล้อมที่ออกแบบอย่างประณีตและสภาพแวดล้อมแบบ procedural generation และทั้งสองแบบก็ทำออกมาให้ดีได้ ในทางกลับกัน ทั้งสองแบบก็ล้มเหลวได้ด้วยเหตุผลเฉพาะของตัวเอง
      procedural generation ที่ทำแบบสะเพร่าอาจได้ผลลัพธ์ที่ขาดความหลากหลายหรือไร้เหตุผล ส่วนการวางองค์ประกอบด้วยมือแบบสะเพร่าก็อาจละเมิดกฎที่เกมตั้งไว้ ทำให้ประสบการณ์ไม่สอดคล้องกัน
      การรักษาความสอดคล้องภายในด้วยการวางแบบกำหนดชัดเจนจะยิ่งยากเมื่อขนาดใหญ่ขึ้น ถ้าความสอดคล้องภายในเป็นปัจจัยที่มีผลต่อคุณภาพ พอถึงระดับหนึ่งเนื้อหาที่สร้างขึ้นอาจกลายเป็นวิธีแก้ที่คุณภาพสูงกว่าเสียอีก
      อย่างที่สอง เวลาสร้างคอนเทนต์ด้วย AI กฎเรื่องความสะเพร่าก็ยังใช้เหมือนเดิม มีเครื่องมือ generative AI ที่มีตัวเลือกน้อยมากในการจัดองค์ประกอบสิ่งที่ต้องการ แต่สิ่งนั้นไม่ใช่คุณสมบัติบังคับของ AI บางกรณีก็เป็นเพราะคนอยากได้อินเทอร์เฟซที่เรียบง่าย หรือเพราะตัว generator ยังใหม่อยู่ เลยเน้นให้มันทำอะไรบางอย่างได้ก่อนมากกว่าการควบคุมแบบละเอียด จึงมีตัวควบคุมน้อย
      ในบางแง่มันยังใหม่เกินไปจนยากจะอธิบายว่าความสามารถในการควบคุมแบบไหนถึงจะพึงประสงค์ และการสร้าง generator ออกมาก่อนเพื่อดูว่าคนอยากทำอะไรกับมัน อาจเป็นเส้นทางที่สมเหตุสมผลก่อนจะสร้างฟีเจอร์ควบคุมที่ต้องการ เครื่องมือที่ควบคุมสไตล์ของสิ่งที่สร้าง การจัดวางออบเจ็กต์ การเคลื่อนกล้อง และองค์ประกอบฉากในระดับสูงก็มีอยู่ แต่มีคนเข้าถึงน้อยกว่ามาก
      AI อาจทำให้สิ่งที่เดิมเป็นไปไม่ได้กลายเป็นไปได้ แต่ถ้าจะสร้างอะไรที่พิเศษก็ยังต้องอาศัยความใส่ใจอยู่ดี
    • ใช่เลย มันจะทำให้โลกเต็มไปด้วย คอนเทนต์ที่ดูเหมือนดีแต่ข้างในกลวงเปล่า แถมยังแปะหัวข้ออะไรก็ได้ตามต้องการ
      คนที่มาตรฐานต่ำอาจไม่บ่น แต่คนที่เหลือจะต้องใช้เวลามากขึ้นเรื่อย ๆ เพื่อหา 1 ชิ้นจาก 100 ชิ้นที่อีก 99 ชิ้นเป็นแค่เสียงรบกวน
      มันคล้าย Amazon มากเหมือนกัน การจัดเรียงผลลัพธ์ที่พัง การแสดงราคาต่อหน่วยที่ถูกบิดเบือน และน้ำท่วมของของเลียนแบบราคาถูก รวมกันจนผู้ใช้ยอมแพ้แล้วซื้อของที่โผล่อยู่บนสุด ไม่ว่าจะเป็นรายการแนะนำหรือสินค้าก๊อบของ Amazon เอง
      ถ้าลองค้นหาสินค้าหลายอย่างบนเว็บแล้วไปที่แท็บรูปภาพ บ่อยครั้งลิงก์สินค้า Amazon จะกินพื้นที่ผลลัพธ์ถึง 50~90%
    • โมเดลแบบนี้น่าจะคล้าย แท่นพิมพ์ Gutenberg สมัยก่อน ปริมาณคอนเทนต์จะเพิ่มขึ้นอย่างรวดเร็ว และส่วนใหญ่ก็คงไม่ค่อยดีนัก
      แต่เพราะปริมาณมหาศาลนั้นเอง โดยรวมแล้วคอนเทนต์คุณภาพสูงอาจถูกสร้างมากขึ้นด้วย พูดอีกแบบคือคุณภาพเฉลี่ยของเกมอาจลดลง แต่ความถี่ที่มีเกม “ยอดเยี่ยม” ออกมาจริง ๆ จะเพิ่มขึ้น
    • เหมือนจับแก่นของสิ่งที่กำลังเกิดขึ้นกับ AI ทั้งหมดตอนนี้ได้เลย ทั้งกราฟิก ภาพ วิดีโอ เพลง ข้อความ โค้ด ล้วนดูน่าทึ่ง แต่ก็ให้ความรู้สึก กลวงและไร้คุณค่า
      ไม่ว่างานส่วนไหนในชีวิต คุณภาพของผลลัพธ์เป็นภาพสะท้อนโดยตรงของความใส่ใจและเจตนาที่ใส่ลงไป ถ้าพูดให้เรียบง่ายก็คือสะท้อนว่าทุ่มเทแค่ไหน และสิ่งนั้นมักมองออกเสมอ ในยุค AI ก็ยังเหมือนเดิม
      เพียงแต่ตอนนี้เส้นทางจากไม่ต้องพยายามไปสู่ผลลัพธ์มันสั้นลงมาก เลยทำให้ปริมาณเพิ่มขึ้นและเจือจางภาพรวม ผลลัพธ์ราคาถูกแบบนี้จะทำให้ทุกวงการที่มันแตะดูราคาถูกลงไปด้วย ดังนั้นถ้าอยากโดดเด่นกลับจะยิ่งต้องใช้ความพยายามมากขึ้น
    • ตัวอย่างแบบ FromSoftware หรือ Lies of P ที่ทุกอย่างถูกวางอย่างตั้งใจนั้นค่อนข้างเฉพาะทางและเอนเอียงไปด้านหนึ่ง
      ยังมีเกมดี ๆ อีกมากที่ไม่ได้พึ่งการวางไอเท็มอย่างพิถีพิถัน ตัวอย่างเช่นหลายเกมของ Bethesda เคยยอดเยี่ยมทั้งที่ของส่วนใหญ่เป็นแค่ของตกแต่งไร้ประโยชน์ แต่พอผลงานช่วงหลังพยายามให้เศษของจุกจิกเหล่านั้นมีจุดประสงค์ขึ้นมาและทำลายกฎนั้นไป มันกลับแย่ลงมาก
      ยังมีเกมดี ๆ อีกมากที่แทบไม่พึ่งความตั้งใจแบบนี้เลย และบางเกมก็แทบจะเป็นการโยนไอเดียเจ๋ง ๆ แบบสุ่ม ๆ มาปะติดปะต่อกัน หรือสร้างขึ้นแบบ procedural ล้วน ๆ
  • การบอกว่าน้ำหนักโมเดลจะมา “เร็ว ๆ นี้” ตอนนี้ก็แปลว่าเป็น vaporware นั่นแหละ ถ้ายังไม่ปล่อยน้ำหนักออกมา จะเรียกว่า “โอเพนซอร์ส” ได้อย่างไร
    ที่ทุกคนสงสัยว่าผลลัพธ์แบบนี้จะออกมาจากโมเดล 2.8B ได้จริงหรือไม่ก็สมเหตุสมผลอยู่แล้ว ถ้าไม่มีน้ำหนักโมเดล ก็เท่ากับมันยังไม่เกิดขึ้นจริง

    • โมเดลอยู่ที่นี่: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
    • ถ้าว่ากันอย่างเป็นธรรม codebase ทั้งชุดเป็น โอเพนซอร์ส จึงยังดีกว่าโมเดล open weights ส่วนใหญ่ด้วยซ้ำ แต่ก็เข้าใจความรู้สึกนั้น
      https://github.com/NVlabs/Sana
    • ถ้าอย่างนั้นก็คงยังไม่เปิดจริง ๆ สงสัยว่าจะเปลี่ยนหัวข้อได้ไหม
  • ถึงจะบอกว่า 2.6B แต่ต่อจากนั้นก็มีประโยคนี้
    “มี 17B long-video refiner แบบเฉพาะทางที่ทำให้พื้นผิว การเคลื่อนไหว และคุณภาพช่วงท้ายของวิดีโอคมชัดขึ้นบน long-rollout backbone”

  • มันดูเหมือน วิดีโอเกม ทั้งหมดเลย น่าจะใช้ Unreal Engine สร้างข้อมูลสังเคราะห์สำหรับเทรน

  • การรันสิ่งนี้บน GPU ได้นี่ค่อนข้างน่าประทับใจ เห็นคนแสดงความไม่พอใจและความกังวลอยู่บ้าง แต่ก็ยังเป็นช่วงแรกมาก และตอนนี้น่าจะเป็นสภาพที่แย่ที่สุดของมันแล้ว เลยตื่นเต้นมากว่ามันจะ ส่งผลต่อเกม อย่างไร

  • อาจเป็นคำถามโง่ ๆ แต่สิ่งที่สร้างขึ้นที่นี่ตรงไหนคือ “world” กันแน่ มีการแทนเชิงนามธรรมของพื้นที่ทางกายภาพจริง เช่น scene graph แบบ game engine หรือเปล่า หรือแค่หมายถึง “ตัวสร้างวิดีโอนี้มีความสอดคล้องทางฟิสิกส์มากกว่าตัวสร้างวิดีโออื่น”

    • world model คือโมเดลที่ทำนายสถานะถัดไปของโลกจำลองจากสถานะปัจจุบัน และถ้ามีก็รวมถึงการกระทำของเอเจนต์ที่อาศัยอยู่ในโลกนั้นด้วย มันค่อนข้างคล้ายกับ language model ที่ทำนายคำถัดไป
      สถานะของโลกนั้นจะเป็นอะไรก็ได้ แต่ในช่วง 1~2 ปีที่ผ่านมา คำนี้ถูกใช้ในความหมายที่แคบลง หมายถึงโมเดลสร้างวิดีโอที่ตอบสนองต่อการควบคุมแบบเกมได้อย่างเป็นธรรมชาติ จนดูเหมือนกำลังจำลองวิดีโอเกมอยู่ เพียงแต่ไม่ได้มีสถานะเพิ่มเติมอยู่เบื้องหลังเฟรมวิดีโอ
    • ในบริบทนี้ world หมายถึงวิดีโอเหล่านี้ โต้ตอบได้ เหมือนวิดีโอเกม ในตัวอย่างที่ลิงก์ไว้จะเห็นอินพุตจากคีย์บอร์ดและเมาส์
      โมเดลถูกฝึกให้รักษาความสอดคล้องของฉากได้ราว 1 นาที ดังนั้นหลังจากมองไปรอบ ๆ แล้ว วัตถุที่เคยออกนอกจอไปก็จะกลับมาปรากฏอีกเมื่อหันกลับไปมองทิศนั้น
  • ลิงก์ดาวน์โหลดอยู่ไหน หาใน GitHub ไม่เจอ และปุ่มดาวน์โหลดบนเว็บก็เป็นสีเทากดไม่ได้
    แล้วมันจะรันบน RTX 4090 ที่มีหน่วยความจำ 24GB ได้ไหม?

    • มีเวอร์ชัน 5 วินาทีอยู่: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
    • เลื่อนลงไปข้างล่างจะมีวิดีโอเพิ่ม และดูเหมือนโมเดลจะขึ้นมา “เร็ว ๆ นี้”
  • คำเตือน: ผมเปิดวิดีโอ autoplay ในหน้านั้นแล้วพบว่าดาวน์โหลดพุ่งไปถึง 350Mbps

    • ผมเพิ่งรู้หลังจากเปิดหน้านั้นทิ้งไว้ในแท็บเกินชั่วโมงไปแล้ว มันกำลังสตรีมและสตรีมวิดีโอเดิมซ้ำไปซ้ำมาจริง ๆ เหรอ หรือมันเยอะเกินกว่าจะ cache เลยต้องส่งใหม่ไม่รู้จบ
      หวังว่าจะไม่มีใครเปิดหน้านั้นทิ้งไว้บนเครือข่ายที่คิดตามปริมาณหรือมีโควตาจำกัด
      แปลกใจที่ GitHub ยังไม่ปิดหน้านั้น
      นักวิจัย AI คงชินกับการเผาทรัพยากรคอมพิวต์และเครือข่ายมากเกินไป จนหยุดคิดไปว่าหน้าเว็บที่ autoplay และ loop วิดีโอ HD หลายตัวพร้อมกันมันหมายความว่าอย่างไร
    • บน การเชื่อมต่อ 70Mbps ของผม วิดีโอยัง buffer ไม่ทันเลย เลยเลิกดูไป มันก็ไม่ได้ดูคมชัดขนาดนั้นด้วย
  • ที่โมเดล 2.6B จะสร้างวิดีโอความยาว 1 นาทีด้วยคุณภาพและความสอดคล้องระดับนั้นได้ ดูเหลือเชื่อจนน่าทึ่งมาก

  • วิดีโอแรกที่เป็นผู้ชายเดินอยู่บนภูเขาหิมะมีปัญหาเรื่อง ความสอดคล้องของทางเข้าถ้ำ อยู่บ้าง ในขนาดโมเดลระดับนี้ถือว่า “คาดไว้ได้” ไหม

    • ดูเหมือนว่าวิดีโอส่วนใหญ่จะมีปัญหาแบบนั้นอยู่บ้าง เช่นในวิดีโอห้องสมุด รูปร่างของหนังสือบนโต๊ะเปลี่ยนไปเป็นบางครั้ง
      ถ้าตัวอย่างพวกนี้เป็นตัวแทนจริง ๆ ผลของ ‘Refiner’ ดูเหมือนจะทำงานย้อนทางเสียมากกว่า ในทุกกรณีภาพขั้นที่ 1 ดูดีกว่าภาพที่ ‘ขัดเกลา’ แล้ว ทั้งรกน้อยกว่า สมจริงกว่า และถ้าใครรู้จักคำนี้ก็จะรู้สึกว่า “คาวเบลล์” น้อยกว่า
    • ทุกวิดีโอดูมี ปัญหาความสอดคล้อง ที่เห็นได้ชัดพอสมควรเวลาหันกลับไปยังบริเวณที่เคยแสดงไปก่อนหน้า