1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • NVIDIA Cosmos 3 คือโมเดลฐานแบบเปิดเดี่ยวสำหรับ Physical AI ที่รวมการให้เหตุผลทางฟิสิกส์ การสร้างโลก และการสร้างการกระทำไว้ในโมเดลเดียว
  • สถาปัตยกรรม Mixture-of-Transformers แยกเป็น Reasoner tower และ Generator tower เพื่อเชื่อมความเข้าใจอินพุตกับเอาต์พุตการสร้างที่รับรู้ฟิสิกส์ พร้อมลดความจำเป็นในการประสานหลายโมเดลและหลาย inference pipeline
  • Cosmos 3 Nano มีพารามิเตอร์ 16B มุ่งเป้าการอนุมานระดับเวิร์กสเตชัน และ Cosmos 3 Super มีพารามิเตอร์ 64B มุ่งเป้าการดีพลอยในดาต้าเซ็นเตอร์และการสร้างข้อมูลสังเคราะห์คุณภาพสูง
  • NVIDIA เปิดให้ใช้งาน model checkpoint, สคริปต์การฝึก, เครื่องมือดีพลอย, ชุดข้อมูลสังเคราะห์ 6 ชุด และ NIM microservices เพื่อรองรับการปรับให้เข้ากับโดเมนอย่างหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และระบบอัตโนมัติในคลังสินค้า
  • ใน HUE และเบนช์มาร์กสาธารณะหลายรายการ Cosmos 3 ถูกประเมินด้านการให้เหตุผลของ Physical AI คุณภาพการสร้าง และประสิทธิภาพเฉพาะโดเมน โดย Super และ Nano ขึ้นนำใน tier 32B และ 8B ของ VANTAGE-Bench ตามลำดับ

การเปลี่ยนแปลงสำคัญของ Cosmos 3

  • NVIDIA Cosmos 3 คือโมเดลฐานระดับแนวหน้าที่ออกแบบมาสำหรับระบบ Physical AI เช่น หุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และ smart space ให้สามารถเข้าใจโลก คาดการณ์สถานการณ์ถัดไป และสร้างการกระทำที่เหมาะกับสภาพแวดล้อม รูปแบบ และงานเฉพาะได้
  • Cosmos รุ่นก่อนหน้าแยกการสร้างโลก ความเข้าใจฟิสิกส์ และการสร้างฉากแบบควบคุมออกเป็นคนละโมเดลและคนละเวิร์กโฟลว์ แต่ Cosmos 3 รวมทั้งหมดนี้ไว้ในโมเดลเดียว
  • รีลีสครั้งนี้มี model checkpoint บน Hugging Face, โค้ดบน GitHub, ชุดข้อมูลสาธารณะ, สคริปต์การฝึกต่อเนื่อง และ Cosmos NIM microservices สำหรับการดีพลอยบน NVIDIA GPU

โครงสร้างแบบสองทาวเวอร์

  • Cosmos 3 ใช้สถาปัตยกรรม Mixture-of-Transformers ที่มีสองทาวเวอร์เป็นแกนหลัก
  • Reasoner tower คือ vision-language model (VLM) ที่ตีความการสังเกตแบบหลายโมดัล เช่น ภาพ วิดีโอ และข้อความ โดยใช้โครงสร้าง autoregressive เพื่อแปลความอินพุตและเข้าใจการเคลื่อนไหว ปฏิสัมพันธ์ของวัตถุ และบริบททางฟิสิกส์
  • Generator tower ใช้ความเข้าใจจาก Reasoner tower เป็นเงื่อนไขในการสร้างวิดีโอและเอาต์พุตการกระทำที่รับรู้ฟิสิกส์ผ่านกระบวนการแบบ diffusion
  • สามารถเรียกใช้ Reasoner แยกเดี่ยวได้ แต่ Generator จะเปิดใช้ทั้งสองทาวเวอร์เสมอเพื่อการสร้างแบบมีตัวนำทาง
  • โครงสร้างนี้ทำให้งานอนุมานและงานสร้างอยู่ในโมเดลเดียว ลดการออร์เคสเตรตระหว่างหลายโมเดลและหลาย inference pipeline

การเลือกขนาดโมเดล

  • Cosmos 3 Nano เป็นโมเดลขนาดกะทัดรัดที่มีพารามิเตอร์ 16B และปรับแต่งมาสำหรับการอนุมานอย่างมีประสิทธิภาพ
  • Nano ออกแบบมาสำหรับรันการอนุมานด้านหุ่นยนต์แบบเรียลไทม์และแอปพลิเคชัน Physical AI บนคอมพิวต์ระดับเวิร์กสเตชัน เช่น NVIDIA RTX PRO 6000 GPU
  • Cosmos 3 Super เป็นโมเดลขนาด 64B พารามิเตอร์ที่มุ่งเน้นคุณภาพและความสามารถสูงสุด
  • Super ให้คะแนนเบนช์มาร์กสูงสุดและมุ่งเป้าการดีพลอยในดาต้าเซ็นเตอร์ที่ใช้ NVIDIA Hopper และ NVIDIA Blackwell GPU
  • Super เหมาะกับการสร้างข้อมูลสังเคราะห์ขนาดใหญ่และเวิร์กโหลดการให้เหตุผลทางฟิสิกส์ขั้นสูง

ชุดข้อมูลสาธารณะ

  • NVIDIA เปิดชุดข้อมูล synthetic data generation (SDG) จำนวน 6 ชุดบน Hugging Face พร้อมกับการเปิดตัว Cosmos 3
  • ชุดข้อมูลเหล่านี้ใช้สำหรับการฝึกต่อเนื่องของ Cosmos 3 และโมเดลอื่น ๆ ได้ โดยครอบคลุมหุ่นยนต์ การจำลองทางฟิสิกส์ การให้เหตุผลเชิงพื้นที่ การเคลื่อนไหวของมนุษย์ การขับขี่ และสภาพแวดล้อมคลังสินค้า
  • ชุดข้อมูลที่เปิดให้ใช้งาน:

เฟรมเวิร์กการประเมิน HUE

  • NVIDIA Cosmos Human Evaluation (HUE) ใช้ประเมินคุณภาพของ Cosmos 3 Generator ในงานตัวแทนของแต่ละโดเมน
  • เนื่องจากโมเดลสร้างวิดีโอล่าสุดเริ่มแตะจุดอิ่มตัวบนลีดเดอร์บอร์ดอัตโนมัติเดิม ความต่างของคะแนนระหว่างแต่ละรีลีสจึงมักไม่มากพอสำหรับการเปรียบเทียบอย่างมีนัยสำคัญ
  • HUE เปลี่ยนจากการให้คะแนนเชิงอัตวิสัยมาเป็นการตรวจสอบข้อเท็จจริงเชิงวัตถุวิสัย ทำให้เปรียบเทียบโมเดลชั้นนำกันได้ละเอียดขึ้น
  • HUE แยกวิดีโอที่สร้างออกเป็นคำถามข้อเท็จจริงแบบ yes/no รายข้อใน 4 มิติ
    • การจัดแนวเชิงความหมาย
    • กฎของฟิสิกส์
    • การให้เหตุผลเชิงเรขาคณิต
    • ความสมบูรณ์ของภาพ
  • คำถามครอบคลุม 7 โดเมนของ Physical AI รวมถึงหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และฟิสิกส์
  • คำถามถูกสร้างด้วย VLM pipeline และปรับแต่งโดยผู้เชี่ยวชาญมนุษย์ แล้วเปิดเป็นโอเพนซอร์สบน Hugging Face

ผลลัพธ์เบนช์มาร์ก

  • Cosmos 3 ถูกประเมินในหลายชุดเบนช์มาร์กที่ครอบคลุมการให้เหตุผลของ Physical AI คุณภาพการสร้าง และประสิทธิภาพเฉพาะโดเมน
  • ในเบนช์มาร์กด้านการให้เหตุผล Cosmos 3 Super และ Cosmos 3 Nano ขึ้นนำใน tier 32B และ tier 8B ของ VANTAGE-Bench ตามลำดับ
  • VANTAGE-Bench คือเบนช์มาร์กสาธารณะแรกที่ประเมิน vision-language model จากวิดีอกล้องนิ่งในโลกจริงของคลังสินค้า การจราจร และ smart space
  • Traffic Anomaly Reasoning (TAR) คือลีดเดอร์บอร์ดใหม่สำหรับตรวจจับและให้เหตุผลเกี่ยวกับเหตุการณ์ผิดปกติในวิดีโอการจราจร และเป็นลีดเดอร์บอร์ดอย่างเป็นทางการของ AI City Challenge 2026 Track 3
  • ในเบนช์มาร์กด้านการสร้าง Cosmos 3 เป็นโอเพนซอร์ส SOTA ตามลีดเดอร์บอร์ดสาธารณะ และขึ้นนำใน PAI-Bench, R-Bench, Physics-IQ และ RoboLab
  • บน Artificial Analysis Cosmos 3 ถูกจัดให้เป็นโมเดลโอเพนซอร์สชั้นนำใน Text to Image leaderboard และ Image to Video (no audio) leaderboard
  • R-Bench ใช้ประเมิน world model แบบอิงวิดีโอในการสร้างวิดีโอหุ่นยนต์ โดยมีตัวชี้วัดย่อย เช่น ความสอดคล้องเชิงโครงสร้าง ความสมเหตุสมผลทางฟิสิกส์ และความสมบูรณ์ของการปฏิบัติการ
  • PAI-Bench ใช้ประเมินความเข้าใจวิดีโอและการสร้างวิดีโอในโดเมนอย่างหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และสามัญสำนึกทางฟิสิกส์
  • Physics-IQ ใช้ทดสอบว่าโมเดลสร้างวิดีโอบรรลุเพียงความสมจริงทางภาพ หรือเข้าใจหลักฟิสิกส์จริงด้วย
  • RoboLab คือเบนช์มาร์กแบบจำลองสำหรับประเมินนโยบายหุ่นยนต์ที่ทำงานได้ครอบคลุมหลายงาน

สูตรการฝึกและการปรับให้เข้ากับโดเมน

  • รีลีสของ Cosmos 3 ไปไกลกว่า model checkpoint ด้วยการเปิดโค้ด คอนฟิก และเวิร์กโฟลว์ เพื่อให้สามารถปรับโมเดลให้เข้ากับโดเมน รูปแบบ และชุดข้อมูลใหม่ได้
  • การทำ supervised fine-tuning (SFT) ช่วยให้นักพัฒนาปรับ Cosmos 3 ให้เข้ากับข้อมูลของตนเองได้
  • สูตรที่เปิดเผยครอบคลุมการฝึกต่อเนื่องสำหรับ vision generation บนชุดข้อมูลวิดีโอแบบกำหนดเอง และสูตรที่เน้นการกระทำสำหรับเวิร์กโฟลว์ด้านหุ่นยนต์และ Physical AI
  • นักพัฒนาสามารถคัสตอม Cosmos 3 ให้เหมาะกับโดเมนเป้าหมายอย่างหุ่นยนต์ การขับขี่อัตโนมัติ และระบบอัตโนมัติในคลังสินค้า
  • โค้ดและคอนฟิกสำหรับการฝึกต่อเนื่อง มีให้บน GitHub
  • การฝึกต่อเนื่องด้านการกระทำช่วยปรับ Cosmos 3 ให้เหมาะกับแอปพลิเคชัน Physical AI ที่รับรู้การกระทำ เช่น forward dynamics, inverse dynamics และ policy generation
  • ในงานหุ่นยนต์ รองรับเวิร์กโฟลว์อย่างการสร้างการสังเกตในอนาคตโดยมีการกระทำของหุ่นยนต์เป็นเงื่อนไข การอนุมานการกระทำเบื้องหลังเดโมที่สังเกตได้ และการคาดการณ์ลำดับการกระทำจากการสังเกตปัจจุบันและ task prompt

การดีพลอยด้วย NIM microservices

  • โมเดล Cosmos 3 มีให้ใช้งานผ่าน NVIDIA NIM microservices ด้วย เพื่อการดีพลอยใช้งานจริงที่ปรับแต่งด้านประสิทธิภาพแล้ว
  • NIM microservices แพ็กโมเดลเข้ากับ runtime สำหรับการอนุมานที่ปรับแต่งแล้ว เพื่อให้ได้ประสิทธิภาพสูงโดยไม่ต้องจูน serving infrastructure ด้วยตนเอง
  • ในเวิร์กโฟลว์การอนุมาน NIM microservices ใช้งานง่ายกว่าที่เก็บ GitHub ของ Cosmos 3 ส่วนที่เก็บ GitHub เหมาะกับเวิร์กโฟลว์การฝึกต่อเนื่องมากกว่า
  • Cosmos 3 Reasoner NIM ให้ความสามารถด้านการอนุมานของโมเดล Cosmos 3 ในปัจจุบัน
  • NIM รองรับการเลือก quantized checkpoint แบบ BF16, FP8 และ NVFP4
  • การ quantization แบบ NVFP4 ลดความแม่นยำเชิงตัวเลขของโมเดลจาก BF16 ลงเป็น floating point 4 บิต เพื่อเพิ่มความเร็วการอนุมานได้สูงสุด 2 เท่า
  • สแตกการเสิร์ฟ Cosmos 3 Reasoner NIM สร้างบน vLLM ซึ่งเป็น inference engine แบบโอเพนซอร์สสำหรับเสิร์ฟ LLM อย่างมีประสิทธิภาพด้วยเทคนิคอย่าง continuous batching, paged attention และ tensor parallelism
  • Cosmos 3 Nano สามารถรันได้ด้วย vLLM-omni และ NVIDIA Dynamo
  • Efficient Video Sampling (EVS) ช่วยเร่งความเร็ว Cosmos Reason NIM โดยลดจำนวน video token ที่ป้อนเข้า VLM ระหว่างการอนุมาน
  • EVS จะคง chunk ที่มีความเป็นเอกลักษณ์ที่สุดไว้ในแต่ละเฟรมและตัดส่วนที่เหลือออก โดยเทคนิคนี้มักให้ประโยชน์มากขึ้นบน GPU ขนาดเล็ก

วิธีรัน

  • ต้องมี NVIDIA NGC API key เพื่อดึงคอนเทนเนอร์และดาวน์โหลดโมเดล Cosmos 3 จาก NGC
  • ตัวอย่างการรัน Cosmos 3 Nano Reasoner NIM มีดังนี้
  • หากต้องการใช้ Cosmos 3 Super Reasoner NIM ให้กำหนด NIM_MODEL_SIZE=super
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
  • ดูวิธีใช้ API และข้อมูลเพิ่มเติมได้ในเอกสาร

แหล่งข้อมูลเริ่มต้น

1 ความคิดเห็น

 
GN⁺ 3 시간 전
ความเห็นจาก Hacker News
  • เป็น โมเดลโอเพนซอร์สล้ำสมัย สำหรับการสร้างภาพและวิดีโอ
    เหนือกว่าโมเดลอื่นหลายตัว แต่ด้วยขนาด 64 พันล้านพารามิเตอร์ จึงใหญ่เกินกว่าจะรันบนคอมพิวเตอร์ส่วนบุคคลส่วนใหญ่ได้
    ถึงอย่างนั้นก็ยังน่าประทับใจเมื่อคำนึงว่ามันใช้ชุดข้อมูลฝึกที่สร้างขึ้นแบบสังเคราะห์
    ชนะ Nano Banana 1 ได้ แต่ยังไม่ถึงระดับที่จะไปแข่งกับ Nano Banana 2, Seedance2 หรือ Grok Imagine ได้

    • มันชวนประชดเศร้านิด ๆ ที่เดี๋ยวนี้พอเห็นโพสต์เปิดตัวสินค้าจากบริษัทยักษ์ใหญ่ ก็ไม่แม้แต่จะคลิกแล้วรีบไปอ่านคอมเมนต์ทันที
      ประกาศผลิตภัณฑ์จากองค์กรจำนวนมากมักอธิบายข้อเท็จจริงพื้นฐานได้ไม่ชัดเจนแม้แต่ในเก้าคำแรก
      แต่มีนัยสำคัญที่หายไปอยู่อย่างหนึ่ง คือมันเป็น world model ที่เล็งไว้เพื่อให้มีประโยชน์ต่อการฝึก AI สำหรับหุ่นยนต์และรถยนต์ไร้คนขับ
      เพราะงั้นมันจึงไม่ใช่คู่แข่งตรงของ Nano Banana หรือ Seedance เท่าไรนัก แม้จะสร้างภาพและวิดีโอได้ แต่แก่นหลักคือการจัดเตรียมข้อมูลทางฟิสิกส์และ harness สำหรับสถานการณ์การฝึก AI
    • โมเดลสร้างภาพและวิดีโอเข้าใจได้ง่ายกว่าในฐานะ เกณฑ์ตรวจสอบความเป็นจริง ที่ใช้วัดว่าโมเดลโลคัลเข้าใกล้โมเดลแนวหน้าได้มากแค่ไหน
  • “Cosmos 3 Nano เป็นเวอร์ชันขนาดเล็กที่มี 16 พันล้านพารามิเตอร์ และได้รับการปรับให้เหมาะกับการอนุมานอย่างมีประสิทธิภาพ ออกแบบมาเพื่อรันการอนุมานด้านหุ่นยนต์แบบเรียลไทม์และแอปพลิเคชัน physical AI บนสภาพแวดล้อมประมวลผลระดับเวิร์กสเตชัน เช่น GPU NVIDIA RTX PRO 6000”
    ตั้งตารอวันที่จะได้ลองรันสิ่งนี้บน GPU ระดับเวิร์กสเตชันราคาเกิน 10,000 ดอลลาร์ พร้อมชุดติดตั้งแพงพอ ๆ กัน

    • มี GPU แต่ไม่มีหุ่นยนต์ ถ้าจะลองเล่นกับมัน ต้องมี หุ่นยนต์ขั้นต่ำที่ใช้งานได้ ระดับไหน?
    • ข่าวดีคือ Nvidia คงยินดีขาย แล็ปท็อป RTX Spark รุ่นใหม่ที่รันสิ่งนี้ได้ให้คุณ
  • รีลีสนี้รวมความสามารถต่าง ๆ ด้วยสถาปัตยกรรม Mixture-of-Transformers (MoT) ที่มีสองทาวเวอร์เป็นแกนกลาง
    ทาวเวอร์สำหรับการให้เหตุผลเป็น vision-language model (VLM) ทำหน้าที่เป็น “สมอง” ที่ใช้ให้เหตุผลเกี่ยวกับโลกก่อนที่การสร้างจะเกิดขึ้น
    ทาวเวอร์สำหรับการสร้างจะสร้างการสังเกตในอนาคตและลำดับการกระทำ โดยใช้ความเข้าใจจากทาวเวอร์ให้เหตุผลเป็นเงื่อนไข เพื่อสร้างวิดีโอและเอาต์พุตการกระทำที่คำนึงถึงฟิสิกส์ผ่านกระบวนการแบบ diffusion
    วิธีนี้กระตุ้นสัญชาตญาณแบบวิศวกรที่อยากเพิ่มประสิทธิภาพการแลกเปลี่ยนและปรับสมดุลระหว่างโครงสร้างโมเดล เพื่อรวมข้อดีของทั้งสองแบบ
    แต่ตามที่ฉันเข้าใจ Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) นี่เป็นทิศทางที่ผิดพลาดอย่างพอดีในระยะยาว
    ที่ลิงก์บทความต้นฉบับของ Bitter Lesson ก็เพราะรู้สึกว่าแนวคิดนี้มักถูกเข้าใจผิด หรืออย่างน้อยก็ไม่เห็นด้วยกับวิธีที่มันถูกใช้ในวงสนทนา
    ใจความสำคัญคือเป็นข้อสังเกตทางประวัติศาสตร์ว่า นักวิจัย AI พยายามฝังความรู้ลงในเอเจนต์ ซึ่งช่วยได้ในระยะสั้นและทำให้นักวิจัยรู้สึกพึงพอใจ แต่ในระยะยาวมันกลับหยุดนิ่งและขัดขวางความก้าวหน้า แล้วสุดท้ายแนวทางตรงกันข้ามคือการขยายการคำนวณผ่านการค้นหาและการเรียนรู้ต่างหากที่สร้างจุดทะลุ
    โครงสร้างนี้ให้ความรู้สึกเหมือนการฝังความรู้ที่ช่วยได้ระยะสั้นลงในเอเจนต์ และมีโอกาสสูงที่จะ หยุดนิ่ง ในระยะยาว
    แน่นอนว่าอาจยังมีการเรียนรู้หรือผลลัพธ์ที่น่าสนใจเกิดขึ้นบนมันได้ แต่ฉันไม่คิดว่าวิธีแบบนี้จะเค้นอะไรออกมาได้มากนัก

    • สำหรับฉันกลับรู้สึกตรงกันข้าม
      โครงสร้าง MoT ดูเหมือนอุดมคติที่ Bitter Lesson ชี้เป็นนัยไว้เสียมากกว่า คือเอาข้อมูลทุกรูปแบบอย่างเสียง ภาพ ข้อความ การกระทำ และวิดีโอ ใส่ลงใน พื้นที่แฝงร่วมกัน แล้วปล่อยให้โมเดลจัดการเอง
      มันใกล้เคียงกับการมีโครงสร้างเท่าที่จำเป็นเพื่อรองรับความต้องการและรูปแบบเอาต์พุตที่ต่างกัน เช่น ใช้การประมวลผลแบบ autoregressive สำหรับการทำลำดับ/การพยากรณ์ และใช้ diffusion สำหรับการสร้าง
    • โดยมากแล้วนี่ใกล้เคียงกับ การคลายการบีบอัด และทุกวันนี้ก็เป็นแนวทางค่อนข้างมาตรฐาน
      เป้าหมายคือดึงข้อมูลออกจากตัวแทนแบบบีบอัดภายในให้อยู่ในรูปที่มนุษย์ใช้งานได้
      ในทางเทคนิคก็อนุมานได้แม้จากการเข้ารหัสระดับพิกเซลหรือตัวอักษร แต่โดยทั่วไปจะแพงกว่ามาก
      มองเทคนิคทั้งหมดนี้เป็นวิธีทำให้คอมพิวเตอร์ทำงานได้เร็วขึ้นก็ได้
      เห็นได้ใน Qwen talker หรือ multimodal projector ส่วนใหญ่เช่นกัน
    • แต่โมเดลนี้มี ขอบเขตโดเมน กว้างกว่า LLM แบบข้อความ
      เพราะรับอินพุตวิดีโอได้ด้วย จึงกว้างกว่าโมเดลออมนิรุ่นก่อน ๆ เสียอีก
      โครงสร้างอาจจะแปลกอยู่บ้าง แต่ก็ดูไม่ใช่การจูนแบบสุดโต่งไปกว่าโอเพนโมเดลที่ปล่อยออกมาทุกวัน
  • ตัวอย่างวิดีโอความปลอดภัยในคลังสินค้านี่ตลกมาก ผู้คน ไม่ตอบสนองอะไรเลย

    • วิดีโอรถยนต์ก็แปลก ๆ รถตู้ที่วิ่งตัดผ่านฝ่าไฟแดงไปอย่างชัดเจน
      เงาขนาดใหญ่ของเสาไฟถนนที่ทอดลงบนทางแยกก็ดูไม่สมเหตุสมผลเอาเสียเลย
  • ดีไซน์ Mixture-of-Transformers แบบสองทาวเวอร์นี้ ที่ให้ตัวให้เหตุผลแบบ autoregressive ป้อนอินพุตให้ตัวสร้างแบบ diffusion เป็นการเดิมพันเชิงสถาปัตยกรรมที่น่าสนใจ

  • เข้าใจยากว่ามันทำอะไร
    คำว่า “สร้างการสังเกตในอนาคตและลำดับการกระทำ” นี่เป็นแค่คำพูดซับซ้อนของการสร้างวิดีโอหรือเปล่า?

    • ไม่ใช่ ความต่างอยู่ที่ส่วนของ การกระทำ
      world model นี้กำหนดเงื่อนไขด้วยสิ่งอย่างการกระทำของหุ่นยนต์ ดังนั้นจึงทำได้สองอย่างที่การสร้างวิดีโออย่างเดียวทำไม่ได้
      มันทำนายเฟรมอนาคตที่ตามมาหลังการกระทำที่กำหนดได้ และแม้จะเริ่มจากเฟรมตั้งต้นเดียวกัน ถ้าเปลี่ยนการกระทำก็จะได้อนาคตที่ต่างออกไป
      อีกทั้งยังรันย้อนกลับเพื่ออนุมานการกระทำที่อยู่หลังเฟรมที่สังเกตได้ หรือให้เอาต์พุตเป็นการกระทำที่จำเป็นต่อการไปถึงเป้าหมาย
      ในกรณีนั้นเอาต์พุตจะไม่ใช่เฟรมวิดีโอ แต่เป็นคำสั่งมอเตอร์
    • เท่าที่ฉันเข้าใจ มันหมายถึงทั้งคอมพิวเตอร์วิทัศน์และการสร้างวิดีโอ แล้วเชื่อมสองอย่างนั้นเข้าด้วยกันเป็น world model ที่ค่อนข้างแข็งแรง
      หนึ่งในตัวอย่างที่โฮสต์ไว้ทำเพียงการวิเคราะห์วิดีโอแบบเดิม ส่วนอีกตัวทำการทำนายวิดีโอจากภาพนิ่ง กล่าวคือเป็นการสร้างวิดีโอ
    • ถ้าลองนึกว่ามันคืออะไรและทำไมถึงอธิบายแบบนั้น วงการหุ่นยนต์ AI น่าจะต้องการ เอนจินเกมแบบเหนือจริง ที่มีฟิสิกส์ดีกว่า rigid-body physics แบบดัดแปลงไม่ได้ใน Unity หรือ Unreal
      และในเวลาเดียวกันก็ต้องเร็วกว่าการจำลองเชิงวิศวกรรมแบบ finite element มาก ๆ เมื่อเทียบกับความเร็วจริง 1x ซึ่งโมเดลนี้ก็ดูเหมือนจะเล็งไปที่ความต้องการนั้น
    • ดูจากตารางรูปแบบที่รองรับก็ได้ รับอินพุตเป็นภาพ วิดีโอ ข้อความ การกระทำ และส่งออกเป็นภาพ วิดีโอ ข้อความ การกระทำได้
    • มันใช้สร้างข้อมูลสังเคราะห์เพื่อฝึก physical AI อย่างหุ่นยนต์ รถยนต์ หรือโดรนได้
      สามารถจำลองโลกในมุมมองบุคคลที่หนึ่งเพื่อสร้างข้อมูลฝึก โดยไม่ต้องส่งหุ่นยนต์เข้าไปในบ้านของผู้คนจริง ๆ
  • ตัวอย่างที่เลือกมาส่วนใหญ่ดูไม่ค่อยดีเท่าไร
    ให้ความรู้สึกเหมือนเอนจินเกมแย่ ๆ ผสมกับ เศษซาก AI อย่างประหลาด
    นึกยากว่าสิ่งนี้จะเป็นข้อมูลฝึกที่ดีสำหรับการใช้งานจริงได้

    • เดโมพวกนี้พูดตรง ๆ ว่าดูดีใช้ได้เลย
      และการที่เทคโนโลยีแบบนี้กับของคล้ายกันถูกใช้ในสเกลใหญ่โดยผู้ผลิตรถไร้คนขับชั้นนำทุกรายก็เป็นข้อเท็จจริงเชิงวัตถุวิสัย ดังนั้นถ้ามองแบบอุปนัย ก็น่าจะดีพอสำหรับงานใช้งานนั้น
      ฉันไม่ได้ทำงานใน Cosmos แต่ตอนนี้กำลังทำเทคโนโลยีปิดที่ภายนอกดูคล้ายกันอยู่ที่ Nvidia และมีผู้เล่นชั้นนำจำนวนมากใช้อยู่
      ในความเห็นฉัน คุณภาพก็ใกล้เคียงกัน
      งานวิจัยสาธารณะที่เกี่ยวข้องบางส่วนอยู่ที่นี่
      https://github.com/nv-tlabs/3dgrut/
      https://github.com/NVIDIA/harmonizer
      https://github.com/NVIDIA/instant-nurec
      https://github.com/nvidia/ncore
      Nvidia ยังผสาน Gsplat เข้ากับอย่างน้อยบางส่วนของงานที่ฉันทำ และก็มีส่วนร่วมกับ upstream ด้วย
      https://github.com/nerfstudio-project/gsplat
  • น่าขำที่ทั้ง ๆ ที่มีความก้าวหน้าทางเทคโนโลยีมากมาย แต่เว็บไซต์กลับยังรับมือกับ โหลดสูง ได้อย่างลำบาก