Nvidia Cosmos 3

(developer.nvidia.com)

1 คะแนน โดย GN⁺ 2026-06-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

NVIDIA Cosmos 3 คือโมเดลฐานแบบเปิดเดี่ยวสำหรับ Physical AI ที่รวมการให้เหตุผลทางฟิสิกส์ การสร้างโลก และการสร้างการกระทำไว้ในโมเดลเดียว
สถาปัตยกรรม Mixture-of-Transformers แยกเป็น Reasoner tower และ Generator tower เพื่อเชื่อมความเข้าใจอินพุตกับเอาต์พุตการสร้างที่รับรู้ฟิสิกส์ พร้อมลดความจำเป็นในการประสานหลายโมเดลและหลาย inference pipeline
Cosmos 3 Nano มีพารามิเตอร์ 16B มุ่งเป้าการอนุมานระดับเวิร์กสเตชัน และ Cosmos 3 Super มีพารามิเตอร์ 64B มุ่งเป้าการดีพลอยในดาต้าเซ็นเตอร์และการสร้างข้อมูลสังเคราะห์คุณภาพสูง
NVIDIA เปิดให้ใช้งาน model checkpoint, สคริปต์การฝึก, เครื่องมือดีพลอย, ชุดข้อมูลสังเคราะห์ 6 ชุด และ NIM microservices เพื่อรองรับการปรับให้เข้ากับโดเมนอย่างหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และระบบอัตโนมัติในคลังสินค้า
ใน HUE และเบนช์มาร์กสาธารณะหลายรายการ Cosmos 3 ถูกประเมินด้านการให้เหตุผลของ Physical AI คุณภาพการสร้าง และประสิทธิภาพเฉพาะโดเมน โดย Super และ Nano ขึ้นนำใน tier 32B และ 8B ของ VANTAGE-Bench ตามลำดับ

การเปลี่ยนแปลงสำคัญของ Cosmos 3

NVIDIA Cosmos 3 คือโมเดลฐานระดับแนวหน้าที่ออกแบบมาสำหรับระบบ Physical AI เช่น หุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และ smart space ให้สามารถเข้าใจโลก คาดการณ์สถานการณ์ถัดไป และสร้างการกระทำที่เหมาะกับสภาพแวดล้อม รูปแบบ และงานเฉพาะได้
Cosmos รุ่นก่อนหน้าแยกการสร้างโลก ความเข้าใจฟิสิกส์ และการสร้างฉากแบบควบคุมออกเป็นคนละโมเดลและคนละเวิร์กโฟลว์ แต่ Cosmos 3 รวมทั้งหมดนี้ไว้ในโมเดลเดียว
รีลีสครั้งนี้มี model checkpoint บน Hugging Face, โค้ดบน GitHub, ชุดข้อมูลสาธารณะ, สคริปต์การฝึกต่อเนื่อง และ Cosmos NIM microservices สำหรับการดีพลอยบน NVIDIA GPU

โครงสร้างแบบสองทาวเวอร์

Cosmos 3 ใช้สถาปัตยกรรม Mixture-of-Transformers ที่มีสองทาวเวอร์เป็นแกนหลัก
Reasoner tower คือ vision-language model (VLM) ที่ตีความการสังเกตแบบหลายโมดัล เช่น ภาพ วิดีโอ และข้อความ โดยใช้โครงสร้าง autoregressive เพื่อแปลความอินพุตและเข้าใจการเคลื่อนไหว ปฏิสัมพันธ์ของวัตถุ และบริบททางฟิสิกส์
Generator tower ใช้ความเข้าใจจาก Reasoner tower เป็นเงื่อนไขในการสร้างวิดีโอและเอาต์พุตการกระทำที่รับรู้ฟิสิกส์ผ่านกระบวนการแบบ diffusion
สามารถเรียกใช้ Reasoner แยกเดี่ยวได้ แต่ Generator จะเปิดใช้ทั้งสองทาวเวอร์เสมอเพื่อการสร้างแบบมีตัวนำทาง
โครงสร้างนี้ทำให้งานอนุมานและงานสร้างอยู่ในโมเดลเดียว ลดการออร์เคสเตรตระหว่างหลายโมเดลและหลาย inference pipeline

การเลือกขนาดโมเดล

Cosmos 3 Nano เป็นโมเดลขนาดกะทัดรัดที่มีพารามิเตอร์ 16B และปรับแต่งมาสำหรับการอนุมานอย่างมีประสิทธิภาพ
Nano ออกแบบมาสำหรับรันการอนุมานด้านหุ่นยนต์แบบเรียลไทม์และแอปพลิเคชัน Physical AI บนคอมพิวต์ระดับเวิร์กสเตชัน เช่น NVIDIA RTX PRO 6000 GPU
Cosmos 3 Super เป็นโมเดลขนาด 64B พารามิเตอร์ที่มุ่งเน้นคุณภาพและความสามารถสูงสุด
Super ให้คะแนนเบนช์มาร์กสูงสุดและมุ่งเป้าการดีพลอยในดาต้าเซ็นเตอร์ที่ใช้ NVIDIA Hopper และ NVIDIA Blackwell GPU
Super เหมาะกับการสร้างข้อมูลสังเคราะห์ขนาดใหญ่และเวิร์กโหลดการให้เหตุผลทางฟิสิกส์ขั้นสูง

ชุดข้อมูลสาธารณะ

NVIDIA เปิดชุดข้อมูล synthetic data generation (SDG) จำนวน 6 ชุดบน Hugging Face พร้อมกับการเปิดตัว Cosmos 3
ชุดข้อมูลเหล่านี้ใช้สำหรับการฝึกต่อเนื่องของ Cosmos 3 และโมเดลอื่น ๆ ได้ โดยครอบคลุมหุ่นยนต์ การจำลองทางฟิสิกส์ การให้เหตุผลเชิงพื้นที่ การเคลื่อนไหวของมนุษย์ การขับขี่ และสภาพแวดล้อมคลังสินค้า
ชุดข้อมูลที่เปิดให้ใช้งาน:

เฟรมเวิร์กการประเมิน HUE

NVIDIA Cosmos Human Evaluation (HUE) ใช้ประเมินคุณภาพของ Cosmos 3 Generator ในงานตัวแทนของแต่ละโดเมน
เนื่องจากโมเดลสร้างวิดีโอล่าสุดเริ่มแตะจุดอิ่มตัวบนลีดเดอร์บอร์ดอัตโนมัติเดิม ความต่างของคะแนนระหว่างแต่ละรีลีสจึงมักไม่มากพอสำหรับการเปรียบเทียบอย่างมีนัยสำคัญ
HUE เปลี่ยนจากการให้คะแนนเชิงอัตวิสัยมาเป็นการตรวจสอบข้อเท็จจริงเชิงวัตถุวิสัย ทำให้เปรียบเทียบโมเดลชั้นนำกันได้ละเอียดขึ้น
HUE แยกวิดีโอที่สร้างออกเป็นคำถามข้อเท็จจริงแบบ yes/no รายข้อใน 4 มิติ
- การจัดแนวเชิงความหมาย
- กฎของฟิสิกส์
- การให้เหตุผลเชิงเรขาคณิต
- ความสมบูรณ์ของภาพ
คำถามครอบคลุม 7 โดเมนของ Physical AI รวมถึงหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และฟิสิกส์
คำถามถูกสร้างด้วย VLM pipeline และปรับแต่งโดยผู้เชี่ยวชาญมนุษย์ แล้วเปิดเป็นโอเพนซอร์สบน Hugging Face

ผลลัพธ์เบนช์มาร์ก

Cosmos 3 ถูกประเมินในหลายชุดเบนช์มาร์กที่ครอบคลุมการให้เหตุผลของ Physical AI คุณภาพการสร้าง และประสิทธิภาพเฉพาะโดเมน
ในเบนช์มาร์กด้านการให้เหตุผล Cosmos 3 Super และ Cosmos 3 Nano ขึ้นนำใน tier 32B และ tier 8B ของ VANTAGE-Bench ตามลำดับ
VANTAGE-Bench คือเบนช์มาร์กสาธารณะแรกที่ประเมิน vision-language model จากวิดีอกล้องนิ่งในโลกจริงของคลังสินค้า การจราจร และ smart space
Traffic Anomaly Reasoning (TAR) คือลีดเดอร์บอร์ดใหม่สำหรับตรวจจับและให้เหตุผลเกี่ยวกับเหตุการณ์ผิดปกติในวิดีโอการจราจร และเป็นลีดเดอร์บอร์ดอย่างเป็นทางการของ AI City Challenge 2026 Track 3
ในเบนช์มาร์กด้านการสร้าง Cosmos 3 เป็นโอเพนซอร์ส SOTA ตามลีดเดอร์บอร์ดสาธารณะ และขึ้นนำใน PAI-Bench, R-Bench, Physics-IQ และ RoboLab
บน Artificial Analysis Cosmos 3 ถูกจัดให้เป็นโมเดลโอเพนซอร์สชั้นนำใน Text to Image leaderboard และ Image to Video (no audio) leaderboard
R-Bench ใช้ประเมิน world model แบบอิงวิดีโอในการสร้างวิดีโอหุ่นยนต์ โดยมีตัวชี้วัดย่อย เช่น ความสอดคล้องเชิงโครงสร้าง ความสมเหตุสมผลทางฟิสิกส์ และความสมบูรณ์ของการปฏิบัติการ
PAI-Bench ใช้ประเมินความเข้าใจวิดีโอและการสร้างวิดีโอในโดเมนอย่างหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และสามัญสำนึกทางฟิสิกส์
Physics-IQ ใช้ทดสอบว่าโมเดลสร้างวิดีโอบรรลุเพียงความสมจริงทางภาพ หรือเข้าใจหลักฟิสิกส์จริงด้วย
RoboLab คือเบนช์มาร์กแบบจำลองสำหรับประเมินนโยบายหุ่นยนต์ที่ทำงานได้ครอบคลุมหลายงาน

สูตรการฝึกและการปรับให้เข้ากับโดเมน

รีลีสของ Cosmos 3 ไปไกลกว่า model checkpoint ด้วยการเปิดโค้ด คอนฟิก และเวิร์กโฟลว์ เพื่อให้สามารถปรับโมเดลให้เข้ากับโดเมน รูปแบบ และชุดข้อมูลใหม่ได้
การทำ supervised fine-tuning (SFT) ช่วยให้นักพัฒนาปรับ Cosmos 3 ให้เข้ากับข้อมูลของตนเองได้
สูตรที่เปิดเผยครอบคลุมการฝึกต่อเนื่องสำหรับ vision generation บนชุดข้อมูลวิดีโอแบบกำหนดเอง และสูตรที่เน้นการกระทำสำหรับเวิร์กโฟลว์ด้านหุ่นยนต์และ Physical AI
นักพัฒนาสามารถคัสตอม Cosmos 3 ให้เหมาะกับโดเมนเป้าหมายอย่างหุ่นยนต์ การขับขี่อัตโนมัติ และระบบอัตโนมัติในคลังสินค้า
โค้ดและคอนฟิกสำหรับการฝึกต่อเนื่อง มีให้บน GitHub
การฝึกต่อเนื่องด้านการกระทำช่วยปรับ Cosmos 3 ให้เหมาะกับแอปพลิเคชัน Physical AI ที่รับรู้การกระทำ เช่น forward dynamics, inverse dynamics และ policy generation
ในงานหุ่นยนต์ รองรับเวิร์กโฟลว์อย่างการสร้างการสังเกตในอนาคตโดยมีการกระทำของหุ่นยนต์เป็นเงื่อนไข การอนุมานการกระทำเบื้องหลังเดโมที่สังเกตได้ และการคาดการณ์ลำดับการกระทำจากการสังเกตปัจจุบันและ task prompt

การดีพลอยด้วย NIM microservices

โมเดล Cosmos 3 มีให้ใช้งานผ่าน NVIDIA NIM microservices ด้วย เพื่อการดีพลอยใช้งานจริงที่ปรับแต่งด้านประสิทธิภาพแล้ว
NIM microservices แพ็กโมเดลเข้ากับ runtime สำหรับการอนุมานที่ปรับแต่งแล้ว เพื่อให้ได้ประสิทธิภาพสูงโดยไม่ต้องจูน serving infrastructure ด้วยตนเอง
ในเวิร์กโฟลว์การอนุมาน NIM microservices ใช้งานง่ายกว่าที่เก็บ GitHub ของ Cosmos 3 ส่วนที่เก็บ GitHub เหมาะกับเวิร์กโฟลว์การฝึกต่อเนื่องมากกว่า
Cosmos 3 Reasoner NIM ให้ความสามารถด้านการอนุมานของโมเดล Cosmos 3 ในปัจจุบัน
NIM รองรับการเลือก quantized checkpoint แบบ BF16, FP8 และ NVFP4
การ quantization แบบ NVFP4 ลดความแม่นยำเชิงตัวเลขของโมเดลจาก BF16 ลงเป็น floating point 4 บิต เพื่อเพิ่มความเร็วการอนุมานได้สูงสุด 2 เท่า
สแตกการเสิร์ฟ Cosmos 3 Reasoner NIM สร้างบน vLLM ซึ่งเป็น inference engine แบบโอเพนซอร์สสำหรับเสิร์ฟ LLM อย่างมีประสิทธิภาพด้วยเทคนิคอย่าง continuous batching, paged attention และ tensor parallelism
Cosmos 3 Nano สามารถรันได้ด้วย vLLM-omni และ NVIDIA Dynamo
Efficient Video Sampling (EVS) ช่วยเร่งความเร็ว Cosmos Reason NIM โดยลดจำนวน video token ที่ป้อนเข้า VLM ระหว่างการอนุมาน
EVS จะคง chunk ที่มีความเป็นเอกลักษณ์ที่สุดไว้ในแต่ละเฟรมและตัดส่วนที่เหลือออก โดยเทคนิคนี้มักให้ประโยชน์มากขึ้นบน GPU ขนาดเล็ก

วิธีรัน

ต้องมี NVIDIA NGC API key เพื่อดึงคอนเทนเนอร์และดาวน์โหลดโมเดล Cosmos 3 จาก NGC
ตัวอย่างการรัน Cosmos 3 Nano Reasoner NIM มีดังนี้
หากต้องการใช้ Cosmos 3 Super Reasoner NIM ให้กำหนด NIM_MODEL_SIZE=super

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

ดูวิธีใช้ API และข้อมูลเพิ่มเติมได้ในเอกสาร

แหล่งข้อมูลเริ่มต้น

สามารถดาวน์โหลด checkpoint ของ Cosmos 3 Nano และ Super ได้จาก Hugging Face
ดูตัวอย่างและโค้ดได้ที่ Cosmos 3 GitHub
สามารถทดลอง Cosmos 3 Nano Reasoner model experience และ Cosmos 3 Nano model experience
เข้าร่วม ecosystem ของ Cosmos เปิด issue และมีส่วนร่วมได้ผ่าน GitHub และ Discord

1 ความคิดเห็น

GN⁺ 2026-06-02

ความเห็นจาก Hacker News

เป็น โมเดลโอเพนซอร์สล้ำสมัย สำหรับการสร้างภาพและวิดีโอ
เหนือกว่าโมเดลอื่นหลายตัว แต่ด้วยขนาด 64 พันล้านพารามิเตอร์ จึงใหญ่เกินกว่าจะรันบนคอมพิวเตอร์ส่วนบุคคลส่วนใหญ่ได้
ถึงอย่างนั้นก็ยังน่าประทับใจเมื่อคำนึงว่ามันใช้ชุดข้อมูลฝึกที่สร้างขึ้นแบบสังเคราะห์
ชนะ Nano Banana 1 ได้ แต่ยังไม่ถึงระดับที่จะไปแข่งกับ Nano Banana 2, Seedance2 หรือ Grok Imagine ได้
- มันชวนประชดเศร้านิด ๆ ที่เดี๋ยวนี้พอเห็นโพสต์เปิดตัวสินค้าจากบริษัทยักษ์ใหญ่ ก็ไม่แม้แต่จะคลิกแล้วรีบไปอ่านคอมเมนต์ทันที
  ประกาศผลิตภัณฑ์จากองค์กรจำนวนมากมักอธิบายข้อเท็จจริงพื้นฐานได้ไม่ชัดเจนแม้แต่ในเก้าคำแรก
  แต่มีนัยสำคัญที่หายไปอยู่อย่างหนึ่ง คือมันเป็น world model ที่เล็งไว้เพื่อให้มีประโยชน์ต่อการฝึก AI สำหรับหุ่นยนต์และรถยนต์ไร้คนขับ
  เพราะงั้นมันจึงไม่ใช่คู่แข่งตรงของ Nano Banana หรือ Seedance เท่าไรนัก แม้จะสร้างภาพและวิดีโอได้ แต่แก่นหลักคือการจัดเตรียมข้อมูลทางฟิสิกส์และ harness สำหรับสถานการณ์การฝึก AI
- โมเดลสร้างภาพและวิดีโอเข้าใจได้ง่ายกว่าในฐานะ เกณฑ์ตรวจสอบความเป็นจริง ที่ใช้วัดว่าโมเดลโลคัลเข้าใกล้โมเดลแนวหน้าได้มากแค่ไหน
“Cosmos 3 Nano เป็นเวอร์ชันขนาดเล็กที่มี 16 พันล้านพารามิเตอร์ และได้รับการปรับให้เหมาะกับการอนุมานอย่างมีประสิทธิภาพ ออกแบบมาเพื่อรันการอนุมานด้านหุ่นยนต์แบบเรียลไทม์และแอปพลิเคชัน physical AI บนสภาพแวดล้อมประมวลผลระดับเวิร์กสเตชัน เช่น GPU NVIDIA RTX PRO 6000”
ตั้งตารอวันที่จะได้ลองรันสิ่งนี้บน GPU ระดับเวิร์กสเตชันราคาเกิน 10,000 ดอลลาร์ พร้อมชุดติดตั้งแพงพอ ๆ กัน
- มี GPU แต่ไม่มีหุ่นยนต์ ถ้าจะลองเล่นกับมัน ต้องมี หุ่นยนต์ขั้นต่ำที่ใช้งานได้ ระดับไหน?
- ข่าวดีคือ Nvidia คงยินดีขาย แล็ปท็อป RTX Spark รุ่นใหม่ที่รันสิ่งนี้ได้ให้คุณ
รีลีสนี้รวมความสามารถต่าง ๆ ด้วยสถาปัตยกรรม Mixture-of-Transformers (MoT) ที่มีสองทาวเวอร์เป็นแกนกลาง
ทาวเวอร์สำหรับการให้เหตุผลเป็น vision-language model (VLM) ทำหน้าที่เป็น “สมอง” ที่ใช้ให้เหตุผลเกี่ยวกับโลกก่อนที่การสร้างจะเกิดขึ้น
ทาวเวอร์สำหรับการสร้างจะสร้างการสังเกตในอนาคตและลำดับการกระทำ โดยใช้ความเข้าใจจากทาวเวอร์ให้เหตุผลเป็นเงื่อนไข เพื่อสร้างวิดีโอและเอาต์พุตการกระทำที่คำนึงถึงฟิสิกส์ผ่านกระบวนการแบบ diffusion
วิธีนี้กระตุ้นสัญชาตญาณแบบวิศวกรที่อยากเพิ่มประสิทธิภาพการแลกเปลี่ยนและปรับสมดุลระหว่างโครงสร้างโมเดล เพื่อรวมข้อดีของทั้งสองแบบ
แต่ตามที่ฉันเข้าใจ Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) นี่เป็นทิศทางที่ผิดพลาดอย่างพอดีในระยะยาว
ที่ลิงก์บทความต้นฉบับของ Bitter Lesson ก็เพราะรู้สึกว่าแนวคิดนี้มักถูกเข้าใจผิด หรืออย่างน้อยก็ไม่เห็นด้วยกับวิธีที่มันถูกใช้ในวงสนทนา
ใจความสำคัญคือเป็นข้อสังเกตทางประวัติศาสตร์ว่า นักวิจัย AI พยายามฝังความรู้ลงในเอเจนต์ ซึ่งช่วยได้ในระยะสั้นและทำให้นักวิจัยรู้สึกพึงพอใจ แต่ในระยะยาวมันกลับหยุดนิ่งและขัดขวางความก้าวหน้า แล้วสุดท้ายแนวทางตรงกันข้ามคือการขยายการคำนวณผ่านการค้นหาและการเรียนรู้ต่างหากที่สร้างจุดทะลุ
โครงสร้างนี้ให้ความรู้สึกเหมือนการฝังความรู้ที่ช่วยได้ระยะสั้นลงในเอเจนต์ และมีโอกาสสูงที่จะ หยุดนิ่ง ในระยะยาว
แน่นอนว่าอาจยังมีการเรียนรู้หรือผลลัพธ์ที่น่าสนใจเกิดขึ้นบนมันได้ แต่ฉันไม่คิดว่าวิธีแบบนี้จะเค้นอะไรออกมาได้มากนัก
- สำหรับฉันกลับรู้สึกตรงกันข้าม
  โครงสร้าง MoT ดูเหมือนอุดมคติที่ Bitter Lesson ชี้เป็นนัยไว้เสียมากกว่า คือเอาข้อมูลทุกรูปแบบอย่างเสียง ภาพ ข้อความ การกระทำ และวิดีโอ ใส่ลงใน พื้นที่แฝงร่วมกัน แล้วปล่อยให้โมเดลจัดการเอง
  มันใกล้เคียงกับการมีโครงสร้างเท่าที่จำเป็นเพื่อรองรับความต้องการและรูปแบบเอาต์พุตที่ต่างกัน เช่น ใช้การประมวลผลแบบ autoregressive สำหรับการทำลำดับ/การพยากรณ์ และใช้ diffusion สำหรับการสร้าง
- โดยมากแล้วนี่ใกล้เคียงกับ การคลายการบีบอัด และทุกวันนี้ก็เป็นแนวทางค่อนข้างมาตรฐาน
  เป้าหมายคือดึงข้อมูลออกจากตัวแทนแบบบีบอัดภายในให้อยู่ในรูปที่มนุษย์ใช้งานได้
  ในทางเทคนิคก็อนุมานได้แม้จากการเข้ารหัสระดับพิกเซลหรือตัวอักษร แต่โดยทั่วไปจะแพงกว่ามาก
  มองเทคนิคทั้งหมดนี้เป็นวิธีทำให้คอมพิวเตอร์ทำงานได้เร็วขึ้นก็ได้
  เห็นได้ใน Qwen talker หรือ multimodal projector ส่วนใหญ่เช่นกัน
- แต่โมเดลนี้มี ขอบเขตโดเมน กว้างกว่า LLM แบบข้อความ
  เพราะรับอินพุตวิดีโอได้ด้วย จึงกว้างกว่าโมเดลออมนิรุ่นก่อน ๆ เสียอีก
  โครงสร้างอาจจะแปลกอยู่บ้าง แต่ก็ดูไม่ใช่การจูนแบบสุดโต่งไปกว่าโอเพนโมเดลที่ปล่อยออกมาทุกวัน
ตัวอย่างวิดีโอความปลอดภัยในคลังสินค้านี่ตลกมาก ผู้คน ไม่ตอบสนองอะไรเลย
- วิดีโอรถยนต์ก็แปลก ๆ รถตู้ที่วิ่งตัดผ่านฝ่าไฟแดงไปอย่างชัดเจน
  เงาขนาดใหญ่ของเสาไฟถนนที่ทอดลงบนทางแยกก็ดูไม่สมเหตุสมผลเอาเสียเลย
ดีไซน์ Mixture-of-Transformers แบบสองทาวเวอร์นี้ ที่ให้ตัวให้เหตุผลแบบ autoregressive ป้อนอินพุตให้ตัวสร้างแบบ diffusion เป็นการเดิมพันเชิงสถาปัตยกรรมที่น่าสนใจ
เข้าใจยากว่ามันทำอะไร
คำว่า “สร้างการสังเกตในอนาคตและลำดับการกระทำ” นี่เป็นแค่คำพูดซับซ้อนของการสร้างวิดีโอหรือเปล่า?
- ไม่ใช่ ความต่างอยู่ที่ส่วนของ การกระทำ
  world model นี้กำหนดเงื่อนไขด้วยสิ่งอย่างการกระทำของหุ่นยนต์ ดังนั้นจึงทำได้สองอย่างที่การสร้างวิดีโออย่างเดียวทำไม่ได้
  มันทำนายเฟรมอนาคตที่ตามมาหลังการกระทำที่กำหนดได้ และแม้จะเริ่มจากเฟรมตั้งต้นเดียวกัน ถ้าเปลี่ยนการกระทำก็จะได้อนาคตที่ต่างออกไป
  อีกทั้งยังรันย้อนกลับเพื่ออนุมานการกระทำที่อยู่หลังเฟรมที่สังเกตได้ หรือให้เอาต์พุตเป็นการกระทำที่จำเป็นต่อการไปถึงเป้าหมาย
  ในกรณีนั้นเอาต์พุตจะไม่ใช่เฟรมวิดีโอ แต่เป็นคำสั่งมอเตอร์
- เท่าที่ฉันเข้าใจ มันหมายถึงทั้งคอมพิวเตอร์วิทัศน์และการสร้างวิดีโอ แล้วเชื่อมสองอย่างนั้นเข้าด้วยกันเป็น world model ที่ค่อนข้างแข็งแรง
  หนึ่งในตัวอย่างที่โฮสต์ไว้ทำเพียงการวิเคราะห์วิดีโอแบบเดิม ส่วนอีกตัวทำการทำนายวิดีโอจากภาพนิ่ง กล่าวคือเป็นการสร้างวิดีโอ
- ถ้าลองนึกว่ามันคืออะไรและทำไมถึงอธิบายแบบนั้น วงการหุ่นยนต์ AI น่าจะต้องการ เอนจินเกมแบบเหนือจริง ที่มีฟิสิกส์ดีกว่า rigid-body physics แบบดัดแปลงไม่ได้ใน Unity หรือ Unreal
  และในเวลาเดียวกันก็ต้องเร็วกว่าการจำลองเชิงวิศวกรรมแบบ finite element มาก ๆ เมื่อเทียบกับความเร็วจริง 1x ซึ่งโมเดลนี้ก็ดูเหมือนจะเล็งไปที่ความต้องการนั้น
- ดูจากตารางรูปแบบที่รองรับก็ได้ รับอินพุตเป็นภาพ วิดีโอ ข้อความ การกระทำ และส่งออกเป็นภาพ วิดีโอ ข้อความ การกระทำได้
- มันใช้สร้างข้อมูลสังเคราะห์เพื่อฝึก physical AI อย่างหุ่นยนต์ รถยนต์ หรือโดรนได้
  สามารถจำลองโลกในมุมมองบุคคลที่หนึ่งเพื่อสร้างข้อมูลฝึก โดยไม่ต้องส่งหุ่นยนต์เข้าไปในบ้านของผู้คนจริง ๆ
ตัวอย่างที่เลือกมาส่วนใหญ่ดูไม่ค่อยดีเท่าไร
ให้ความรู้สึกเหมือนเอนจินเกมแย่ ๆ ผสมกับ เศษซาก AI อย่างประหลาด
นึกยากว่าสิ่งนี้จะเป็นข้อมูลฝึกที่ดีสำหรับการใช้งานจริงได้
- เดโมพวกนี้พูดตรง ๆ ว่าดูดีใช้ได้เลย
  และการที่เทคโนโลยีแบบนี้กับของคล้ายกันถูกใช้ในสเกลใหญ่โดยผู้ผลิตรถไร้คนขับชั้นนำทุกรายก็เป็นข้อเท็จจริงเชิงวัตถุวิสัย ดังนั้นถ้ามองแบบอุปนัย ก็น่าจะดีพอสำหรับงานใช้งานนั้น
  ฉันไม่ได้ทำงานใน Cosmos แต่ตอนนี้กำลังทำเทคโนโลยีปิดที่ภายนอกดูคล้ายกันอยู่ที่ Nvidia และมีผู้เล่นชั้นนำจำนวนมากใช้อยู่
  ในความเห็นฉัน คุณภาพก็ใกล้เคียงกัน
  งานวิจัยสาธารณะที่เกี่ยวข้องบางส่วนอยู่ที่นี่
  https://github.com/nv-tlabs/3dgrut/
  https://github.com/NVIDIA/harmonizer
  https://github.com/NVIDIA/instant-nurec
  https://github.com/nvidia/ncore
  Nvidia ยังผสาน Gsplat เข้ากับอย่างน้อยบางส่วนของงานที่ฉันทำ และก็มีส่วนร่วมกับ upstream ด้วย
  https://github.com/nerfstudio-project/gsplat
น่าขำที่ทั้ง ๆ ที่มีความก้าวหน้าทางเทคโนโลยีมากมาย แต่เว็บไซต์กลับยังรับมือกับ โหลดสูง ได้อย่างลำบาก

Nvidia Cosmos 3

การเปลี่ยนแปลงสำคัญของ Cosmos 3

โครงสร้างแบบสองทาวเวอร์

การเลือกขนาดโมเดล

ชุดข้อมูลสาธารณะ

เฟรมเวิร์กการประเมิน HUE

ผลลัพธ์เบนช์มาร์ก

สูตรการฝึกและการปรับให้เข้ากับโดเมน

การดีพลอยด้วย NIM microservices

วิธีรัน

แหล่งข้อมูลเริ่มต้น

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News