- NVIDIA Cosmos 3 คือโมเดลฐานแบบเปิดเดี่ยวสำหรับ Physical AI ที่รวมการให้เหตุผลทางฟิสิกส์ การสร้างโลก และการสร้างการกระทำไว้ในโมเดลเดียว
- สถาปัตยกรรม Mixture-of-Transformers แยกเป็น Reasoner tower และ Generator tower เพื่อเชื่อมความเข้าใจอินพุตกับเอาต์พุตการสร้างที่รับรู้ฟิสิกส์ พร้อมลดความจำเป็นในการประสานหลายโมเดลและหลาย inference pipeline
- Cosmos 3 Nano มีพารามิเตอร์ 16B มุ่งเป้าการอนุมานระดับเวิร์กสเตชัน และ Cosmos 3 Super มีพารามิเตอร์ 64B มุ่งเป้าการดีพลอยในดาต้าเซ็นเตอร์และการสร้างข้อมูลสังเคราะห์คุณภาพสูง
- NVIDIA เปิดให้ใช้งาน model checkpoint, สคริปต์การฝึก, เครื่องมือดีพลอย, ชุดข้อมูลสังเคราะห์ 6 ชุด และ NIM microservices เพื่อรองรับการปรับให้เข้ากับโดเมนอย่างหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และระบบอัตโนมัติในคลังสินค้า
- ใน HUE และเบนช์มาร์กสาธารณะหลายรายการ Cosmos 3 ถูกประเมินด้านการให้เหตุผลของ Physical AI คุณภาพการสร้าง และประสิทธิภาพเฉพาะโดเมน โดย Super และ Nano ขึ้นนำใน tier 32B และ 8B ของ VANTAGE-Bench ตามลำดับ
การเปลี่ยนแปลงสำคัญของ Cosmos 3
- NVIDIA Cosmos 3 คือโมเดลฐานระดับแนวหน้าที่ออกแบบมาสำหรับระบบ Physical AI เช่น หุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และ smart space ให้สามารถเข้าใจโลก คาดการณ์สถานการณ์ถัดไป และสร้างการกระทำที่เหมาะกับสภาพแวดล้อม รูปแบบ และงานเฉพาะได้
- Cosmos รุ่นก่อนหน้าแยกการสร้างโลก ความเข้าใจฟิสิกส์ และการสร้างฉากแบบควบคุมออกเป็นคนละโมเดลและคนละเวิร์กโฟลว์ แต่ Cosmos 3 รวมทั้งหมดนี้ไว้ในโมเดลเดียว
- รีลีสครั้งนี้มี model checkpoint บน Hugging Face, โค้ดบน GitHub, ชุดข้อมูลสาธารณะ, สคริปต์การฝึกต่อเนื่อง และ Cosmos NIM microservices สำหรับการดีพลอยบน NVIDIA GPU
โครงสร้างแบบสองทาวเวอร์
- Cosmos 3 ใช้สถาปัตยกรรม Mixture-of-Transformers ที่มีสองทาวเวอร์เป็นแกนหลัก
- Reasoner tower คือ vision-language model (VLM) ที่ตีความการสังเกตแบบหลายโมดัล เช่น ภาพ วิดีโอ และข้อความ โดยใช้โครงสร้าง autoregressive เพื่อแปลความอินพุตและเข้าใจการเคลื่อนไหว ปฏิสัมพันธ์ของวัตถุ และบริบททางฟิสิกส์
- Generator tower ใช้ความเข้าใจจาก Reasoner tower เป็นเงื่อนไขในการสร้างวิดีโอและเอาต์พุตการกระทำที่รับรู้ฟิสิกส์ผ่านกระบวนการแบบ diffusion
- สามารถเรียกใช้ Reasoner แยกเดี่ยวได้ แต่ Generator จะเปิดใช้ทั้งสองทาวเวอร์เสมอเพื่อการสร้างแบบมีตัวนำทาง
- โครงสร้างนี้ทำให้งานอนุมานและงานสร้างอยู่ในโมเดลเดียว ลดการออร์เคสเตรตระหว่างหลายโมเดลและหลาย inference pipeline
การเลือกขนาดโมเดล
- Cosmos 3 Nano เป็นโมเดลขนาดกะทัดรัดที่มีพารามิเตอร์ 16B และปรับแต่งมาสำหรับการอนุมานอย่างมีประสิทธิภาพ
- Nano ออกแบบมาสำหรับรันการอนุมานด้านหุ่นยนต์แบบเรียลไทม์และแอปพลิเคชัน Physical AI บนคอมพิวต์ระดับเวิร์กสเตชัน เช่น NVIDIA RTX PRO 6000 GPU
- Cosmos 3 Super เป็นโมเดลขนาด 64B พารามิเตอร์ที่มุ่งเน้นคุณภาพและความสามารถสูงสุด
- Super ให้คะแนนเบนช์มาร์กสูงสุดและมุ่งเป้าการดีพลอยในดาต้าเซ็นเตอร์ที่ใช้ NVIDIA Hopper และ NVIDIA Blackwell GPU
- Super เหมาะกับการสร้างข้อมูลสังเคราะห์ขนาดใหญ่และเวิร์กโหลดการให้เหตุผลทางฟิสิกส์ขั้นสูง
ชุดข้อมูลสาธารณะ
- NVIDIA เปิดชุดข้อมูล synthetic data generation (SDG) จำนวน 6 ชุดบน Hugging Face พร้อมกับการเปิดตัว Cosmos 3
- ชุดข้อมูลเหล่านี้ใช้สำหรับการฝึกต่อเนื่องของ Cosmos 3 และโมเดลอื่น ๆ ได้ โดยครอบคลุมหุ่นยนต์ การจำลองทางฟิสิกส์ การให้เหตุผลเชิงพื้นที่ การเคลื่อนไหวของมนุษย์ การขับขี่ และสภาพแวดล้อมคลังสินค้า
- ชุดข้อมูลที่เปิดให้ใช้งาน:
เฟรมเวิร์กการประเมิน HUE
- NVIDIA Cosmos Human Evaluation (HUE) ใช้ประเมินคุณภาพของ Cosmos 3 Generator ในงานตัวแทนของแต่ละโดเมน
- เนื่องจากโมเดลสร้างวิดีโอล่าสุดเริ่มแตะจุดอิ่มตัวบนลีดเดอร์บอร์ดอัตโนมัติเดิม ความต่างของคะแนนระหว่างแต่ละรีลีสจึงมักไม่มากพอสำหรับการเปรียบเทียบอย่างมีนัยสำคัญ
- HUE เปลี่ยนจากการให้คะแนนเชิงอัตวิสัยมาเป็นการตรวจสอบข้อเท็จจริงเชิงวัตถุวิสัย ทำให้เปรียบเทียบโมเดลชั้นนำกันได้ละเอียดขึ้น
- HUE แยกวิดีโอที่สร้างออกเป็นคำถามข้อเท็จจริงแบบ yes/no รายข้อใน 4 มิติ
- การจัดแนวเชิงความหมาย
- กฎของฟิสิกส์
- การให้เหตุผลเชิงเรขาคณิต
- ความสมบูรณ์ของภาพ
- คำถามครอบคลุม 7 โดเมนของ Physical AI รวมถึงหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และฟิสิกส์
- คำถามถูกสร้างด้วย VLM pipeline และปรับแต่งโดยผู้เชี่ยวชาญมนุษย์ แล้วเปิดเป็นโอเพนซอร์สบน Hugging Face
ผลลัพธ์เบนช์มาร์ก
- Cosmos 3 ถูกประเมินในหลายชุดเบนช์มาร์กที่ครอบคลุมการให้เหตุผลของ Physical AI คุณภาพการสร้าง และประสิทธิภาพเฉพาะโดเมน
- ในเบนช์มาร์กด้านการให้เหตุผล Cosmos 3 Super และ Cosmos 3 Nano ขึ้นนำใน tier 32B และ tier 8B ของ VANTAGE-Bench ตามลำดับ
- VANTAGE-Bench คือเบนช์มาร์กสาธารณะแรกที่ประเมิน vision-language model จากวิดีอกล้องนิ่งในโลกจริงของคลังสินค้า การจราจร และ smart space
- Traffic Anomaly Reasoning (TAR) คือลีดเดอร์บอร์ดใหม่สำหรับตรวจจับและให้เหตุผลเกี่ยวกับเหตุการณ์ผิดปกติในวิดีโอการจราจร และเป็นลีดเดอร์บอร์ดอย่างเป็นทางการของ AI City Challenge 2026 Track 3
- ในเบนช์มาร์กด้านการสร้าง Cosmos 3 เป็นโอเพนซอร์ส SOTA ตามลีดเดอร์บอร์ดสาธารณะ และขึ้นนำใน PAI-Bench, R-Bench, Physics-IQ และ RoboLab
- บน Artificial Analysis Cosmos 3 ถูกจัดให้เป็นโมเดลโอเพนซอร์สชั้นนำใน Text to Image leaderboard และ Image to Video (no audio) leaderboard
- R-Bench ใช้ประเมิน world model แบบอิงวิดีโอในการสร้างวิดีโอหุ่นยนต์ โดยมีตัวชี้วัดย่อย เช่น ความสอดคล้องเชิงโครงสร้าง ความสมเหตุสมผลทางฟิสิกส์ และความสมบูรณ์ของการปฏิบัติการ
- PAI-Bench ใช้ประเมินความเข้าใจวิดีโอและการสร้างวิดีโอในโดเมนอย่างหุ่นยนต์ รถขับเคลื่อนอัตโนมัติ และสามัญสำนึกทางฟิสิกส์
- Physics-IQ ใช้ทดสอบว่าโมเดลสร้างวิดีโอบรรลุเพียงความสมจริงทางภาพ หรือเข้าใจหลักฟิสิกส์จริงด้วย
- RoboLab คือเบนช์มาร์กแบบจำลองสำหรับประเมินนโยบายหุ่นยนต์ที่ทำงานได้ครอบคลุมหลายงาน
สูตรการฝึกและการปรับให้เข้ากับโดเมน
- รีลีสของ Cosmos 3 ไปไกลกว่า model checkpoint ด้วยการเปิดโค้ด คอนฟิก และเวิร์กโฟลว์ เพื่อให้สามารถปรับโมเดลให้เข้ากับโดเมน รูปแบบ และชุดข้อมูลใหม่ได้
- การทำ supervised fine-tuning (SFT) ช่วยให้นักพัฒนาปรับ Cosmos 3 ให้เข้ากับข้อมูลของตนเองได้
- สูตรที่เปิดเผยครอบคลุมการฝึกต่อเนื่องสำหรับ vision generation บนชุดข้อมูลวิดีโอแบบกำหนดเอง และสูตรที่เน้นการกระทำสำหรับเวิร์กโฟลว์ด้านหุ่นยนต์และ Physical AI
- นักพัฒนาสามารถคัสตอม Cosmos 3 ให้เหมาะกับโดเมนเป้าหมายอย่างหุ่นยนต์ การขับขี่อัตโนมัติ และระบบอัตโนมัติในคลังสินค้า
- โค้ดและคอนฟิกสำหรับการฝึกต่อเนื่อง มีให้บน GitHub
- การฝึกต่อเนื่องด้านการกระทำช่วยปรับ Cosmos 3 ให้เหมาะกับแอปพลิเคชัน Physical AI ที่รับรู้การกระทำ เช่น forward dynamics, inverse dynamics และ policy generation
- ในงานหุ่นยนต์ รองรับเวิร์กโฟลว์อย่างการสร้างการสังเกตในอนาคตโดยมีการกระทำของหุ่นยนต์เป็นเงื่อนไข การอนุมานการกระทำเบื้องหลังเดโมที่สังเกตได้ และการคาดการณ์ลำดับการกระทำจากการสังเกตปัจจุบันและ task prompt
การดีพลอยด้วย NIM microservices
- โมเดล Cosmos 3 มีให้ใช้งานผ่าน NVIDIA NIM microservices ด้วย เพื่อการดีพลอยใช้งานจริงที่ปรับแต่งด้านประสิทธิภาพแล้ว
- NIM microservices แพ็กโมเดลเข้ากับ runtime สำหรับการอนุมานที่ปรับแต่งแล้ว เพื่อให้ได้ประสิทธิภาพสูงโดยไม่ต้องจูน serving infrastructure ด้วยตนเอง
- ในเวิร์กโฟลว์การอนุมาน NIM microservices ใช้งานง่ายกว่าที่เก็บ GitHub ของ Cosmos 3 ส่วนที่เก็บ GitHub เหมาะกับเวิร์กโฟลว์การฝึกต่อเนื่องมากกว่า
- Cosmos 3 Reasoner NIM ให้ความสามารถด้านการอนุมานของโมเดล Cosmos 3 ในปัจจุบัน
- NIM รองรับการเลือก quantized checkpoint แบบ BF16, FP8 และ NVFP4
- การ quantization แบบ NVFP4 ลดความแม่นยำเชิงตัวเลขของโมเดลจาก BF16 ลงเป็น floating point 4 บิต เพื่อเพิ่มความเร็วการอนุมานได้สูงสุด 2 เท่า
- สแตกการเสิร์ฟ Cosmos 3 Reasoner NIM สร้างบน vLLM ซึ่งเป็น inference engine แบบโอเพนซอร์สสำหรับเสิร์ฟ LLM อย่างมีประสิทธิภาพด้วยเทคนิคอย่าง continuous batching, paged attention และ tensor parallelism
- Cosmos 3 Nano สามารถรันได้ด้วย vLLM-omni และ NVIDIA Dynamo
- Efficient Video Sampling (EVS) ช่วยเร่งความเร็ว Cosmos Reason NIM โดยลดจำนวน video token ที่ป้อนเข้า VLM ระหว่างการอนุมาน
- EVS จะคง chunk ที่มีความเป็นเอกลักษณ์ที่สุดไว้ในแต่ละเฟรมและตัดส่วนที่เหลือออก โดยเทคนิคนี้มักให้ประโยชน์มากขึ้นบน GPU ขนาดเล็ก
วิธีรัน
- ต้องมี NVIDIA NGC API key เพื่อดึงคอนเทนเนอร์และดาวน์โหลดโมเดล Cosmos 3 จาก NGC
- ตัวอย่างการรัน Cosmos 3 Nano Reasoner NIM มีดังนี้
- หากต้องการใช้ Cosmos 3 Super Reasoner NIM ให้กำหนด
NIM_MODEL_SIZE=super
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- ดูวิธีใช้ API และข้อมูลเพิ่มเติมได้ในเอกสาร
แหล่งข้อมูลเริ่มต้น
1 ความคิดเห็น
ความเห็นจาก Hacker News
เป็น โมเดลโอเพนซอร์สล้ำสมัย สำหรับการสร้างภาพและวิดีโอ
เหนือกว่าโมเดลอื่นหลายตัว แต่ด้วยขนาด 64 พันล้านพารามิเตอร์ จึงใหญ่เกินกว่าจะรันบนคอมพิวเตอร์ส่วนบุคคลส่วนใหญ่ได้
ถึงอย่างนั้นก็ยังน่าประทับใจเมื่อคำนึงว่ามันใช้ชุดข้อมูลฝึกที่สร้างขึ้นแบบสังเคราะห์
ชนะ Nano Banana 1 ได้ แต่ยังไม่ถึงระดับที่จะไปแข่งกับ Nano Banana 2, Seedance2 หรือ Grok Imagine ได้
ประกาศผลิตภัณฑ์จากองค์กรจำนวนมากมักอธิบายข้อเท็จจริงพื้นฐานได้ไม่ชัดเจนแม้แต่ในเก้าคำแรก
แต่มีนัยสำคัญที่หายไปอยู่อย่างหนึ่ง คือมันเป็น world model ที่เล็งไว้เพื่อให้มีประโยชน์ต่อการฝึก AI สำหรับหุ่นยนต์และรถยนต์ไร้คนขับ
เพราะงั้นมันจึงไม่ใช่คู่แข่งตรงของ Nano Banana หรือ Seedance เท่าไรนัก แม้จะสร้างภาพและวิดีโอได้ แต่แก่นหลักคือการจัดเตรียมข้อมูลทางฟิสิกส์และ harness สำหรับสถานการณ์การฝึก AI
“Cosmos 3 Nano เป็นเวอร์ชันขนาดเล็กที่มี 16 พันล้านพารามิเตอร์ และได้รับการปรับให้เหมาะกับการอนุมานอย่างมีประสิทธิภาพ ออกแบบมาเพื่อรันการอนุมานด้านหุ่นยนต์แบบเรียลไทม์และแอปพลิเคชัน physical AI บนสภาพแวดล้อมประมวลผลระดับเวิร์กสเตชัน เช่น GPU NVIDIA RTX PRO 6000”
ตั้งตารอวันที่จะได้ลองรันสิ่งนี้บน GPU ระดับเวิร์กสเตชันราคาเกิน 10,000 ดอลลาร์ พร้อมชุดติดตั้งแพงพอ ๆ กัน
รีลีสนี้รวมความสามารถต่าง ๆ ด้วยสถาปัตยกรรม Mixture-of-Transformers (MoT) ที่มีสองทาวเวอร์เป็นแกนกลาง
ทาวเวอร์สำหรับการให้เหตุผลเป็น vision-language model (VLM) ทำหน้าที่เป็น “สมอง” ที่ใช้ให้เหตุผลเกี่ยวกับโลกก่อนที่การสร้างจะเกิดขึ้น
ทาวเวอร์สำหรับการสร้างจะสร้างการสังเกตในอนาคตและลำดับการกระทำ โดยใช้ความเข้าใจจากทาวเวอร์ให้เหตุผลเป็นเงื่อนไข เพื่อสร้างวิดีโอและเอาต์พุตการกระทำที่คำนึงถึงฟิสิกส์ผ่านกระบวนการแบบ diffusion
วิธีนี้กระตุ้นสัญชาตญาณแบบวิศวกรที่อยากเพิ่มประสิทธิภาพการแลกเปลี่ยนและปรับสมดุลระหว่างโครงสร้างโมเดล เพื่อรวมข้อดีของทั้งสองแบบ
แต่ตามที่ฉันเข้าใจ Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) นี่เป็นทิศทางที่ผิดพลาดอย่างพอดีในระยะยาว
ที่ลิงก์บทความต้นฉบับของ Bitter Lesson ก็เพราะรู้สึกว่าแนวคิดนี้มักถูกเข้าใจผิด หรืออย่างน้อยก็ไม่เห็นด้วยกับวิธีที่มันถูกใช้ในวงสนทนา
ใจความสำคัญคือเป็นข้อสังเกตทางประวัติศาสตร์ว่า นักวิจัย AI พยายามฝังความรู้ลงในเอเจนต์ ซึ่งช่วยได้ในระยะสั้นและทำให้นักวิจัยรู้สึกพึงพอใจ แต่ในระยะยาวมันกลับหยุดนิ่งและขัดขวางความก้าวหน้า แล้วสุดท้ายแนวทางตรงกันข้ามคือการขยายการคำนวณผ่านการค้นหาและการเรียนรู้ต่างหากที่สร้างจุดทะลุ
โครงสร้างนี้ให้ความรู้สึกเหมือนการฝังความรู้ที่ช่วยได้ระยะสั้นลงในเอเจนต์ และมีโอกาสสูงที่จะ หยุดนิ่ง ในระยะยาว
แน่นอนว่าอาจยังมีการเรียนรู้หรือผลลัพธ์ที่น่าสนใจเกิดขึ้นบนมันได้ แต่ฉันไม่คิดว่าวิธีแบบนี้จะเค้นอะไรออกมาได้มากนัก
โครงสร้าง MoT ดูเหมือนอุดมคติที่ Bitter Lesson ชี้เป็นนัยไว้เสียมากกว่า คือเอาข้อมูลทุกรูปแบบอย่างเสียง ภาพ ข้อความ การกระทำ และวิดีโอ ใส่ลงใน พื้นที่แฝงร่วมกัน แล้วปล่อยให้โมเดลจัดการเอง
มันใกล้เคียงกับการมีโครงสร้างเท่าที่จำเป็นเพื่อรองรับความต้องการและรูปแบบเอาต์พุตที่ต่างกัน เช่น ใช้การประมวลผลแบบ autoregressive สำหรับการทำลำดับ/การพยากรณ์ และใช้ diffusion สำหรับการสร้าง
เป้าหมายคือดึงข้อมูลออกจากตัวแทนแบบบีบอัดภายในให้อยู่ในรูปที่มนุษย์ใช้งานได้
ในทางเทคนิคก็อนุมานได้แม้จากการเข้ารหัสระดับพิกเซลหรือตัวอักษร แต่โดยทั่วไปจะแพงกว่ามาก
มองเทคนิคทั้งหมดนี้เป็นวิธีทำให้คอมพิวเตอร์ทำงานได้เร็วขึ้นก็ได้
เห็นได้ใน Qwen talker หรือ multimodal projector ส่วนใหญ่เช่นกัน
เพราะรับอินพุตวิดีโอได้ด้วย จึงกว้างกว่าโมเดลออมนิรุ่นก่อน ๆ เสียอีก
โครงสร้างอาจจะแปลกอยู่บ้าง แต่ก็ดูไม่ใช่การจูนแบบสุดโต่งไปกว่าโอเพนโมเดลที่ปล่อยออกมาทุกวัน
ตัวอย่างวิดีโอความปลอดภัยในคลังสินค้านี่ตลกมาก ผู้คน ไม่ตอบสนองอะไรเลย
เงาขนาดใหญ่ของเสาไฟถนนที่ทอดลงบนทางแยกก็ดูไม่สมเหตุสมผลเอาเสียเลย
ดีไซน์ Mixture-of-Transformers แบบสองทาวเวอร์นี้ ที่ให้ตัวให้เหตุผลแบบ autoregressive ป้อนอินพุตให้ตัวสร้างแบบ diffusion เป็นการเดิมพันเชิงสถาปัตยกรรมที่น่าสนใจ
เข้าใจยากว่ามันทำอะไร
คำว่า “สร้างการสังเกตในอนาคตและลำดับการกระทำ” นี่เป็นแค่คำพูดซับซ้อนของการสร้างวิดีโอหรือเปล่า?
world model นี้กำหนดเงื่อนไขด้วยสิ่งอย่างการกระทำของหุ่นยนต์ ดังนั้นจึงทำได้สองอย่างที่การสร้างวิดีโออย่างเดียวทำไม่ได้
มันทำนายเฟรมอนาคตที่ตามมาหลังการกระทำที่กำหนดได้ และแม้จะเริ่มจากเฟรมตั้งต้นเดียวกัน ถ้าเปลี่ยนการกระทำก็จะได้อนาคตที่ต่างออกไป
อีกทั้งยังรันย้อนกลับเพื่ออนุมานการกระทำที่อยู่หลังเฟรมที่สังเกตได้ หรือให้เอาต์พุตเป็นการกระทำที่จำเป็นต่อการไปถึงเป้าหมาย
ในกรณีนั้นเอาต์พุตจะไม่ใช่เฟรมวิดีโอ แต่เป็นคำสั่งมอเตอร์
หนึ่งในตัวอย่างที่โฮสต์ไว้ทำเพียงการวิเคราะห์วิดีโอแบบเดิม ส่วนอีกตัวทำการทำนายวิดีโอจากภาพนิ่ง กล่าวคือเป็นการสร้างวิดีโอ
และในเวลาเดียวกันก็ต้องเร็วกว่าการจำลองเชิงวิศวกรรมแบบ finite element มาก ๆ เมื่อเทียบกับความเร็วจริง 1x ซึ่งโมเดลนี้ก็ดูเหมือนจะเล็งไปที่ความต้องการนั้น
สามารถจำลองโลกในมุมมองบุคคลที่หนึ่งเพื่อสร้างข้อมูลฝึก โดยไม่ต้องส่งหุ่นยนต์เข้าไปในบ้านของผู้คนจริง ๆ
ตัวอย่างที่เลือกมาส่วนใหญ่ดูไม่ค่อยดีเท่าไร
ให้ความรู้สึกเหมือนเอนจินเกมแย่ ๆ ผสมกับ เศษซาก AI อย่างประหลาด
นึกยากว่าสิ่งนี้จะเป็นข้อมูลฝึกที่ดีสำหรับการใช้งานจริงได้
และการที่เทคโนโลยีแบบนี้กับของคล้ายกันถูกใช้ในสเกลใหญ่โดยผู้ผลิตรถไร้คนขับชั้นนำทุกรายก็เป็นข้อเท็จจริงเชิงวัตถุวิสัย ดังนั้นถ้ามองแบบอุปนัย ก็น่าจะดีพอสำหรับงานใช้งานนั้น
ฉันไม่ได้ทำงานใน Cosmos แต่ตอนนี้กำลังทำเทคโนโลยีปิดที่ภายนอกดูคล้ายกันอยู่ที่ Nvidia และมีผู้เล่นชั้นนำจำนวนมากใช้อยู่
ในความเห็นฉัน คุณภาพก็ใกล้เคียงกัน
งานวิจัยสาธารณะที่เกี่ยวข้องบางส่วนอยู่ที่นี่
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
Nvidia ยังผสาน Gsplat เข้ากับอย่างน้อยบางส่วนของงานที่ฉันทำ และก็มีส่วนร่วมกับ upstream ด้วย
https://github.com/nerfstudio-project/gsplat
น่าขำที่ทั้ง ๆ ที่มีความก้าวหน้าทางเทคโนโลยีมากมาย แต่เว็บไซต์กลับยังรับมือกับ โหลดสูง ได้อย่างลำบาก