Genie 2 ของ DeepMind: โมเดลโลกพื้นฐานขนาดใหญ่

(deepmind.google)

5 คะแนน โดย GN⁺ 2024-12-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Genie 2 คือโมเดลโลกพื้นฐานที่สร้างสภาพแวดล้อม 3D ได้หลากหลาย ซึ่งมนุษย์หรือเอเจนต์ AI สามารถควบคุมได้ด้วยคีย์บอร์ดและเมาส์
เกมมีบทบาทสำคัญในงานวิจัย AI และ Genie 2 ช่วยให้สามารถฝึกและประเมินเอเจนต์ในโลกใหม่ที่มีหลักสูตรแบบไร้ขีดจำกัดได้
ความสามารถ
- การทำต้นแบบอย่างรวดเร็ว: Genie 2 ช่วยให้สร้างต้นแบบประสบการณ์แบบโต้ตอบได้อย่างรวดเร็ว ทำให้นักวิจัยสามารถทดลองสภาพแวดล้อมใหม่ ๆ ได้
- การนำเอเจนต์ไปใช้งาน: สามารถใช้ Genie 2 เพื่อสร้างสภาพแวดล้อมที่สมบูรณ์และหลากหลายสำหรับเอเจนต์ AI ได้อย่างรวดเร็ว
- สถาปัตยกรรมโมเดล: Genie 2 ที่ฝึกด้วยชุดข้อมูลวิดีโอขนาดใหญ่ สามารถจำลองปฏิสัมพันธ์ของวัตถุที่หลากหลาย แอนิเมชันตัวละครที่ซับซ้อน ฟิสิกส์ และอื่น ๆ ได้
- การพัฒนาอย่างมีความรับผิดชอบ: Genie 2 แสดงให้เห็นถึงศักยภาพของโมเดลโลกพื้นฐานในการสร้างสภาพแวดล้อม 3D ที่หลากหลายและเร่งการวิจัยเอเจนต์
ความสามารถที่เกิดขึ้นเอง
- Genie 2 สามารถสร้างโลก 3D ได้หลากหลาย และจำลองปฏิสัมพันธ์ของวัตถุ แอนิเมชันตัวละครที่ซับซ้อน ฟิสิกส์ และอื่น ๆ ได้
- ผู้ใช้สามารถอธิบายโลกด้วยข้อความ เลือกเรนเดอร์ของไอเดียนั้น และโต้ตอบกับโลกที่สร้างขึ้นใหม่ได้
- การควบคุมการกระทำ : Genie 2 ระบุตัวละครได้อย่างถูกต้องและเคลื่อนย้ายตามอินพุตจากคีย์บอร์ด
- การสร้างประสบการณ์แบบแตกแขนง : สามารถจำลองประสบการณ์แบบแตกแขนงสำหรับการฝึกเอเจนต์ โดยสร้างเส้นทางที่หลากหลายจากเฟรมเริ่มต้นเดียวกัน
- หน่วยความจำระยะยาว : Genie 2 สามารถจดจำบางส่วนของโลกที่อยู่นอกมุมมอง และเรนเดอร์ได้อย่างแม่นยำเมื่อกลับมามองเห็นอีกครั้ง
- สภาพแวดล้อมที่หลากหลาย : Genie 2 สามารถสร้างมุมมองได้หลากหลาย เช่น มุมมองบุคคลที่หนึ่ง มุมมองไอโซเมตริก และวิดีโอการขับรถแบบบุคคลที่สาม
- โครงสร้าง 3D : สามารถสร้างฉากภาพ 3D ที่ซับซ้อนได้
- ปฏิสัมพันธ์ของวัตถุ : สามารถจำลองปฏิสัมพันธ์ของวัตถุได้หลากหลาย เช่น การทำลูกโป่งแตก การเปิดประตู และการยิงวัตถุระเบิด
- แอนิเมชันตัวละคร : สามารถสร้างแอนิเมชันตัวละครที่ทำกิจกรรมได้หลากหลาย
- NPC : สามารถจำลองปฏิสัมพันธ์ที่ซับซ้อนกับเอเจนต์ตัวอื่นได้
- ฟิสิกส์ : สามารถจำลองเอฟเฟกต์น้ำ เอฟเฟกต์ควัน แรงโน้มถ่วง แสง และอื่น ๆ ได้
- การเล่นจากภาพจริง : สามารถจำลองน้ำที่ไหลในสระหรือหญ้าที่ไหวตามลมได้ผ่านพรอมป์ต์จากภาพจริง
การทำต้นแบบประสบการณ์แบบโต้ตอบที่หลากหลายอย่างรวดเร็ว
- Genie 2 รองรับการทดลองและสร้างสภาพแวดล้อมใหม่อย่างรวดเร็ว รวมถึงการฝึกและทดสอบเอเจนต์ AI แบบฝังตัว
  - ตัวอย่าง: ใช้ภาพที่สร้างด้วย Imagen 3 เพื่อจำลองสภาพแวดล้อมหลากหลายสำหรับการควบคุมเครื่องบินกระดาษ มังกร เหยี่ยว และร่มชูชีพ
- ด้วยความสามารถในการทำ generalization นอก distribution ของ Genie 2 จึงสามารถแปลงคอนเซปต์อาร์ตและภาพวาดให้เป็นสภาพแวดล้อมแบบโต้ตอบเต็มรูปแบบได้
  - การทำต้นแบบอย่างรวดเร็วช่วยบูตสแตรปกระบวนการสร้างสรรค์และเร่งการออกแบบสภาพแวดล้อม
  โฆษณา
การสร้างสภาพแวดล้อมสำหรับการประเมินด้วย Genie 2
- Genie 2 สามารถสร้างสภาพแวดล้อมที่สมบูรณ์และหลากหลายสำหรับเอเจนต์ AI ได้อย่างรวดเร็ว
  - สร้างงานประเมินใหม่ที่เอเจนต์ไม่เคยพบระหว่างการฝึกเพื่อใช้ทดสอบเอเจนต์
- เอเจนต์ SIMA ที่ DeepMind พัฒนาร่วมกับนักพัฒนาเกม สามารถทำงานในโลกเกม 3D ตามคำสั่งภาษาธรรมชาติ
  - Genie 2 สร้างสภาพแวดล้อม 3D จากพรอมป์ต์ภาพเพียงภาพเดียว และเอเจนต์ SIMA จะโต้ตอบผ่านอินพุตคีย์บอร์ดและเมาส์
- แม้จะยังเป็นงานวิจัยระยะเริ่มต้น แต่คาดว่า Genie 2 จะช่วยแก้ปัญหาการฝึกเอเจนต์แบบฝังตัวอย่างปลอดภัย ด้วยการมอบความหลากหลายและความทั่วไปของสภาพแวดล้อมสำหรับการฝึก
- วางรากฐานเพื่อความก้าวหน้าของ AGI (ปัญญาประดิษฐ์ทั่วไป) ผ่านการฝึกแบบทำให้ทั่วไปสำหรับเอเจนต์ AI
โฆษณา
โมเดลโลกแบบ diffusion
- Genie 2 คือ latent diffusion model ที่เรียนรู้จากชุดข้อมูลวิดีโอขนาดใหญ่
- เฟรมจะถูกแปลงเป็น latent space ผ่าน ออโตเอนโค้ดเดอร์ ก่อนส่งต่อไปยังโมเดลพลวัตที่อิง Transformer
- ระหว่างการฝึก มีการใช้ causal mask คล้ายกับที่ใช้ใน language model
- การอนุมานแบบ autoregressive
  - ระหว่างการอนุมาน Genie 2 จะสุ่มตัวอย่าง latent frame และข้อมูลการกระทำในลักษณะ autoregressive ทีละเฟรมโดยอิงจากเฟรม latent ในอดีต
  - ใช้เทคนิค Classifier-Free Guidance เพื่อเพิ่มความสามารถในการควบคุมการกระทำ
- Genie 2 สามารถสร้างสภาพแวดล้อม 3D ความละเอียดสูงได้อย่างมีประสิทธิภาพ พร้อมคงความสามารถในการควบคุมการกระทำ
- ผสาน diffusion model เข้ากับแนวทาง autoregressive เพื่อมอบเทคโนโลยีรุ่นถัดไปสำหรับสภาพแวดล้อมเสมือนที่ให้ความรู้สึกสมจริง
การพัฒนาเทคโนโลยีอย่างมีความรับผิดชอบ
- Genie 2 แสดงให้เห็นถึงศักยภาพของโมเดลโลกพื้นฐานในการสร้างสภาพแวดล้อม 3D ที่หลากหลายและเร่งการวิจัยเอเจนต์

1 ความคิดเห็น

GN⁺ 2024-12-05

ความเห็นจาก Hacker News

อยากรู้ว่าขนาดของโมเดลนี้ใหญ่แค่ไหน และเสียดายที่มีรายละเอียดเชิงเทคนิคไม่มากนัก พร้อมชี้ว่าแนวทางของ Google ก็ยังคงปิดอยู่เช่นเดิม แต่ความเป็นไปได้ในการสำรวจโลกจากภาพถ่ายและคำอธิบายข้อความก็น่าทึ่งมาก
น่าสนใจที่แรงผลักดันด้านการสร้างวิดีโอและโลกยังคงดำเนินต่อไป แสดงความสนใจต่อเกมที่สร้างเรื่องราวได้ไม่สิ้นสุด และคาดหวังถึงยุคทองของการเล่าเรื่องแบบโต้ตอบในอนาคต
ชี้ว่าเทคโนโลยีนี้อาจไม่ได้มีประโยชน์ต่อการพัฒนาเกมมากนัก เพราะเกมให้ความสำคัญกับปฏิสัมพันธ์ และนักออกแบบต้องควบคุมได้อย่างลึกซึ้ง โดยมองว่าส่วนการสร้างโลกน่าจะมีประโยชน์ที่สุด
เน้นว่าเทคโนโลยีนี้จะนำมาซึ่งความก้าวหน้าครั้งใหญ่ต่อ AGI และหุ่นยนต์ มองว่านี่เป็นจุดเริ่มต้นของการเพิ่มความสามารถให้เครื่องจักรในลักษณะที่คล้ายกับการทำงานของสมองมนุษย์
อธิบายว่าเป้าหมายที่แท้จริงของงานวิจัยคือการพัฒนาโมเดลที่เข้าใจโลก 3D ได้เหนือกว่ามนุษย์ ซึ่งจะช่วยขับเคลื่อนความก้าวหน้าของหุ่นยนต์และรถยนต์ไร้คนขับ
แสดงความผิดหวังที่ Genie2 มองข้ามรายละเอียดของคอนเซ็ปต์อาร์ต พร้อมวิจารณ์ว่ามันเพิกเฉยต่อสิ่งมีชีวิตต่างดาวที่งดงามในต้นฉบับ
อธิบายว่า generative AI ให้ความยืดหยุ่น แต่ต้องใช้การคำนวณจำนวนมาก และตั้งคำถามเกี่ยวกับบทบาทของการเขียนโปรแกรมแบบดั้งเดิมกับ generative AI
ตั้งคำถามถึงคุณค่าที่แท้จริงของเทคโนโลยีนี้ โดยชี้ว่าต้นทุนการคำนวณสูงและพฤติกรรมที่ไม่สม่ำเสมอเป็นปัญหา
ระบุว่าใน MS Edge เลื่อนไม่ได้จึงต้องใช้ Firefox และกล่าวว่าคุณภาพด้านภาพของวิดีโอก็ไม่ดีนัก พร้อมตั้งคำถามว่านักวิจัย AI พยายามแทนที่ระบบเดิมที่ทำงานได้ดีอยู่แล้วไปเพื่ออะไร

Genie 2 ของ DeepMind: โมเดลโลกพื้นฐานขนาดใหญ่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News