- โมเดลโลกแบบอเนกประสงค์รุ่นแรกที่สร้าง สภาพแวดล้อม 3D แบบโต้ตอบได้แบบเรียลไทม์ ได้ด้วยข้อความพรอมป์ต์เพียงอย่างเดียว
- รองรับ 24fps, ความละเอียด 720p และคงความสอดคล้องได้นานหลายนาที พร้อมยกระดับ การโต้ตอบ ความสมจริง และความต่อเนื่อง อย่างมากเมื่อเทียบกับ Genie 2
- สามารถสร้างโลกเสมือนในหัวข้อที่หลากหลายได้อย่างเป็นธรรมชาติและมีสีสัน เช่น ปรากฏการณ์ทางฟิสิกส์ ระบบนิเวศ แอนิเมชัน และฉากหลังทางประวัติศาสตร์·ภูมิศาสตร์
- ฟีเจอร์ Promptable world events ช่วยให้ผู้ใช้ควบคุมอีเวนต์แบบไดนามิก เช่น การเปลี่ยนสภาพอากาศหรือการเพิ่มวัตถุ ด้วยข้อความแบบเรียลไทม์
- ออกแบบมาสำหรับงานวิจัยเอเจนต์ โดยทำงานร่วมกับ SIMA agent เป็นต้น เพื่อทดสอบการบรรลุเป้าหมายระยะยาวหรือซีเควนซ์พฤติกรรมที่ซับซ้อนได้
Genie 3: นวัตกรรมของการจำลองโลก
เบื้องหลังพัฒนาการของโมเดลโลก
- DeepMind เป็นผู้นำการวิจัยด้านสภาพแวดล้อมจำลองสำหรับ การฝึก AI agent, open-ended learning และ robotics มาอย่างต่อเนื่อง
- โมเดลโลกคือระบบ AI ที่สามารถ คาดการณ์และจำลองการเปลี่ยนแปลงของสภาพแวดล้อมรวมถึงผลลัพธ์จากการกระทำของเอเจนต์ และถูกมองว่าเป็นขั้นกลางสำคัญบนเส้นทางสู่ AGI
- ต่อเนื่องจาก Genie 1 และ 2, Genie 3 คือโมเดลโลกตัวแรกที่มอบทั้งการโต้ตอบแบบเรียลไทม์และความสอดคล้องด้านภาพกับฟิสิกส์ ไปพร้อมกัน
ความสามารถหลักของ Genie 3
-
การจำลองธรรมชาติและปรากฏการณ์ทางฟิสิกส์
- สร้างปรากฏการณ์ธรรมชาติของโลกจริง เช่น น้ำ แสง และปฏิสัมพันธ์ของสภาพแวดล้อมที่หลากหลาย ได้อย่างเป็นธรรมชาติด้วยพรอมป์ต์เพียงอย่างเดียว
-
ระบบนิเวศที่ซับซ้อนและแอนิเมชัน
- สามารถสร้างทั้ง ความพลวัตของระบบนิเวศ เช่น พฤติกรรมสัตว์ การเติบโตของพืช และ โลกแอนิเมชันจากจินตนาการ
-
การสร้างฉากหลังทางประวัติศาสตร์และภูมิศาสตร์
- สามารถสร้าง พื้นที่หลากหลายที่ข้ามพรมแดนทางภูมิศาสตร์และช่วงเวลา เป็นสภาพแวดล้อมเสมือนได้แบบเรียลไทม์
-
การโต้ตอบและการควบคุมแบบเรียลไทม์
- แสดงภาพ การเปลี่ยนแปลงของโลกทันทีตามอินพุตของผู้ใช้ที่ 24fps และ 720p
- จดจำตำแหน่งและสถานะที่เคยไปเยือน ทำให้ รักษาความสอดคล้องทางฟิสิกส์และภาพได้นานหลายนาที
-
Promptable World Events
- สามารถทำให้เกิด อีเวนต์การเปลี่ยนแปลงสภาพแวดล้อม เช่น การเปลี่ยนสภาพอากาศ หรือการเพิ่มวัตถุ·ตัวละคร ด้วยข้อความพรอมป์ต์ ได้แบบเรียลไทม์
- นอกเหนือจากการควบคุมการสำรวจแล้ว ยังเปิดโอกาสให้ประยุกต์ใช้กว้างขวาง เช่น สถานการณ์ “ถ้าหากว่า” หรือการสร้างเหตุการณ์นอกชีวิตประจำวัน
-
การวิจัยและการทดลองด้านเอเจนต์
- AI agent ที่เชี่ยวชาญสภาพแวดล้อม 3D อย่าง SIMA สามารถไล่ตามเป้าหมายที่ซับซ้อนภายในโลกของ Genie 3 และตรวจสอบความสามารถในการทำซีเควนซ์ระยะยาวได้
- เป้าหมายของเอเจนต์จะไม่ถูกแชร์ให้ Genie 3 โดยระบบจะสร้างผลลัพธ์จากซีเควนซ์การกระทำและการจำลองโลกเท่านั้น
ความท้าทายและผลงานทางเทคนิค
- ในกระบวนการสร้างแบบ autoregressive รายเฟรม จำเป็นต้องสะท้อนทั้งอินพุตของผู้ใช้และซีเควนซ์ในอดีตแบบเรียลไทม์ จึงต้องอาศัยเทคนิคระดับสูงมาก
- ต่างจาก NeRF, Gaussian Splatting และแนวทางเดิมอื่น ๆ Genie 3 ใช้การสร้างเชิงกำเนิดล้วนโดยไม่มีตัวแทน 3D แบบชัดแจ้ง จึงสร้างสภาพแวดล้อมที่มีความพลวัตและสมบูรณ์ยิ่งกว่าได้
ข้อจำกัดและความท้าทาย
- ขอบเขตการกระทำยังจำกัด: แม้การเปลี่ยนแปลงสภาพแวดล้อมด้วยพรอมป์ต์จะหลากหลาย แต่การกระทำที่ทำได้โดยตรงยังมีข้อจำกัด
- ปฏิสัมพันธ์หลายเอเจนต์: การจำลองปฏิสัมพันธ์ระหว่างหลายเอเจนต์อย่างแม่นยำยังคงเป็นโจทย์วิจัย
- ข้อจำกัดในการจำลองตำแหน่งจริง: ยังไม่ให้ความแม่นยำสมบูรณ์แบบของพื้นที่ทางภูมิศาสตร์จริง
- ข้อจำกัดด้านการเรนเดอร์ข้อความ: จะแสดงข้อความได้ชัดเจนก็ต่อเมื่อมีการป้อนอย่างชัดแจ้งเท่านั้น
- ข้อจำกัดด้านเวลาการโต้ตอบ: ปัจจุบันรองรับ การโต้ตอบต่อเนื่องได้เพียงราวไม่กี่นาที
ความรับผิดชอบและขอบเขตการเปิดเผย
- คุณลักษณะของ Genie 3 ที่เป็น การสร้างแบบ open-ended และเรียลไทม์ มาพร้อมประเด็นด้านความปลอดภัยและจริยธรรมใหม่ ๆ จึงมีการทำงานร่วมอย่างใกล้ชิดกับ Responsible Development & Innovation Team
- ในระยะแรกจะ เปิดให้เฉพาะกลุ่มนักวิจัยและครีเอเตอร์จำนวนจำกัดในรูปแบบ research preview และมีแผนขยายอย่างค่อยเป็นค่อยไปพร้อมจัดทำแนวทางรับมือความเสี่ยงจากฟีดแบ็ก
อนาคตและแนวโน้มการใช้งาน
- Genie 3 นำเสนอความเป็นไปได้ใหม่ในหลายด้าน เช่น การศึกษา การฝึกอบรม การเรียนรู้ของ AI agent และการตรวจสอบประสิทธิภาพ
- คาดว่าจะมี บทบาทสำคัญในการวิจัย AGI (ปัญญาประดิษฐ์ทั่วไป) และจะถูกพัฒนาอย่างปลอดภัยในทิศทางที่เป็นประโยชน์ต่อมนุษยชาติ
ยังไม่มีความคิดเห็น