Google DeepMind เปิดตัวโมเดลโลก Genie 3
(deepmind.google)- โมเดลโลกแบบอเนกประสงค์รุ่นแรกที่สร้าง สภาพแวดล้อม 3D แบบโต้ตอบได้แบบเรียลไทม์ ได้ด้วยข้อความพรอมป์ต์เพียงอย่างเดียว
- รองรับ 24fps, ความละเอียด 720p และคงความสอดคล้องได้นานหลายนาที พร้อมยกระดับ การโต้ตอบ ความสมจริง และความต่อเนื่อง อย่างมากเมื่อเทียบกับ Genie 2
- สามารถสร้างโลกเสมือนในหัวข้อที่หลากหลายได้อย่างเป็นธรรมชาติและมีสีสัน เช่น ปรากฏการณ์ทางฟิสิกส์ ระบบนิเวศ แอนิเมชัน และฉากหลังทางประวัติศาสตร์·ภูมิศาสตร์
- ฟีเจอร์ Promptable world events ช่วยให้ผู้ใช้ควบคุมอีเวนต์แบบไดนามิก เช่น การเปลี่ยนสภาพอากาศหรือการเพิ่มวัตถุ ด้วยข้อความแบบเรียลไทม์
- ออกแบบมาสำหรับงานวิจัยเอเจนต์ โดยทำงานร่วมกับ SIMA agent เป็นต้น เพื่อทดสอบการบรรลุเป้าหมายระยะยาวหรือซีเควนซ์พฤติกรรมที่ซับซ้อนได้
Genie 3: นวัตกรรมของการจำลองโลก
เบื้องหลังพัฒนาการของโมเดลโลก
- DeepMind เป็นผู้นำการวิจัยด้านสภาพแวดล้อมจำลองสำหรับ การฝึก AI agent, open-ended learning และ robotics มาอย่างต่อเนื่อง
- โมเดลโลกคือระบบ AI ที่สามารถ คาดการณ์และจำลองการเปลี่ยนแปลงของสภาพแวดล้อมรวมถึงผลลัพธ์จากการกระทำของเอเจนต์ และถูกมองว่าเป็นขั้นกลางสำคัญบนเส้นทางสู่ AGI
- ต่อเนื่องจาก Genie 1 และ 2, Genie 3 คือโมเดลโลกตัวแรกที่มอบทั้งการโต้ตอบแบบเรียลไทม์และความสอดคล้องด้านภาพกับฟิสิกส์ ไปพร้อมกัน
ความสามารถหลักของ Genie 3
-
การจำลองธรรมชาติและปรากฏการณ์ทางฟิสิกส์
- สร้างปรากฏการณ์ธรรมชาติของโลกจริง เช่น น้ำ แสง และปฏิสัมพันธ์ของสภาพแวดล้อมที่หลากหลาย ได้อย่างเป็นธรรมชาติด้วยพรอมป์ต์เพียงอย่างเดียว
-
ระบบนิเวศที่ซับซ้อนและแอนิเมชัน
- สามารถสร้างทั้ง ความพลวัตของระบบนิเวศ เช่น พฤติกรรมสัตว์ การเติบโตของพืช และ โลกแอนิเมชันจากจินตนาการ
-
การสร้างฉากหลังทางประวัติศาสตร์และภูมิศาสตร์
- สามารถสร้าง พื้นที่หลากหลายที่ข้ามพรมแดนทางภูมิศาสตร์และช่วงเวลา เป็นสภาพแวดล้อมเสมือนได้แบบเรียลไทม์
-
การโต้ตอบและการควบคุมแบบเรียลไทม์
- แสดงภาพ การเปลี่ยนแปลงของโลกทันทีตามอินพุตของผู้ใช้ที่ 24fps และ 720p
- จดจำตำแหน่งและสถานะที่เคยไปเยือน ทำให้ รักษาความสอดคล้องทางฟิสิกส์และภาพได้นานหลายนาที
-
Promptable World Events
- สามารถทำให้เกิด อีเวนต์การเปลี่ยนแปลงสภาพแวดล้อม เช่น การเปลี่ยนสภาพอากาศ หรือการเพิ่มวัตถุ·ตัวละคร ด้วยข้อความพรอมป์ต์ ได้แบบเรียลไทม์
- นอกเหนือจากการควบคุมการสำรวจแล้ว ยังเปิดโอกาสให้ประยุกต์ใช้กว้างขวาง เช่น สถานการณ์ “ถ้าหากว่า” หรือการสร้างเหตุการณ์นอกชีวิตประจำวัน
-
การวิจัยและการทดลองด้านเอเจนต์
- AI agent ที่เชี่ยวชาญสภาพแวดล้อม 3D อย่าง SIMA สามารถไล่ตามเป้าหมายที่ซับซ้อนภายในโลกของ Genie 3 และตรวจสอบความสามารถในการทำซีเควนซ์ระยะยาวได้
- เป้าหมายของเอเจนต์จะไม่ถูกแชร์ให้ Genie 3 โดยระบบจะสร้างผลลัพธ์จากซีเควนซ์การกระทำและการจำลองโลกเท่านั้น
ความท้าทายและผลงานทางเทคนิค
- ในกระบวนการสร้างแบบ autoregressive รายเฟรม จำเป็นต้องสะท้อนทั้งอินพุตของผู้ใช้และซีเควนซ์ในอดีตแบบเรียลไทม์ จึงต้องอาศัยเทคนิคระดับสูงมาก
- ต่างจาก NeRF, Gaussian Splatting และแนวทางเดิมอื่น ๆ Genie 3 ใช้การสร้างเชิงกำเนิดล้วนโดยไม่มีตัวแทน 3D แบบชัดแจ้ง จึงสร้างสภาพแวดล้อมที่มีความพลวัตและสมบูรณ์ยิ่งกว่าได้
ข้อจำกัดและความท้าทาย
- ขอบเขตการกระทำยังจำกัด: แม้การเปลี่ยนแปลงสภาพแวดล้อมด้วยพรอมป์ต์จะหลากหลาย แต่การกระทำที่ทำได้โดยตรงยังมีข้อจำกัด
- ปฏิสัมพันธ์หลายเอเจนต์: การจำลองปฏิสัมพันธ์ระหว่างหลายเอเจนต์อย่างแม่นยำยังคงเป็นโจทย์วิจัย
- ข้อจำกัดในการจำลองตำแหน่งจริง: ยังไม่ให้ความแม่นยำสมบูรณ์แบบของพื้นที่ทางภูมิศาสตร์จริง
- ข้อจำกัดด้านการเรนเดอร์ข้อความ: จะแสดงข้อความได้ชัดเจนก็ต่อเมื่อมีการป้อนอย่างชัดแจ้งเท่านั้น
- ข้อจำกัดด้านเวลาการโต้ตอบ: ปัจจุบันรองรับ การโต้ตอบต่อเนื่องได้เพียงราวไม่กี่นาที
ความรับผิดชอบและขอบเขตการเปิดเผย
- คุณลักษณะของ Genie 3 ที่เป็น การสร้างแบบ open-ended และเรียลไทม์ มาพร้อมประเด็นด้านความปลอดภัยและจริยธรรมใหม่ ๆ จึงมีการทำงานร่วมอย่างใกล้ชิดกับ Responsible Development & Innovation Team
- ในระยะแรกจะ เปิดให้เฉพาะกลุ่มนักวิจัยและครีเอเตอร์จำนวนจำกัดในรูปแบบ research preview และมีแผนขยายอย่างค่อยเป็นค่อยไปพร้อมจัดทำแนวทางรับมือความเสี่ยงจากฟีดแบ็ก
อนาคตและแนวโน้มการใช้งาน
- Genie 3 นำเสนอความเป็นไปได้ใหม่ในหลายด้าน เช่น การศึกษา การฝึกอบรม การเรียนรู้ของ AI agent และการตรวจสอบประสิทธิภาพ
- คาดว่าจะมี บทบาทสำคัญในการวิจัย AGI (ปัญญาประดิษฐ์ทั่วไป) และจะถูกพัฒนาอย่างปลอดภัยในทิศทางที่เป็นประโยชน์ต่อมนุษยชาติ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้ามีใครทำงานหรือมีความเชี่ยวชาญในด้านนี้ อยากรู้ว่าพอจะช่วยคาดเดาได้ไหมว่า Genie 3 ถูกสร้างขึ้นด้วยเทคโนโลยี สถาปัตยกรรม การออกแบบระบบ และข้อกำหนดด้านคอมพิวต์แบบไหน ตอนนี้ข้อมูลที่เปิดเผยยังมีน้อยมาก เลยอยากฟังโดยเฉพาะว่าผู้เชี่ยวชาญในสายนี้ใช้วิธีคิดหรืออนุมานกันอย่างไรว่าเบื้องหลังมันน่าจะถูกทำขึ้นแบบไหน
ไม่คิดเลยว่าจะไปได้ไกลถึงขั้นทำความสอดคล้องต่อเนื่องหลาย phútที่ 720p แบบเรียลไทม์ได้ ได้ยินมาว่าความสอดคล้องของ Genie 3 เป็น emergent capability ที่เกิดจากการขยายสเกลของโมเดล หมายความว่าไม่ใช่เพราะจงใจปรับสถาปัตยกรรมให้ดีขึ้น แต่เหมือนเป็นความสามารถที่โผล่มาเองเมื่อทำโมเดลให้ใหญ่ขึ้น มีคนที่ลองใช้จริงสรุปข้อจำกัดไว้(ลิงก์ X):
การจำลองฟิสิกส์ยังคงยากอยู่ และมีเคสล้มเหลวชัดเจนในงานทดลองฟิสิกส์เชิงสัญชาตญาณที่ใช้ในจิตวิทยา เช่น การซ้อนบล็อก
ปฏิสัมพันธ์ทางสังคมหรือสถานการณ์ที่มีหลายเอเจนต์พัวพันกันยังยาก และเกมแบบดวล 1:1 ก็ทำได้ไม่ดี
คำสั่งที่ซับซ้อนหรือ logic ของเกม เช่น เก็บกุญแจไปเปิดประตู ก็ยังทำได้ไม่ดี
action space เองก็ยังมีข้อจำกัด
ยังห่างไกลจากการเป็นเกมเอนจินจริง ๆ แต่ก็ชัดเจนว่าเป็นโอกาสให้ได้เห็นภาพตัดขวางของอนาคตด้วยตาตัวเอง ถึงจะมีข้อจำกัดพวกนี้ ก็ยังให้ความรู้สึกว่า world model จะมีบทบาทสำคัญกว่าที่คิดในอนาคตของหุ่นยนต์และ AI ในโลกจริง บางทีหุ่นยนต์แห่งอนาคตอาจเป็นยุคที่เรียนรู้จากความฝันก็ได้
อยากรู้มากว่าระบบ multiplayer จะทำให้เป็นไปได้อย่างไร ไม่ใช่แค่ในเชิงโลจิสติกส์หรือเทคนิค แต่รวมถึงในมุมมองของเกมเพลย์ด้วย
เกมเป็น use case หลักอย่างชัดเจน แต่โดยพื้นฐานแล้วดูเหมือนว่ามันถูกพัฒนามาเพื่อทำ synthetic data generation สำหรับฝึกหุ่นยนต์คลังสินค้าของ Google มากกว่า ดูข่าวที่เกี่ยวข้องได้จาก บทความของ The Guardian และ โพสต์ HN เมื่อ 4 เดือนก่อนการเปิดตัว Gemini Robot
ไม่คิดว่าความก้าวหน้าทางเทคโนโลยีจะเร็วขนาดนี้ เมื่อไม่กี่เดือนก่อนฉันเขียนไว้ว่า world-model output manipulation คือก้าวถัดไปของเกม AAA(โพสต์บล็อก) ตอนนั้นยังคิดว่าอีกหลายปีเลยกว่าจะมาถึง ถึงกับล้อเล่นว่า Rockstar อาจหลงไปกับ world model ระหว่างพัฒนา GTA6 แต่ตอนนี้ฟังดูไม่แปลกเท่าไรแล้ว พอดูความคืบหน้าหลัง GameNGen ก็เริ่มรู้สึกว่ามันอาจพลิกแซงก่อน GTA6 จะออกเสียอีก
ระดับนี้น่าจะช่วยปิด reality gap ในเชิงภาพได้ จึงน่าจะเป็นเครื่องมือที่ดีมากสำหรับงานหุ่นยนต์ แน่นอนว่าการจำลองฟิสิกส์ยังเป็นโจทย์แยกต่างหากอยู่ดี
นี่เป็นอีกครั้งที่บทเรียนแบบ bitter lesson ใช้ได้จริง
เป็นความก้าวหน้าที่น่าตื่นเต้นมาก น่าจะเป็นสิ่งที่ Demis เคยเกริ่นไว้เมื่อเดือนก่อน(ทวีตที่เกี่ยวข้อง) ถ้าลองเดารายละเอียดทางเทคนิคจากคลิปที่เผยแพร่ออกมา มีข้อสังเกตไม่กี่อย่าง:
อยากให้เปิดเผยวิธีการทำงานมากกว่านี้ ถ้ามีอย่างน้อยสัก paper สำหรับนักวิจัยก็คงดี เดาของฉันคือมันคล้ายโมเดลสร้างวิดีโอที่มีอยู่แล้ว แต่ conditioning ด้วยอินพุตอย่าง movement direction, viewangle เป็นต้น และน่าจะเป็นอินพุตแบบสัมบูรณ์ไม่ใช่สัมพัทธ์ อีกทั้งอาจมี state simulation อยู่บางส่วนด้วย(แต่ก็อาจไม่ใช่ เพราะในวิดีโอเดโมมีเอฟเฟกต์ฟิสิกส์การชนของวัตถุให้เห็น หรืออาจเป็นการสร้าง up axis ใน 2D ก็ได้) ดูชัดว่าเรียนรู้จากข้อมูลที่มาจากเกมเอนจิน เพราะมี artifact แบบ screen-space reflection โผล่ให้เห็น น่าจะผสมข้อมูลจาก photogrammetry/splat ด้วย และองค์ประกอบที่ไม่สมจริงก็ดูมีความละเอียดต่ำเป็นพิเศษ มีความไม่สอดคล้องกันหลายจุดที่สังเกตได้จากเดโม:
มันน่าประทับใจจริง ๆ แต่รายละเอียดกลับมีน้อยมาก ฉันไม่ได้เห็นด้วยเสียทีเดียวกับคอมเมนต์ที่บอกว่าถ้าไม่ได้ลองใช้เองก็ไม่มีความหมาย แต่ก็อดทึ่งไม่ได้ว่าถ้าเป็นการประกาศแบบนี้เมื่อไม่กี่ปีก่อนคงต้องมี paper ออกมาคู่กัน ตอนนี้มีองค์ประกอบเหมือนบางส่วนของ paper เช่น รายชื่อทีมงาน เดโม และ bibtex citation แต่ไม่มีการเปิดเผยงานวิจัยจริง ระหว่างคุยกับคนรู้จัก ฉันกลับกังวลมากกว่าว่าไม่ใช่แค่ AI ทำอะไรได้ทันทีบ้าง แต่แรงขับทางเศรษฐกิจกำลังเปลี่ยนจากโหมดวิจัย/วิชาการไปเป็นการ "สกัดมูลค่า" อย่างรวดเร็ว การเอาสิ่งนี้ไปใช้เป็นฐานทางอ้อมในนโยบายหรือเศรษฐกิจก็มีความเสี่ยงไม่น้อย ไม่ได้คัดค้านการค้าเชิงพาณิชย์ แต่การที่มีการเปิดตัวผลิตภัณฑ์ในลักษณะคล้าย paper วิจัยพร้อม ๆ กับคำเตือนจากนักคณิตศาสตร์เรื่องการลดการสนับสนุนงานวิชาการช่วงหลัง ๆ เป็นสิ่งที่บั่นทอนความน่าเชื่อถือในระยะยาว
ยังนึกภาพยากว่าการทำนายแบบคาดเดาเพื่อสร้าง "พิกเซลถัดไป" จะดีกว่าวิธีเดิมที่สร้างฉากอย่างกำหนดได้แน่นอนแล้วค่อยเรนเดอร์ออกมา ตัวอย่างเช่น ใช้ AI สร้าง texture, model, motion sequence แล้วให้การ์ดจอนำสิ่งเหล่านั้นมาประกอบกันเพื่อเรนเดอร์ฉาก แบบนั้นผู้ใช้ก็ยังสามารถปรับ wire model, texture, ตำแหน่งกล้อง ฯลฯ ได้อย่างอิสระ
ให้ความรู้สึกปฏิวัติมาก คาดไว้ว่ามันต้องมา แต่พอเจอเข้าจริงก็ยังใหม่อยู่ดี ถึงจะมีข้อจำกัดแต่นี่คือจุดเริ่มต้น ตลอดมาสิ่งสำคัญของเกมเอนจินคือให้นักพัฒนาหรือวิศวกรจัดวางรูปทรงอย่างสามเหลี่ยมให้ตรงกับพิกเซลพอดี แต่ตอนนี้เหมือนคอมพิวเตอร์กำลัง "วาดภาพ" เองทุกเฟรม และสร้างภาพได้โดยไม่ต้องคำนวณสามเหลี่ยมเลย
และคุณภาพการวาดมือก็เคยแย่กว่านี้เกิน 10 เท่า ตอนนี้ทั้งมือ ข้อความ และภาพดีขึ้นหมดแล้ว เลยคงต้องกลับไปเล่นเกม "Where's Waldo" เพื่อหาจุดบกพร่องกันอีก คาดว่าในสักวันจะมีวิดีโอซูมไม่สิ้นสุดที่ซ่อน AI watermark ไว้ลึกถึงระดับ 1/3 พิกเซล ส่วนตัวฉันสนใจวงการ augmented video มากกว่า วิดีโอสไตล์ stormtrooper vlog ก็มี Runway และที่อื่นเริ่มลองทำกันแล้ว แต่ราคาแพงมาก
จะบอกว่าปัญหาข้อความถูกแก้หมดแล้วคงยังเร็วไปหน่อย แน่นอนว่าดีขึ้นมาก แต่แม้แต่ gpt-image-1 ก็ยังพลาดการสร้างข้อความเป็นบางครั้ง
พรอมป์ตกับข้อความบนกระดานดำที่สร้างขึ้นไม่ตรงกันในเรื่องการมีหรือไม่มีเครื่องหมายขีดกลาง(-)
นี่เป็นครั้งแรกที่ได้ดูพรีเซนเทชันแล้วความรู้สึกต่อความเป็นจริงถูกสั่นคลอนหลายรอบ เป็นประสบการณ์ที่ทำให้มึนงงจริง ๆ
ยิ่ง generative AI ก้าวหน้าเท่าไร ฉันก็ยิ่งรู้สึกหดหู่ เหมือนความคิดสร้างสรรค์กำลังถูกแย่งไปเร็วขึ้นเรื่อย ๆ ถ้าเทคโนโลยีจะอยู่ในฐานะเครื่องมือเพื่อช่วยการสร้างสรรค์ของมนุษย์ก็คงโอเค แต่ตอนนี้กลับดูเหมือนมุ่งไปสู่การแทนที่ทั้งหมด แน่นอนว่าอาจพูดได้ว่า "คุณก็ยังแต่งเพลงหรือวาดรูปเองได้" แต่ในเชิงประวัติศาสตร์ งานศิลปะไม่ได้เกิดขึ้นเพื่อเจ้าของเพียงลำพังล้วน ๆ หากเกิดในบริบททางสังคมที่ต้องการแบ่งปันกับคนอื่น สุดท้ายแล้วจะเหลืออะไรให้พวกเรา? มีเพียงแรงงานง่าย ๆ ที่ยังไม่ถูกอัตโนมัติ และถ้าสิ่งนั้นถูกอัตโนมัติด้วย มนุษย์จะเหลืออะไรบ้างก็ไม่รู้ หรือสุดท้ายเราจะไปสู่อนาคตที่สมองพังจากการได้รับสิ่งกระตุ้นแบบปรับเฉพาะบุคคลเพื่อเร่งโดพามีน(ซึ่งบางส่วนก็เกิดขึ้นแล้วกับอะไรแบบ TikTok) ถ้าทุกอย่างกลายเป็นอัตโนมัติหมด ก็สงสัยว่าจะคงโครงสร้างเศรษฐกิจไว้ได้อย่างไร บางทีนี่อาจเป็นหนึ่งในคำอธิบายของ Fermi paradox ก็ได้ โลกที่ไม่มีใครแตะต้องเทคโนโลยีได้เพราะไม่เข้าใจ ไม่มีแม้แต่การเข้าถึงเทคโนโลยีอย่างง่าย และทรัพยากรถูกใช้จนไม่อาจย้อนคืน ในสถานการณ์แบบนั้นจะหาความหมายของชีวิตได้อย่างไรกัน
ข้ออ้างที่ว่างานศิลปะไม่ได้สร้างขึ้นอย่างแท้จริงเพื่อตัวเองโดยไม่แบ่งปันต่อสาธารณะ มีนักเขียน จิตรกร และศิลปินชื่อดังจำนวนมากที่เป็นข้อโต้แย้งได้ Kafka ก็เป็นตัวอย่างเด่น และผลงานสำคัญจำนวนไม่น้อยถูกค้นพบภายหลังเจ้าตัวเสียชีวิต หรือแม้กระทั่งขัดกับความตั้งใจของเจ้าตัวเอง สิ่งนี้ไม่ได้ลบประเด็นอื่น ๆ ที่เหลือ แต่ศิลปะก็มีอยู่เพื่อตัวมันเองมาโดยตลอด และจะยังเป็นเช่นนั้นต่อไป
สำหรับคำพูดว่า "ฉันยอมรับไม่ได้กับคนที่บอกว่าดีใจที่ได้มีชีวิตอยู่ในยุคนี้" ความยินดีเป็นความรู้สึก ไม่ใช่การกระทำเชิงตรรกะ มันเป็นอารมณ์ที่มาจากความหวังและจินตนาการ ความมองโลกในแง่ดีไม่จำเป็นต้องมีตรรกะ และเรื่องการค้นหาความหมายของชีวิตก็ไม่ใช่คำถามที่เพิ่งเกิดขึ้นเพราะ LLM แต่มันเป็นหัวข้อที่มนุษย์ถามกันมาหลายพันปีแล้ว ตัวอย่างเช่นใน [ภควัทคีตา] ตัวเอกก็ถามพระเจ้าว่า "ถ้าผลลัพธ์ก็ไร้ความหมาย แล้วทำไมฉันยังต้องลงมือทำ" แต่ก็ไม่มีคำตอบตายตัว เหลือเพียงการใคร่ครวญเชิงสมาธิ คำถามนี้เป็นสิ่งที่มนุษย์เผชิญมานานก่อนยุคปัญญาประดิษฐ์
คล้ายกับทุกวันนี้ที่เราไม่จำเป็นต้องเดินหรือยกของหนักเพื่อเอาชีวิตรอดแล้ว จึงค่อย ๆ อ่อนแอลงถ้าไม่ออกกำลังกาย ในอนาคตเมื่อคนส่วนใหญ่ไม่จำเป็นต้องคิด สร้างสรรค์ หรือสำรวจเพื่อหาเลี้ยงชีพอีกต่อไป เราก็จะยิ่งโง่ลง มีเพียงคนส่วนน้อยที่ยังฝึกฝนสมอง แต่สุดท้ายพวกเขาก็ไม่มีวันฉลาดกว่าจักรได้อยู่ดี เหมือนนักกีฬาที่เก่งที่สุดก็เอาชนะเครื่องจักรไม่ได้
ในโลกที่เราอยู่ตอนนี้เอง ก็มีเพลงมากมายบน YouTube และ Spotify ที่แต่งโดยคนที่เล่นดนตรีเก่งกว่าฉันมากอยู่แล้ว ดังนั้นฉันจึงมองว่าการเปลี่ยนแปลงครั้งนี้เป็นเพียงส่วนต่อเนื่องของสิ่งนั้น
ฉันไม่เห็นด้วยกับข้อโต้แย้งของคุณเลย ฉันแต่งเพลงมาหลายร้อยเพลงตลอดชีวิตแต่ไม่เคยแชร์กับใคร และเพื่อนนักดนตรีทุกคนของฉันก็เป็นแบบเดียวกัน การสร้างสรรค์เป็นคนละเรื่องกับการมีผู้ชม จริง ๆ แล้วแทบจะตรงกันข้ามด้วยซ้ำ และประวัติศาสตร์ของการทำเพลงก็เป็นเรื่องของการลดกำแพงการเข้าถึงลงเรื่อย ๆ ด้วยเทคโนโลยีใหม่ ๆ ในอดีตผู้คนถูกกันออกไปเพราะอุปกรณ์มีราคาแพง