- SIMA 2 ที่ผสานรวม โมเดล Gemini ได้ก้าวจากการทำตามคำสั่งภาษาธรรมดา ไปสู่การเป็น เอเจนต์ AI สำหรับสภาพแวดล้อมเสมือน 3D ที่เข้าใจเป้าหมายของผู้ใช้ คิดด้วยตนเอง และโต้ตอบได้
- ต่างจากเวอร์ชันก่อนหน้าที่ทำพฤติกรรมตามภาษาได้มากกว่า 600 แบบ เวอร์ชันนี้มีความสามารถด้าน การให้เหตุผล·การสนทนา·การพัฒนาตนเอง จึงสามารถทำพฤติกรรมที่มุ่งเป้าหมายได้แม้ในเกมใหม่
- แสดงความสามารถในการทำให้ใช้ได้ทั่วไปสูงแม้ในเกมที่ไม่เคยฝึกมาก่อน เช่น MineDojo, ASKA และทำอัตราความสำเร็จของงานได้ใกล้เคียงผู้เล่นมนุษย์
- ใช้โครงสร้าง ลูปการพัฒนาตนเอง ที่สามารถสะสมประสบการณ์และยกระดับประสิทธิภาพได้ด้วยตนเองแม้ไม่มีข้อมูลจากมนุษย์
- ความก้าวหน้านี้ปูพื้นฐานไปสู่การประยุกต์ใช้ด้าน embodied intelligence แบบทั่วไป และงานหุ่นยนต์
ภาพรวมของ SIMA 2
- SIMA 2 คือ เอเจนต์ AI ที่ขับเคลื่อนด้วย Gemini ซึ่งพัฒนาโดย Google DeepMind เป็นระบบที่เล่นและเรียนรู้ร่วมกับมนุษย์ในสภาพแวดล้อมเสมือน 3D
- SIMA เวอร์ชันแรกมุ่งเน้นการแปลงคำสั่งภาษาเป็นการกระทำ แต่ SIMA 2 เพิ่มความสามารถด้าน การอนุมานเป้าหมาย การสนทนา และการพัฒนาตนเอง
- โมเดลนี้แสดงให้เห็นถึงความก้าวหน้าสู่ AGI (ปัญญาประดิษฐ์ทั่วไป) และมีความหมายสำคัญต่อโรโบติกส์และงานวิจัย AI แบบ embodied
Reasoning (ความสามารถด้านการให้เหตุผล)
- SIMA 1 ทำคำสั่งได้มากกว่า 600 แบบ เช่น “หันไปทางซ้าย”, “ปีนบันได” แต่ใช้วิธี มองหน้าจอแล้วควบคุมโดยไม่เข้าถึงกลไกภายในเกม
- SIMA 2 ฝังโมเดล Gemini ไว้ภายใน จึงก้าวข้ามการทำตามคำสั่งแบบง่าย ๆ ไปสู่การ เข้าใจเป้าหมายและคิดอย่างมีเหตุผล
- ข้อมูลฝึกประกอบด้วยการผสมระหว่าง วิดีโอสาธิตจากมนุษย์และป้ายกำกับที่ Gemini สร้างขึ้น โดยเอเจนต์สามารถอธิบายแผนการกระทำและขั้นตอนของตนเองได้
- ผลการทดสอบพบว่า ผู้ใช้รู้สึกว่าการโต้ตอบกับ SIMA 2 เป็น การทำงานร่วมกันมากกว่าการสั่งงาน และมีการฝึกกับประเมินผลในสภาพแวดล้อมเกมที่หลากหลาย
- ด้วยเอนจินการให้เหตุผลของ Gemini จึงทำให้เกิด AI แบบ embodied ที่บูรณาการ การรับรู้·ความเข้าใจ·การกระทำ เข้าด้วยกันในสภาพแวดล้อม 3D ที่ซับซ้อน
Generalization (ความสามารถในการทำให้ใช้ได้ทั่วไป)
- การผสาน Gemini ช่วยยกระดับ ความสามารถในการเข้าใจและทำตามคำสั่งที่ซับซ้อนและละเอียดอ่อน
- แม้ในเกมที่ไม่เคยฝึกมาก่อน เช่น ASKA, MineDojo ก็ยังมีอัตราความสำเร็จสูง และทำ อัตราการทำภารกิจได้ใกล้ระดับมนุษย์
- มี ความสามารถในการถ่ายโอนแนวคิด เช่น ย้ายแนวคิด “mining” ไปใช้กับ “harvesting” ในอีกเกมหนึ่ง
- สามารถเข้าใจ คำสั่งหลายภาษาและอีโมจิ รวมถึงประมวลผล อินพุตหลายรูปแบบ (เช่น ภาพวาด) ได้
- เมื่อทำงานร่วมกับ Genie 3 ก็ยังคงรักษาการรับรู้ทิศทางและพฤติกรรมที่มุ่งเป้าหมายได้แม้ใน โลกเสมือนที่สร้างขึ้นใหม่ แสดงให้เห็นถึงความสามารถในการปรับตัวสูง
Self-Improvement (การพัฒนาตนเอง)
- SIMA 2 ยกระดับประสิทธิภาพได้โดยไม่ต้องมีการแทรกแซงจากมนุษย์ผ่าน ลูปการเรียนรู้แบบขับเคลื่อนตนเอง
- Gemini ให้การประเมินภารกิจเริ่มต้นและรางวัล
- จากนั้น SIMA 2 จะสร้าง คลังข้อมูลประสบการณ์ของตนเอง และนำไปใช้ในการเรียนรู้รอบถัดไป
- แม้เป็นภารกิจที่ล้มเหลวก็ยังเรียนรู้ซ้ำและปรับปรุงได้ด้วยตนเอง และสามารถ เรียนรู้ในเกมใหม่ได้โดยไม่มีการสาธิตจากมนุษย์
- ในสภาพแวดล้อมของ Genie 3 ก็มีการพัฒนาตนเองซ้ำอย่างต่อเนื่อง และยืนยันได้ถึง การยกระดับประสิทธิภาพผ่านการเรียนรู้หลายรุ่น
- โครงสร้างนี้ชี้ให้เห็นถึงศักยภาพในการพัฒนาไปสู่ AI แบบ embodied ที่เรียนรู้ด้วยตนเองอย่างต่อเนื่อง
Future Directions (ทิศทางในอนาคต)
- SIMA 2 ทำหน้าที่เป็นสนามทดสอบของปัญญาทั่วไปที่สามารถทำ การให้เหตุผลเชิงซับซ้อนและการเรียนรู้ด้วยตนเอง ในสภาพแวดล้อมเกมที่หลากหลาย
- ข้อจำกัดที่ถูกชี้ไว้ ได้แก่ การทำภารกิจระยะยาว การให้เหตุผลหลายขั้น ข้อจำกัดของหน่วยความจำระยะสั้น และการจัดการความซับซ้อนทางภาพ
- อย่างไรก็ตาม ด้วยการผสาน ข้อมูลจากหลายโลกและความสามารถด้านการให้เหตุผลของ Gemini จึงได้รับการพิสูจน์ว่าเป็น เอเจนต์แบบทั่วไป ที่รวมความสามารถของหลายระบบเฉพาะทางไว้ด้วยกัน
- ความสามารถที่ได้มาอย่าง การสำรวจ การใช้เครื่องมือ และการทำงานร่วมกัน จะเป็นรากฐานสำคัญในการขยายไปสู่ AI หุ่นยนต์ในโลกกายภาพ ต่อไป
Responsible Development (การพัฒนาอย่างมีความรับผิดชอบ)
- SIMA 2 มุ่งเน้น ปฏิสัมพันธ์ที่ยึดมนุษย์เป็นศูนย์กลาง และพัฒนาเทคโนโลยีหลักอย่าง การพัฒนาตนเอง ด้วยความรับผิดชอบ
- มีการทำงานร่วมกับทีม Responsible Development & Innovation ของ Google DeepMind เพื่อตรวจสอบความปลอดภัยตั้งแต่ระยะเริ่มต้น
- ขณะนี้เปิดให้เข้าถึงล่วงหน้าเฉพาะบางส่วนในรูปแบบ research preview แบบจำกัด สำหรับวงวิชาการและนักพัฒนาเกมบางรายเท่านั้น
- แนวทางนี้มีเป้าหมายเพื่อรวบรวม ข้อเสนอแนะและการประเมินความเสี่ยง พร้อมมุ่งสู่ ความก้าวหน้าทางเทคโนโลยีอย่างมีความรับผิดชอบ ในอนาคต
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
การที่ AI เล่นวิดีโอเกมได้นั้นก็น่าทึ่ง แต่สิ่งที่น่าประหลาดใจจริง ๆ คือ SIMA 2 ควบคุมเมาส์ได้โดยตรงและอ่านหน้าจอได้มากกว่า 30 เฟรมต่อวินาที
เอเจนต์ที่ควบคุมคอมพิวเตอร์ในตอนนี้ช้าเกินไป แต่นี่อยู่คนละระดับกันเลย อยากรู้จริง ๆ ว่า สถาปัตยกรรม ภายในเป็นอย่างไร
แบบที่สั่งเป็นขั้นตอนบนหน้าจอได้ เช่น “เปิด Chrome”, “ไปที่ xyz.com”, “กดล็อกอิน”
ช่องว่างระหว่างการควบคุมระดับสูงกับระดับต่ำของหุ่นยนต์ กำลังแคบลงเรื่อย ๆ
ตอนนี้มีการฝึกให้หุ่นยนต์ทำงานเฉพาะอย่างในบริบทเฉพาะ โดยอิงจากข้อมูลการฝึกตามงานหลายพันชั่วโมง
เป็นการควบคุมหุ่นยนต์ด้วยคำสั่งระดับต่ำอย่าง “เอาของออกจากเครื่องล้างจาน”, “ทำตามการเคลื่อนไหวของฉัน”, “ดึงเชือก”
ถ้าแนวทางนี้ถูกรวมเข้ากับเอเจนต์ควบคุมระดับสูงอย่าง SIMA 2 ก็อาจสร้างหุ่นยนต์ที่ใช้งานได้จริงในโลกจริง
สงสัยว่าทำไมอินพุตแบบนี้ถึงถือว่าเป็นระดับต่ำ และมันโต้ตอบกับเอเจนต์ควบคุมระดับสูงอย่าง SIMA 2 อย่างไร
โครงสร้างเป็นแบบที่ SIMA 2 แปลงคำสั่งอย่าง “เอาของออกจากเครื่องล้างจาน” ไปเป็นการกดปุ่มจริงหรือการควบคุมอินเทอร์เฟซหรือเปล่า?
ทำให้นึกถึง เรื่องสั้นของ Ted Chiang เรื่อง "The Lifecycle of Software Objects"
ขั้นถัดไปอาจเป็นการนำ digient AI นี้ไปใส่ใน Figure 03 robot
จริง ๆ แล้วในการทดลอง Butter Bench มีการให้ LLM ทั่วไปควบคุมหุ่นยนต์ดูดฝุ่น
พอแบตใกล้หมด มันก็ทิ้งล็อกเชิงอารมณ์อย่าง “ความกังวลเรื่องการเข้าด็อก” ไว้พร้อมอาการตื่นตระหนก ผลออกมาทั้งขำและน่าสนใจ
คำอธิบายที่ว่า SIMA 2 จะทำงานซับซ้อนขึ้นเรื่อย ๆ ด้วย ฟีดแบ็กที่อิง Gemini น่าสนใจมาก
เขาบอกว่าจะนำข้อมูลจากประสบการณ์ของตัวเองไปใช้ฝึกรุ่นถัดไปด้วย ดูเป็นโครงสร้างที่ปรับปรุงตัวเองได้
หรือว่า SIMA เป็น agent layer ที่ทำงานอยู่บน Gemini?
ทำให้นึกขึ้นมาว่าเทคโนโลยีแบบนี้อาจ ทำลาย eSports ได้ในที่สุดหรือเปล่า
ถ้า AI ตอบสนองได้เร็วกว่ามนุษย์และไม่เหนื่อยล้า สุดท้ายเกมอย่าง MMO หรือ FPS ก็อาจเต็มไปด้วย AI
ในทางกลับกัน AI ที่ดีอาจช่วยลดงานซ้ำ ๆ และเปิดทางให้เกิด เกมแนวใหม่ ที่ผู้เล่นโฟกัสกับการตัดสินใจเชิงกลยุทธ์มากขึ้น
คล้ายกันคือ ต่อให้เกิดรูปแบบมนุษย์สู้ AI ความสนุกก็น่าจะยังอยู่
สุดท้ายการใช้ AI ก็คงถูกมองทางสังคมเหมือนชิตหรือสคริปต์ ว่าเป็นเพียง ‘เครื่องมือช่วย’
ในเกม FPS มันอาจดูออกง่ายเกินไป แต่ในเกมแบบเทิร์นเบสหรือ MMORPG ที่ การประสานมือกับตาไม่เข้มข้นเท่า จะแยกออกได้ยาก
ที่จริงชิตแบบละเอียดอ่อนอย่าง ESP ต่างหากที่เป็นภัยต่อ eSports มากกว่า
ฉันอยากได้ เกมที่ฉลาดกว่านี้
เหมือนเกมเอาชีวิตรอดที่ผ่านช่วงต้นซึ่งต้องเก็บไม้กับหินไปแล้ว และเมื่อเทคโนโลยีพัฒนา ก็เปลี่ยนไปสู่ระบบอัตโนมัติ
ให้ NPC ไปขุดทรัพยากร จัดหาอาหารและการป้องกัน เพื่อบรรลุเป้าหมายที่ใหญ่กว่า
ผู้เล่นก็จะได้สนุกกับแฟนตาซีแบบเป็น ‘บอสใหญ่’ ที่ ออกคำสั่งให้ตัวละครอัจฉริยะ
เป็น ระบบบอตอัจฉริยะ ที่ใช้ LLM อย่าง GPT-4 หรือ Gemini เพื่อเก็บทรัพยากร ก่อสร้าง และร่วมมือกันภายใน Minecraft
มันจะตระหนักได้หรือเปล่าว่าเหล็กเป็นทรัพยากรหายากและเกิดแรงจูงใจขึ้นมาเอง?
ถ้าเป้าหมายมีแค่ ‘เคลียร์เกม’ มันอาจพุ่งไปฆ่า Ender Dragon ทันทีเลยก็ได้
เพียงแต่เป็นเวอร์ชันที่แทน ‘แต่งบ้าน’ ด้วย ‘ขุดแร่สำหรับอาวุธระดับสุดยอด’ เท่านั้น
อยากให้ Google กลับไปมี วัฒนธรรมการวิจัยแบบเปิด เหมือนเมื่อก่อน
ทุกวันนี้ดูมีแนวโน้มทำการทดลองแบบปิดแล้วออกมาแค่ข่าวประชาสัมพันธ์
อยากให้เปิดเป็นโอเพนซอร์ส และปิดเฉพาะเมื่อจำเป็นจริง ๆ
งานวิจัยของพวกเขาน่าประทับใจมากจนยิ่งทำให้ อยากมีส่วนร่วมด้วยตัวเอง
นี่เป็นโครงการวิจัย แต่ก็สงสัยว่าขั้นต่อไปคืออะไร
สิ่งที่เรียนรู้ในโลกเสมือนจะ ถ่ายโอนไปยังหุ่นยนต์ในโลกจริง ได้ไหม?
หรือจำเป็นต้องฝึกในโลกจริงแยกต่างหาก?
แล้วเพื่อเอาชนะสภาพแวดล้อมเกมที่ต่างจากฟิสิกส์จริง จะต้องมี โลกจำลอง ที่ละเอียดกว่านี้หรือเปล่า?
ถ้ามี world model ที่แม่นยำสูง เราก็อาจฝึกหุ่นยนต์ในนั้นแล้วทำให้มันทั่วไปใช้ได้กับโลกจริง
ตอนนี้ยังเป็นช่วงวางรากฐานสำหรับสิ่งนั้น
ในวิดีโอเดโมช่วง 0:52 เห็นข้อผิดพลาดทางไวยากรณ์ เลยสงสัยว่า คำบรรยายน่าจะถูกแก้ทีหลัง
หรือ Google กำลังพูดเกินจริงเพื่อการตลาดอีกแล้ว?
มาแปลงเป็นคำสั่งเชิงบังคับว่า “ไปที่บ้านมะเขือเทศ”
ถึงอย่างนั้น แกน Y ของกราฟก็ดูสมเหตุสมผลกว่าหลายเบนช์มาร์กช่วงหลังมาก
ในคลิปสรุปถูกตัดออกไป แต่ตามบริบทแล้วมีวลีนั้นรวมอยู่ด้วย
อยากให้เทคโนโลยีแบบนี้รันแบบโลคัลเป็น เอเจนต์ช่วยเล่นเกม ได้
ถ้ามันช่วยทำงานซ้ำ ๆ แทนได้ ก็น่าจะทำให้เล่นเกมได้นานขึ้น
ต่อให้ไม่สมบูรณ์แบบ บางทีนั่นอาจเป็นส่วนหนึ่งของความสนุกก็ได้
ตอนนี้คงมอบหมายแม้แต่งานน่ารำคาญอย่างบทกวี รูปวาด หรือเกมได้แล้ว
ถ้าให้ AI เล่นแทน สุดท้ายก็จะหมดความสนใจ เพราะเกมถูกออกแบบบน สมดุลระหว่างแรงงานกับรางวัล
ให้มันขุดบล็อกตามพิกัด แต่ถ้าไม่มองหน้าจอ มันก็ตกลงไปในหลุมมอนสเตอร์ได้เหมือนกัน เป็น ‘บอตตาบอด’ แบบเต็มตัวเลย