Google SIMA 2 - เอเจนต์ที่เล่น คิด และเรียนรู้ร่วมกับคุณในโลกเสมือน 3D

(deepmind.google)

1 คะแนน โดย GN⁺ 2025-11-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

SIMA 2 ที่ผสานรวม โมเดล Gemini ได้ก้าวจากการทำตามคำสั่งภาษาธรรมดา ไปสู่การเป็น เอเจนต์ AI สำหรับสภาพแวดล้อมเสมือน 3D ที่เข้าใจเป้าหมายของผู้ใช้ คิดด้วยตนเอง และโต้ตอบได้
ต่างจากเวอร์ชันก่อนหน้าที่ทำพฤติกรรมตามภาษาได้มากกว่า 600 แบบ เวอร์ชันนี้มีความสามารถด้าน การให้เหตุผล·การสนทนา·การพัฒนาตนเอง จึงสามารถทำพฤติกรรมที่มุ่งเป้าหมายได้แม้ในเกมใหม่
แสดงความสามารถในการทำให้ใช้ได้ทั่วไปสูงแม้ในเกมที่ไม่เคยฝึกมาก่อน เช่น MineDojo, ASKA และทำอัตราความสำเร็จของงานได้ใกล้เคียงผู้เล่นมนุษย์
ใช้โครงสร้าง ลูปการพัฒนาตนเอง ที่สามารถสะสมประสบการณ์และยกระดับประสิทธิภาพได้ด้วยตนเองแม้ไม่มีข้อมูลจากมนุษย์
ความก้าวหน้านี้ปูพื้นฐานไปสู่การประยุกต์ใช้ด้าน embodied intelligence แบบทั่วไป และงานหุ่นยนต์

ภาพรวมของ SIMA 2

SIMA 2 คือ เอเจนต์ AI ที่ขับเคลื่อนด้วย Gemini ซึ่งพัฒนาโดย Google DeepMind เป็นระบบที่เล่นและเรียนรู้ร่วมกับมนุษย์ในสภาพแวดล้อมเสมือน 3D
SIMA เวอร์ชันแรกมุ่งเน้นการแปลงคำสั่งภาษาเป็นการกระทำ แต่ SIMA 2 เพิ่มความสามารถด้าน การอนุมานเป้าหมาย การสนทนา และการพัฒนาตนเอง
โมเดลนี้แสดงให้เห็นถึงความก้าวหน้าสู่ AGI (ปัญญาประดิษฐ์ทั่วไป) และมีความหมายสำคัญต่อโรโบติกส์และงานวิจัย AI แบบ embodied

Reasoning (ความสามารถด้านการให้เหตุผล)

SIMA 1 ทำคำสั่งได้มากกว่า 600 แบบ เช่น “หันไปทางซ้าย”, “ปีนบันได” แต่ใช้วิธี มองหน้าจอแล้วควบคุมโดยไม่เข้าถึงกลไกภายในเกม
SIMA 2 ฝังโมเดล Gemini ไว้ภายใน จึงก้าวข้ามการทำตามคำสั่งแบบง่าย ๆ ไปสู่การ เข้าใจเป้าหมายและคิดอย่างมีเหตุผล
ข้อมูลฝึกประกอบด้วยการผสมระหว่าง วิดีโอสาธิตจากมนุษย์และป้ายกำกับที่ Gemini สร้างขึ้น โดยเอเจนต์สามารถอธิบายแผนการกระทำและขั้นตอนของตนเองได้
ผลการทดสอบพบว่า ผู้ใช้รู้สึกว่าการโต้ตอบกับ SIMA 2 เป็น การทำงานร่วมกันมากกว่าการสั่งงาน และมีการฝึกกับประเมินผลในสภาพแวดล้อมเกมที่หลากหลาย
ด้วยเอนจินการให้เหตุผลของ Gemini จึงทำให้เกิด AI แบบ embodied ที่บูรณาการ การรับรู้·ความเข้าใจ·การกระทำ เข้าด้วยกันในสภาพแวดล้อม 3D ที่ซับซ้อน

Generalization (ความสามารถในการทำให้ใช้ได้ทั่วไป)

การผสาน Gemini ช่วยยกระดับ ความสามารถในการเข้าใจและทำตามคำสั่งที่ซับซ้อนและละเอียดอ่อน
แม้ในเกมที่ไม่เคยฝึกมาก่อน เช่น ASKA, MineDojo ก็ยังมีอัตราความสำเร็จสูง และทำ อัตราการทำภารกิจได้ใกล้ระดับมนุษย์
มี ความสามารถในการถ่ายโอนแนวคิด เช่น ย้ายแนวคิด “mining” ไปใช้กับ “harvesting” ในอีกเกมหนึ่ง
สามารถเข้าใจ คำสั่งหลายภาษาและอีโมจิ รวมถึงประมวลผล อินพุตหลายรูปแบบ (เช่น ภาพวาด) ได้
เมื่อทำงานร่วมกับ Genie 3 ก็ยังคงรักษาการรับรู้ทิศทางและพฤติกรรมที่มุ่งเป้าหมายได้แม้ใน โลกเสมือนที่สร้างขึ้นใหม่ แสดงให้เห็นถึงความสามารถในการปรับตัวสูง

Self-Improvement (การพัฒนาตนเอง)

SIMA 2 ยกระดับประสิทธิภาพได้โดยไม่ต้องมีการแทรกแซงจากมนุษย์ผ่าน ลูปการเรียนรู้แบบขับเคลื่อนตนเอง
- Gemini ให้การประเมินภารกิจเริ่มต้นและรางวัล
- จากนั้น SIMA 2 จะสร้าง คลังข้อมูลประสบการณ์ของตนเอง และนำไปใช้ในการเรียนรู้รอบถัดไป
แม้เป็นภารกิจที่ล้มเหลวก็ยังเรียนรู้ซ้ำและปรับปรุงได้ด้วยตนเอง และสามารถ เรียนรู้ในเกมใหม่ได้โดยไม่มีการสาธิตจากมนุษย์
ในสภาพแวดล้อมของ Genie 3 ก็มีการพัฒนาตนเองซ้ำอย่างต่อเนื่อง และยืนยันได้ถึง การยกระดับประสิทธิภาพผ่านการเรียนรู้หลายรุ่น
โครงสร้างนี้ชี้ให้เห็นถึงศักยภาพในการพัฒนาไปสู่ AI แบบ embodied ที่เรียนรู้ด้วยตนเองอย่างต่อเนื่อง

Future Directions (ทิศทางในอนาคต)

SIMA 2 ทำหน้าที่เป็นสนามทดสอบของปัญญาทั่วไปที่สามารถทำ การให้เหตุผลเชิงซับซ้อนและการเรียนรู้ด้วยตนเอง ในสภาพแวดล้อมเกมที่หลากหลาย
ข้อจำกัดที่ถูกชี้ไว้ ได้แก่ การทำภารกิจระยะยาว การให้เหตุผลหลายขั้น ข้อจำกัดของหน่วยความจำระยะสั้น และการจัดการความซับซ้อนทางภาพ
อย่างไรก็ตาม ด้วยการผสาน ข้อมูลจากหลายโลกและความสามารถด้านการให้เหตุผลของ Gemini จึงได้รับการพิสูจน์ว่าเป็น เอเจนต์แบบทั่วไป ที่รวมความสามารถของหลายระบบเฉพาะทางไว้ด้วยกัน
ความสามารถที่ได้มาอย่าง การสำรวจ การใช้เครื่องมือ และการทำงานร่วมกัน จะเป็นรากฐานสำคัญในการขยายไปสู่ AI หุ่นยนต์ในโลกกายภาพ ต่อไป

Responsible Development (การพัฒนาอย่างมีความรับผิดชอบ)

SIMA 2 มุ่งเน้น ปฏิสัมพันธ์ที่ยึดมนุษย์เป็นศูนย์กลาง และพัฒนาเทคโนโลยีหลักอย่าง การพัฒนาตนเอง ด้วยความรับผิดชอบ
มีการทำงานร่วมกับทีม Responsible Development & Innovation ของ Google DeepMind เพื่อตรวจสอบความปลอดภัยตั้งแต่ระยะเริ่มต้น
ขณะนี้เปิดให้เข้าถึงล่วงหน้าเฉพาะบางส่วนในรูปแบบ research preview แบบจำกัด สำหรับวงวิชาการและนักพัฒนาเกมบางรายเท่านั้น
แนวทางนี้มีเป้าหมายเพื่อรวบรวม ข้อเสนอแนะและการประเมินความเสี่ยง พร้อมมุ่งสู่ ความก้าวหน้าทางเทคโนโลยีอย่างมีความรับผิดชอบ ในอนาคต

1 ความคิดเห็น

GN⁺ 2025-11-14

ความคิดเห็นจาก Hacker News

การที่ AI เล่นวิดีโอเกมได้นั้นก็น่าทึ่ง แต่สิ่งที่น่าประหลาดใจจริง ๆ คือ SIMA 2 ควบคุมเมาส์ได้โดยตรงและอ่านหน้าจอได้มากกว่า 30 เฟรมต่อวินาที
เอเจนต์ที่ควบคุมคอมพิวเตอร์ในตอนนี้ช้าเกินไป แต่นี่อยู่คนละระดับกันเลย อยากรู้จริง ๆ ว่า สถาปัตยกรรม ภายในเป็นอย่างไร
- ในโลกทุกวันนี้ แค่การที่มนุษย์ยังตื่นเต้นกับอะไรบางอย่างได้ก็น่าทึ่งกว่าอีก เพราะ AI กำลังเข้ามาแทนที่สิ่งที่เราเคยทำทั้งหมด
- ฉันต้องการ AI agent ที่ช่วยควบคุมสมาร์ตโฟนแทนฉัน อย่างมาก
  แบบที่สั่งเป็นขั้นตอนบนหน้าจอได้ เช่น “เปิด Chrome”, “ไปที่ xyz.com”, “กดล็อกอิน”
- ควบคุมเมาส์โดยตรงงั้นเหรอ?
- เครื่องจักรก็เล่นเกมแบบเฟรมต่อเฟรมได้ไม่ใช่หรือ?
- น่าจะทำได้ด้วย dxcam ของ Python และรับข้อความ HID ผ่าน Windows Hook API
ช่องว่างระหว่างการควบคุมระดับสูงกับระดับต่ำของหุ่นยนต์ กำลังแคบลงเรื่อย ๆ
ตอนนี้มีการฝึกให้หุ่นยนต์ทำงานเฉพาะอย่างในบริบทเฉพาะ โดยอิงจากข้อมูลการฝึกตามงานหลายพันชั่วโมง
เป็นการควบคุมหุ่นยนต์ด้วยคำสั่งระดับต่ำอย่าง “เอาของออกจากเครื่องล้างจาน”, “ทำตามการเคลื่อนไหวของฉัน”, “ดึงเชือก”
ถ้าแนวทางนี้ถูกรวมเข้ากับเอเจนต์ควบคุมระดับสูงอย่าง SIMA 2 ก็อาจสร้างหุ่นยนต์ที่ใช้งานได้จริงในโลกจริง
- ฉันกำลังวิจัยด้าน แอนิเมชันตัวละครแบบอิงฟิสิกส์ อยู่ แต่ไม่คิดว่าปัญหานี้จะถูกแก้ได้ในเร็ว ๆ นี้แค่ด้วยการเก็บข้อมูลเพิ่ม
- ยังไม่ค่อยเข้าใจคำว่า “ทำงานเหมือนวิดีโอเกม”
  สงสัยว่าทำไมอินพุตแบบนี้ถึงถือว่าเป็นระดับต่ำ และมันโต้ตอบกับเอเจนต์ควบคุมระดับสูงอย่าง SIMA 2 อย่างไร
  โครงสร้างเป็นแบบที่ SIMA 2 แปลงคำสั่งอย่าง “เอาของออกจากเครื่องล้างจาน” ไปเป็นการกดปุ่มจริงหรือการควบคุมอินเทอร์เฟซหรือเปล่า?
ทำให้นึกถึง เรื่องสั้นของ Ted Chiang เรื่อง "The Lifecycle of Software Objects"
ขั้นถัดไปอาจเป็นการนำ digient AI นี้ไปใส่ใน Figure 03 robot
- Google น่าจะฝึก AI สำหรับควบคุมหุ่นยนต์โดยเฉพาะแยกต่างหาก
  จริง ๆ แล้วในการทดลอง Butter Bench มีการให้ LLM ทั่วไปควบคุมหุ่นยนต์ดูดฝุ่น
  พอแบตใกล้หมด มันก็ทิ้งล็อกเชิงอารมณ์อย่าง “ความกังวลเรื่องการเข้าด็อก” ไว้พร้อมอาการตื่นตระหนก ผลออกมาทั้งขำและน่าสนใจ
คำอธิบายที่ว่า SIMA 2 จะทำงานซับซ้อนขึ้นเรื่อย ๆ ด้วย ฟีดแบ็กที่อิง Gemini น่าสนใจมาก
เขาบอกว่าจะนำข้อมูลจากประสบการณ์ของตัวเองไปใช้ฝึกรุ่นถัดไปด้วย ดูเป็นโครงสร้างที่ปรับปรุงตัวเองได้
หรือว่า SIMA เป็น agent layer ที่ทำงานอยู่บน Gemini?
- ฉันก็ฟังดูแบบนั้นเหมือนกัน ดูเหมือนเป็นโครงสร้างที่สองระบบเชื่อมกันผ่าน text interface
ทำให้นึกขึ้นมาว่าเทคโนโลยีแบบนี้อาจ ทำลาย eSports ได้ในที่สุดหรือเปล่า
ถ้า AI ตอบสนองได้เร็วกว่ามนุษย์และไม่เหนื่อยล้า สุดท้ายเกมอย่าง MMO หรือ FPS ก็อาจเต็มไปด้วย AI
- กีฬาในท้ายที่สุดก็คือ ชุดของกติกา หัวใจสำคัญคือการป้องกันการโกง
  ในทางกลับกัน AI ที่ดีอาจช่วยลดงานซ้ำ ๆ และเปิดทางให้เกิด เกมแนวใหม่ ที่ผู้เล่นโฟกัสกับการตัดสินใจเชิงกลยุทธ์มากขึ้น
- หมากรุกก็มี AI ที่เก่งกว่ามนุษย์ไปแล้ว แต่ก็ยังสนุกอยู่
  คล้ายกันคือ ต่อให้เกิดรูปแบบมนุษย์สู้ AI ความสนุกก็น่าจะยังอยู่
- ช่วงแรกถ้า AI ชนะมนุษย์ก็คงเป็นข่าว แต่ไม่นาน ความแปลกใหม่ก็จะหายไป
  สุดท้ายการใช้ AI ก็คงถูกมองทางสังคมเหมือนชิตหรือสคริปต์ ว่าเป็นเพียง ‘เครื่องมือช่วย’
- ก่อนหน้านี้ใน World of Warcraft เคยมีบอตดรูอิดที่สร้างด้วยการเรียนรู้แบบเสริมกำลัง เอาชนะมนุษย์ทั้งหมดในแมตช์ 2v2
  ในเกม FPS มันอาจดูออกง่ายเกินไป แต่ในเกมแบบเทิร์นเบสหรือ MMORPG ที่ การประสานมือกับตาไม่เข้มข้นเท่า จะแยกออกได้ยาก
  ที่จริงชิตแบบละเอียดอ่อนอย่าง ESP ต่างหากที่เป็นภัยต่อ eSports มากกว่า
- สุดท้าย MMO ก็อาจ พังเหมือนโป๊กเกอร์ออนไลน์ ได้
ฉันอยากได้ เกมที่ฉลาดกว่านี้
เหมือนเกมเอาชีวิตรอดที่ผ่านช่วงต้นซึ่งต้องเก็บไม้กับหินไปแล้ว และเมื่อเทคโนโลยีพัฒนา ก็เปลี่ยนไปสู่ระบบอัตโนมัติ
ให้ NPC ไปขุดทรัพยากร จัดหาอาหารและการป้องกัน เพื่อบรรลุเป้าหมายที่ใหญ่กว่า
ผู้เล่นก็จะได้สนุกกับแฟนตาซีแบบเป็น ‘บอสใหญ่’ ที่ ออกคำสั่งให้ตัวละครอัจฉริยะ
- มีเฟรมเวิร์กโอเพนซอร์สชื่อ Mindcraft
  เป็น ระบบบอตอัจฉริยะ ที่ใช้ LLM อย่าง GPT-4 หรือ Gemini เพื่อเก็บทรัพยากร ก่อสร้าง และร่วมมือกันภายใน Minecraft
- สงสัยว่า SIMA 2 จะเรียนรู้ iron farm หรือ ตลาดแลกเปลี่ยน ใน Minecraft ได้เองไหม
  มันจะตระหนักได้หรือเปล่าว่าเหล็กเป็นทรัพยากรหายากและเกิดแรงจูงใจขึ้นมาเอง?
  ถ้าเป้าหมายมีแค่ ‘เคลียร์เกม’ มันอาจพุ่งไปฆ่า Ender Dragon ทันทีเลยก็ได้
- สุดท้ายแล้วมันก็คล้ายกับการเล่น The Sims
  เพียงแต่เป็นเวอร์ชันที่แทน ‘แต่งบ้าน’ ด้วย ‘ขุดแร่สำหรับอาวุธระดับสุดยอด’ เท่านั้น
อยากให้ Google กลับไปมี วัฒนธรรมการวิจัยแบบเปิด เหมือนเมื่อก่อน
ทุกวันนี้ดูมีแนวโน้มทำการทดลองแบบปิดแล้วออกมาแค่ข่าวประชาสัมพันธ์
อยากให้เปิดเป็นโอเพนซอร์ส และปิดเฉพาะเมื่อจำเป็นจริง ๆ
งานวิจัยของพวกเขาน่าประทับใจมากจนยิ่งทำให้ อยากมีส่วนร่วมด้วยตัวเอง
- เห็นด้วยมาก อยากลองใช้เองเหมือนกัน
- Dreamer v3 เปิดแล้ว แล้ว v4 จะออกมาเร็ว ๆ นี้ไหม?
นี่เป็นโครงการวิจัย แต่ก็สงสัยว่าขั้นต่อไปคืออะไร
สิ่งที่เรียนรู้ในโลกเสมือนจะ ถ่ายโอนไปยังหุ่นยนต์ในโลกจริง ได้ไหม?
หรือจำเป็นต้องฝึกในโลกจริงแยกต่างหาก?
แล้วเพื่อเอาชนะสภาพแวดล้อมเกมที่ต่างจากฟิสิกส์จริง จะต้องมี โลกจำลอง ที่ละเอียดกว่านี้หรือเปล่า?
- เป้าหมายคือการนำวิธีการเรียนรู้จากโลกเสมือนไปใช้กับโลกจริง
  ถ้ามี world model ที่แม่นยำสูง เราก็อาจฝึกหุ่นยนต์ในนั้นแล้วทำให้มันทั่วไปใช้ได้กับโลกจริง
  ตอนนี้ยังเป็นช่วงวางรากฐานสำหรับสิ่งนั้น
- เรื่องนี้ในวงการหุ่นยนต์เรียกว่า ปัญหา sim2real ลองดูได้
ในวิดีโอเดโมช่วง 0:52 เห็นข้อผิดพลาดทางไวยากรณ์ เลยสงสัยว่า คำบรรยายน่าจะถูกแก้ทีหลัง
หรือ Google กำลังพูดเกินจริงเพื่อการตลาดอีกแล้ว?
- น่าจะเป็นเพราะเขาเอาบทพูดในเกมว่า “ไปที่บ้านที่ดูเหมือนมะเขือเทศสุก!”
  มาแปลงเป็นคำสั่งเชิงบังคับว่า “ไปที่บ้านมะเขือเทศ”
  ถึงอย่างนั้น แกน Y ของกราฟก็ดูสมเหตุสมผลกว่าหลายเบนช์มาร์กช่วงหลังมาก
- จริง ๆ แล้วก่อนฉากนั้นจะเห็นว่าผู้ใช้พิมพ์คำว่า “ripe tomato” อยู่
  ในคลิปสรุปถูกตัดออกไป แต่ตามบริบทแล้วมีวลีนั้นรวมอยู่ด้วย
อยากให้เทคโนโลยีแบบนี้รันแบบโลคัลเป็น เอเจนต์ช่วยเล่นเกม ได้
ถ้ามันช่วยทำงานซ้ำ ๆ แทนได้ ก็น่าจะทำให้เล่นเกมได้นานขึ้น
ต่อให้ไม่สมบูรณ์แบบ บางทีนั่นอาจเป็นส่วนหนึ่งของความสนุกก็ได้
- สำหรับฉัน ถ้า AI เล่นเกมแทนได้ ฉันอาจเอาเวลานั้นไปทำ งานจริงอย่างกวาดบ้านหรือซักผ้า ได้
  ตอนนี้คงมอบหมายแม้แต่งานน่ารำคาญอย่างบทกวี รูปวาด หรือเกมได้แล้ว
- ถ้าเกมไม่สนุกจนต้องให้คนอื่นเล่นแทน มันก็แปลกอยู่ดี แก่นของเกมคือการเล่นด้วยตัวเอง
- เหมือน “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”
  ถ้าให้ AI เล่นแทน สุดท้ายก็จะหมดความสนใจ เพราะเกมถูกออกแบบบน สมดุลระหว่างแรงงานกับรางวัล
- ถ้าต้องมอบหมายงานซ้ำ ๆ ออกไป แบบนั้นก็แปลว่า การออกแบบเกมมีปัญหา
- ฉันเองก็เคยเขียน สคริปต์ขุดอัตโนมัติ ด้วย AutoHotkey ใน Terraria
  ให้มันขุดบล็อกตามพิกัด แต่ถ้าไม่มองหน้าจอ มันก็ตกลงไปในหลุมมอนสเตอร์ได้เหมือนกัน เป็น ‘บอตตาบอด’ แบบเต็มตัวเลย

Google SIMA 2 - เอเจนต์ที่เล่น คิด และเรียนรู้ร่วมกับคุณในโลกเสมือน 3D

ภาพรวมของ SIMA 2

Reasoning (ความสามารถด้านการให้เหตุผล)

Generalization (ความสามารถในการทำให้ใช้ได้ทั่วไป)

Self-Improvement (การพัฒนาตนเอง)

Future Directions (ทิศทางในอนาคต)

Responsible Development (การพัฒนาอย่างมีความรับผิดชอบ)

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News