1 คะแนน โดย GN⁺ 2025-11-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • SIMA 2 ที่ผสานรวม โมเดล Gemini ได้ก้าวจากการทำตามคำสั่งภาษาธรรมดา ไปสู่การเป็น เอเจนต์ AI สำหรับสภาพแวดล้อมเสมือน 3D ที่เข้าใจเป้าหมายของผู้ใช้ คิดด้วยตนเอง และโต้ตอบได้
  • ต่างจากเวอร์ชันก่อนหน้าที่ทำพฤติกรรมตามภาษาได้มากกว่า 600 แบบ เวอร์ชันนี้มีความสามารถด้าน การให้เหตุผล·การสนทนา·การพัฒนาตนเอง จึงสามารถทำพฤติกรรมที่มุ่งเป้าหมายได้แม้ในเกมใหม่
  • แสดงความสามารถในการทำให้ใช้ได้ทั่วไปสูงแม้ในเกมที่ไม่เคยฝึกมาก่อน เช่น MineDojo, ASKA และทำอัตราความสำเร็จของงานได้ใกล้เคียงผู้เล่นมนุษย์
  • ใช้โครงสร้าง ลูปการพัฒนาตนเอง ที่สามารถสะสมประสบการณ์และยกระดับประสิทธิภาพได้ด้วยตนเองแม้ไม่มีข้อมูลจากมนุษย์
  • ความก้าวหน้านี้ปูพื้นฐานไปสู่การประยุกต์ใช้ด้าน embodied intelligence แบบทั่วไป และงานหุ่นยนต์

ภาพรวมของ SIMA 2

  • SIMA 2 คือ เอเจนต์ AI ที่ขับเคลื่อนด้วย Gemini ซึ่งพัฒนาโดย Google DeepMind เป็นระบบที่เล่นและเรียนรู้ร่วมกับมนุษย์ในสภาพแวดล้อมเสมือน 3D
  • SIMA เวอร์ชันแรกมุ่งเน้นการแปลงคำสั่งภาษาเป็นการกระทำ แต่ SIMA 2 เพิ่มความสามารถด้าน การอนุมานเป้าหมาย การสนทนา และการพัฒนาตนเอง
  • โมเดลนี้แสดงให้เห็นถึงความก้าวหน้าสู่ AGI (ปัญญาประดิษฐ์ทั่วไป) และมีความหมายสำคัญต่อโรโบติกส์และงานวิจัย AI แบบ embodied

Reasoning (ความสามารถด้านการให้เหตุผล)

  • SIMA 1 ทำคำสั่งได้มากกว่า 600 แบบ เช่น “หันไปทางซ้าย”, “ปีนบันได” แต่ใช้วิธี มองหน้าจอแล้วควบคุมโดยไม่เข้าถึงกลไกภายในเกม
  • SIMA 2 ฝังโมเดล Gemini ไว้ภายใน จึงก้าวข้ามการทำตามคำสั่งแบบง่าย ๆ ไปสู่การ เข้าใจเป้าหมายและคิดอย่างมีเหตุผล
  • ข้อมูลฝึกประกอบด้วยการผสมระหว่าง วิดีโอสาธิตจากมนุษย์และป้ายกำกับที่ Gemini สร้างขึ้น โดยเอเจนต์สามารถอธิบายแผนการกระทำและขั้นตอนของตนเองได้
  • ผลการทดสอบพบว่า ผู้ใช้รู้สึกว่าการโต้ตอบกับ SIMA 2 เป็น การทำงานร่วมกันมากกว่าการสั่งงาน และมีการฝึกกับประเมินผลในสภาพแวดล้อมเกมที่หลากหลาย
  • ด้วยเอนจินการให้เหตุผลของ Gemini จึงทำให้เกิด AI แบบ embodied ที่บูรณาการ การรับรู้·ความเข้าใจ·การกระทำ เข้าด้วยกันในสภาพแวดล้อม 3D ที่ซับซ้อน

Generalization (ความสามารถในการทำให้ใช้ได้ทั่วไป)

  • การผสาน Gemini ช่วยยกระดับ ความสามารถในการเข้าใจและทำตามคำสั่งที่ซับซ้อนและละเอียดอ่อน
  • แม้ในเกมที่ไม่เคยฝึกมาก่อน เช่น ASKA, MineDojo ก็ยังมีอัตราความสำเร็จสูง และทำ อัตราการทำภารกิจได้ใกล้ระดับมนุษย์
  • มี ความสามารถในการถ่ายโอนแนวคิด เช่น ย้ายแนวคิด “mining” ไปใช้กับ “harvesting” ในอีกเกมหนึ่ง
  • สามารถเข้าใจ คำสั่งหลายภาษาและอีโมจิ รวมถึงประมวลผล อินพุตหลายรูปแบบ (เช่น ภาพวาด) ได้
  • เมื่อทำงานร่วมกับ Genie 3 ก็ยังคงรักษาการรับรู้ทิศทางและพฤติกรรมที่มุ่งเป้าหมายได้แม้ใน โลกเสมือนที่สร้างขึ้นใหม่ แสดงให้เห็นถึงความสามารถในการปรับตัวสูง

Self-Improvement (การพัฒนาตนเอง)

  • SIMA 2 ยกระดับประสิทธิภาพได้โดยไม่ต้องมีการแทรกแซงจากมนุษย์ผ่าน ลูปการเรียนรู้แบบขับเคลื่อนตนเอง
    • Gemini ให้การประเมินภารกิจเริ่มต้นและรางวัล
    • จากนั้น SIMA 2 จะสร้าง คลังข้อมูลประสบการณ์ของตนเอง และนำไปใช้ในการเรียนรู้รอบถัดไป
  • แม้เป็นภารกิจที่ล้มเหลวก็ยังเรียนรู้ซ้ำและปรับปรุงได้ด้วยตนเอง และสามารถ เรียนรู้ในเกมใหม่ได้โดยไม่มีการสาธิตจากมนุษย์
  • ในสภาพแวดล้อมของ Genie 3 ก็มีการพัฒนาตนเองซ้ำอย่างต่อเนื่อง และยืนยันได้ถึง การยกระดับประสิทธิภาพผ่านการเรียนรู้หลายรุ่น
  • โครงสร้างนี้ชี้ให้เห็นถึงศักยภาพในการพัฒนาไปสู่ AI แบบ embodied ที่เรียนรู้ด้วยตนเองอย่างต่อเนื่อง

Future Directions (ทิศทางในอนาคต)

  • SIMA 2 ทำหน้าที่เป็นสนามทดสอบของปัญญาทั่วไปที่สามารถทำ การให้เหตุผลเชิงซับซ้อนและการเรียนรู้ด้วยตนเอง ในสภาพแวดล้อมเกมที่หลากหลาย
  • ข้อจำกัดที่ถูกชี้ไว้ ได้แก่ การทำภารกิจระยะยาว การให้เหตุผลหลายขั้น ข้อจำกัดของหน่วยความจำระยะสั้น และการจัดการความซับซ้อนทางภาพ
  • อย่างไรก็ตาม ด้วยการผสาน ข้อมูลจากหลายโลกและความสามารถด้านการให้เหตุผลของ Gemini จึงได้รับการพิสูจน์ว่าเป็น เอเจนต์แบบทั่วไป ที่รวมความสามารถของหลายระบบเฉพาะทางไว้ด้วยกัน
  • ความสามารถที่ได้มาอย่าง การสำรวจ การใช้เครื่องมือ และการทำงานร่วมกัน จะเป็นรากฐานสำคัญในการขยายไปสู่ AI หุ่นยนต์ในโลกกายภาพ ต่อไป

Responsible Development (การพัฒนาอย่างมีความรับผิดชอบ)

  • SIMA 2 มุ่งเน้น ปฏิสัมพันธ์ที่ยึดมนุษย์เป็นศูนย์กลาง และพัฒนาเทคโนโลยีหลักอย่าง การพัฒนาตนเอง ด้วยความรับผิดชอบ
  • มีการทำงานร่วมกับทีม Responsible Development & Innovation ของ Google DeepMind เพื่อตรวจสอบความปลอดภัยตั้งแต่ระยะเริ่มต้น
  • ขณะนี้เปิดให้เข้าถึงล่วงหน้าเฉพาะบางส่วนในรูปแบบ research preview แบบจำกัด สำหรับวงวิชาการและนักพัฒนาเกมบางรายเท่านั้น
  • แนวทางนี้มีเป้าหมายเพื่อรวบรวม ข้อเสนอแนะและการประเมินความเสี่ยง พร้อมมุ่งสู่ ความก้าวหน้าทางเทคโนโลยีอย่างมีความรับผิดชอบ ในอนาคต

1 ความคิดเห็น

 
GN⁺ 2025-11-14
ความคิดเห็นจาก Hacker News
  • การที่ AI เล่นวิดีโอเกมได้นั้นก็น่าทึ่ง แต่สิ่งที่น่าประหลาดใจจริง ๆ คือ SIMA 2 ควบคุมเมาส์ได้โดยตรงและอ่านหน้าจอได้มากกว่า 30 เฟรมต่อวินาที
    เอเจนต์ที่ควบคุมคอมพิวเตอร์ในตอนนี้ช้าเกินไป แต่นี่อยู่คนละระดับกันเลย อยากรู้จริง ๆ ว่า สถาปัตยกรรม ภายในเป็นอย่างไร

    • ในโลกทุกวันนี้ แค่การที่มนุษย์ยังตื่นเต้นกับอะไรบางอย่างได้ก็น่าทึ่งกว่าอีก เพราะ AI กำลังเข้ามาแทนที่สิ่งที่เราเคยทำทั้งหมด
    • ฉันต้องการ AI agent ที่ช่วยควบคุมสมาร์ตโฟนแทนฉัน อย่างมาก
      แบบที่สั่งเป็นขั้นตอนบนหน้าจอได้ เช่น “เปิด Chrome”, “ไปที่ xyz.com”, “กดล็อกอิน”
    • ควบคุมเมาส์โดยตรงงั้นเหรอ?
    • เครื่องจักรก็เล่นเกมแบบเฟรมต่อเฟรมได้ไม่ใช่หรือ?
    • น่าจะทำได้ด้วย dxcam ของ Python และรับข้อความ HID ผ่าน Windows Hook API
  • ช่องว่างระหว่างการควบคุมระดับสูงกับระดับต่ำของหุ่นยนต์ กำลังแคบลงเรื่อย ๆ
    ตอนนี้มีการฝึกให้หุ่นยนต์ทำงานเฉพาะอย่างในบริบทเฉพาะ โดยอิงจากข้อมูลการฝึกตามงานหลายพันชั่วโมง
    เป็นการควบคุมหุ่นยนต์ด้วยคำสั่งระดับต่ำอย่าง “เอาของออกจากเครื่องล้างจาน”, “ทำตามการเคลื่อนไหวของฉัน”, “ดึงเชือก”
    ถ้าแนวทางนี้ถูกรวมเข้ากับเอเจนต์ควบคุมระดับสูงอย่าง SIMA 2 ก็อาจสร้างหุ่นยนต์ที่ใช้งานได้จริงในโลกจริง

    • ฉันกำลังวิจัยด้าน แอนิเมชันตัวละครแบบอิงฟิสิกส์ อยู่ แต่ไม่คิดว่าปัญหานี้จะถูกแก้ได้ในเร็ว ๆ นี้แค่ด้วยการเก็บข้อมูลเพิ่ม
    • ยังไม่ค่อยเข้าใจคำว่า “ทำงานเหมือนวิดีโอเกม”
      สงสัยว่าทำไมอินพุตแบบนี้ถึงถือว่าเป็นระดับต่ำ และมันโต้ตอบกับเอเจนต์ควบคุมระดับสูงอย่าง SIMA 2 อย่างไร
      โครงสร้างเป็นแบบที่ SIMA 2 แปลงคำสั่งอย่าง “เอาของออกจากเครื่องล้างจาน” ไปเป็นการกดปุ่มจริงหรือการควบคุมอินเทอร์เฟซหรือเปล่า?
  • ทำให้นึกถึง เรื่องสั้นของ Ted Chiang เรื่อง "The Lifecycle of Software Objects"
    ขั้นถัดไปอาจเป็นการนำ digient AI นี้ไปใส่ใน Figure 03 robot

    • Google น่าจะฝึก AI สำหรับควบคุมหุ่นยนต์โดยเฉพาะแยกต่างหาก
      จริง ๆ แล้วในการทดลอง Butter Bench มีการให้ LLM ทั่วไปควบคุมหุ่นยนต์ดูดฝุ่น
      พอแบตใกล้หมด มันก็ทิ้งล็อกเชิงอารมณ์อย่าง “ความกังวลเรื่องการเข้าด็อก” ไว้พร้อมอาการตื่นตระหนก ผลออกมาทั้งขำและน่าสนใจ
  • คำอธิบายที่ว่า SIMA 2 จะทำงานซับซ้อนขึ้นเรื่อย ๆ ด้วย ฟีดแบ็กที่อิง Gemini น่าสนใจมาก
    เขาบอกว่าจะนำข้อมูลจากประสบการณ์ของตัวเองไปใช้ฝึกรุ่นถัดไปด้วย ดูเป็นโครงสร้างที่ปรับปรุงตัวเองได้
    หรือว่า SIMA เป็น agent layer ที่ทำงานอยู่บน Gemini?

    • ฉันก็ฟังดูแบบนั้นเหมือนกัน ดูเหมือนเป็นโครงสร้างที่สองระบบเชื่อมกันผ่าน text interface
  • ทำให้นึกขึ้นมาว่าเทคโนโลยีแบบนี้อาจ ทำลาย eSports ได้ในที่สุดหรือเปล่า
    ถ้า AI ตอบสนองได้เร็วกว่ามนุษย์และไม่เหนื่อยล้า สุดท้ายเกมอย่าง MMO หรือ FPS ก็อาจเต็มไปด้วย AI

    • กีฬาในท้ายที่สุดก็คือ ชุดของกติกา หัวใจสำคัญคือการป้องกันการโกง
      ในทางกลับกัน AI ที่ดีอาจช่วยลดงานซ้ำ ๆ และเปิดทางให้เกิด เกมแนวใหม่ ที่ผู้เล่นโฟกัสกับการตัดสินใจเชิงกลยุทธ์มากขึ้น
    • หมากรุกก็มี AI ที่เก่งกว่ามนุษย์ไปแล้ว แต่ก็ยังสนุกอยู่
      คล้ายกันคือ ต่อให้เกิดรูปแบบมนุษย์สู้ AI ความสนุกก็น่าจะยังอยู่
    • ช่วงแรกถ้า AI ชนะมนุษย์ก็คงเป็นข่าว แต่ไม่นาน ความแปลกใหม่ก็จะหายไป
      สุดท้ายการใช้ AI ก็คงถูกมองทางสังคมเหมือนชิตหรือสคริปต์ ว่าเป็นเพียง ‘เครื่องมือช่วย’
    • ก่อนหน้านี้ใน World of Warcraft เคยมีบอตดรูอิดที่สร้างด้วยการเรียนรู้แบบเสริมกำลัง เอาชนะมนุษย์ทั้งหมดในแมตช์ 2v2
      ในเกม FPS มันอาจดูออกง่ายเกินไป แต่ในเกมแบบเทิร์นเบสหรือ MMORPG ที่ การประสานมือกับตาไม่เข้มข้นเท่า จะแยกออกได้ยาก
      ที่จริงชิตแบบละเอียดอ่อนอย่าง ESP ต่างหากที่เป็นภัยต่อ eSports มากกว่า
    • สุดท้าย MMO ก็อาจ พังเหมือนโป๊กเกอร์ออนไลน์ ได้
  • ฉันอยากได้ เกมที่ฉลาดกว่านี้
    เหมือนเกมเอาชีวิตรอดที่ผ่านช่วงต้นซึ่งต้องเก็บไม้กับหินไปแล้ว และเมื่อเทคโนโลยีพัฒนา ก็เปลี่ยนไปสู่ระบบอัตโนมัติ
    ให้ NPC ไปขุดทรัพยากร จัดหาอาหารและการป้องกัน เพื่อบรรลุเป้าหมายที่ใหญ่กว่า
    ผู้เล่นก็จะได้สนุกกับแฟนตาซีแบบเป็น ‘บอสใหญ่’ ที่ ออกคำสั่งให้ตัวละครอัจฉริยะ

    • มีเฟรมเวิร์กโอเพนซอร์สชื่อ Mindcraft
      เป็น ระบบบอตอัจฉริยะ ที่ใช้ LLM อย่าง GPT-4 หรือ Gemini เพื่อเก็บทรัพยากร ก่อสร้าง และร่วมมือกันภายใน Minecraft
    • สงสัยว่า SIMA 2 จะเรียนรู้ iron farm หรือ ตลาดแลกเปลี่ยน ใน Minecraft ได้เองไหม
      มันจะตระหนักได้หรือเปล่าว่าเหล็กเป็นทรัพยากรหายากและเกิดแรงจูงใจขึ้นมาเอง?
      ถ้าเป้าหมายมีแค่ ‘เคลียร์เกม’ มันอาจพุ่งไปฆ่า Ender Dragon ทันทีเลยก็ได้
    • สุดท้ายแล้วมันก็คล้ายกับการเล่น The Sims
      เพียงแต่เป็นเวอร์ชันที่แทน ‘แต่งบ้าน’ ด้วย ‘ขุดแร่สำหรับอาวุธระดับสุดยอด’ เท่านั้น
  • อยากให้ Google กลับไปมี วัฒนธรรมการวิจัยแบบเปิด เหมือนเมื่อก่อน
    ทุกวันนี้ดูมีแนวโน้มทำการทดลองแบบปิดแล้วออกมาแค่ข่าวประชาสัมพันธ์
    อยากให้เปิดเป็นโอเพนซอร์ส และปิดเฉพาะเมื่อจำเป็นจริง ๆ
    งานวิจัยของพวกเขาน่าประทับใจมากจนยิ่งทำให้ อยากมีส่วนร่วมด้วยตัวเอง

    • เห็นด้วยมาก อยากลองใช้เองเหมือนกัน
    • Dreamer v3 เปิดแล้ว แล้ว v4 จะออกมาเร็ว ๆ นี้ไหม?
  • นี่เป็นโครงการวิจัย แต่ก็สงสัยว่าขั้นต่อไปคืออะไร
    สิ่งที่เรียนรู้ในโลกเสมือนจะ ถ่ายโอนไปยังหุ่นยนต์ในโลกจริง ได้ไหม?
    หรือจำเป็นต้องฝึกในโลกจริงแยกต่างหาก?
    แล้วเพื่อเอาชนะสภาพแวดล้อมเกมที่ต่างจากฟิสิกส์จริง จะต้องมี โลกจำลอง ที่ละเอียดกว่านี้หรือเปล่า?

    • เป้าหมายคือการนำวิธีการเรียนรู้จากโลกเสมือนไปใช้กับโลกจริง
      ถ้ามี world model ที่แม่นยำสูง เราก็อาจฝึกหุ่นยนต์ในนั้นแล้วทำให้มันทั่วไปใช้ได้กับโลกจริง
      ตอนนี้ยังเป็นช่วงวางรากฐานสำหรับสิ่งนั้น
    • เรื่องนี้ในวงการหุ่นยนต์เรียกว่า ปัญหา sim2real ลองดูได้
  • ในวิดีโอเดโมช่วง 0:52 เห็นข้อผิดพลาดทางไวยากรณ์ เลยสงสัยว่า คำบรรยายน่าจะถูกแก้ทีหลัง
    หรือ Google กำลังพูดเกินจริงเพื่อการตลาดอีกแล้ว?

    • น่าจะเป็นเพราะเขาเอาบทพูดในเกมว่า “ไปที่บ้านที่ดูเหมือนมะเขือเทศสุก!”
      มาแปลงเป็นคำสั่งเชิงบังคับว่า “ไปที่บ้านมะเขือเทศ”
      ถึงอย่างนั้น แกน Y ของกราฟก็ดูสมเหตุสมผลกว่าหลายเบนช์มาร์กช่วงหลังมาก
    • จริง ๆ แล้วก่อนฉากนั้นจะเห็นว่าผู้ใช้พิมพ์คำว่า “ripe tomato” อยู่
      ในคลิปสรุปถูกตัดออกไป แต่ตามบริบทแล้วมีวลีนั้นรวมอยู่ด้วย
  • อยากให้เทคโนโลยีแบบนี้รันแบบโลคัลเป็น เอเจนต์ช่วยเล่นเกม ได้
    ถ้ามันช่วยทำงานซ้ำ ๆ แทนได้ ก็น่าจะทำให้เล่นเกมได้นานขึ้น
    ต่อให้ไม่สมบูรณ์แบบ บางทีนั่นอาจเป็นส่วนหนึ่งของความสนุกก็ได้

    • สำหรับฉัน ถ้า AI เล่นเกมแทนได้ ฉันอาจเอาเวลานั้นไปทำ งานจริงอย่างกวาดบ้านหรือซักผ้า ได้
      ตอนนี้คงมอบหมายแม้แต่งานน่ารำคาญอย่างบทกวี รูปวาด หรือเกมได้แล้ว
    • ถ้าเกมไม่สนุกจนต้องให้คนอื่นเล่นแทน มันก็แปลกอยู่ดี แก่นของเกมคือการเล่นด้วยตัวเอง
    • เหมือน “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”
      ถ้าให้ AI เล่นแทน สุดท้ายก็จะหมดความสนใจ เพราะเกมถูกออกแบบบน สมดุลระหว่างแรงงานกับรางวัล
    • ถ้าต้องมอบหมายงานซ้ำ ๆ ออกไป แบบนั้นก็แปลว่า การออกแบบเกมมีปัญหา
    • ฉันเองก็เคยเขียน สคริปต์ขุดอัตโนมัติ ด้วย AutoHotkey ใน Terraria
      ให้มันขุดบล็อกตามพิกัด แต่ถ้าไม่มองหน้าจอ มันก็ตกลงไปในหลุมมอนสเตอร์ได้เหมือนกัน เป็น ‘บอตตาบอด’ แบบเต็มตัวเลย