• เป็นระบบ AI agent แบบอ้างอิงตนเองที่ ปรับปรุงการเรียนรู้และกระบวนการแก้ปัญหาของตัวเองได้ด้วยตนเอง เพื่อลดการพึ่งพาการวิศวกรรมโดยมนุษย์ และก้าวข้ามข้อจำกัดของกลไกระดับเมตาที่ตายตัวในแนวทางการพัฒนาตนเองแบบเวียนซ้ำเดิม
  • โครงสร้างที่รวม task agent (ทำภารกิจตามเป้าหมาย) และ meta agent (แก้ไขตัวเองและ task agent) เข้าไว้เป็น โปรแกรมที่แก้ไขได้หนึ่งเดียว
  • Darwin Gödel Machine (DGM) เดิมสามารถพัฒนาตัวเองได้เฉพาะในงานเขียนโค้ด แต่ HyperAgents ขยายไปสู่หลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย หุ่นยนต์ และการตรวจให้คะแนนคณิตศาสตร์
  • ขั้นตอนการแก้ไขในระดับเมตาเองก็แก้ไขได้ ทำให้ การปรับแก้ตนเองเชิงเมตาคอกนิชัน ที่ปรับปรุงกลไกการพัฒนาได้เป็นจุดแตกต่างสำคัญ
  • งานทดลองยืนยันว่า การปรับปรุงระดับเมตา ถ่ายโอนข้ามโดเมนและสะสมข้ามการรัน ได้ แสดงให้เห็นความเป็นไปได้ของระบบ AI อเนกประสงค์ที่เร่งพัฒนาตัวเองได้

ข้อจำกัดของระบบพัฒนาตนเองแบบเดิม

  • เป้าหมายของระบบ AI ที่พัฒนาตัวเองได้ คือ ปรับปรุงกระบวนการเรียนรู้และการแก้ปัญหาโดยอัตโนมัติ เพื่อลดการพึ่งพาการวิศวกรรมโดยมนุษย์
  • แนวทาง recursive self-improvement แบบเดิมพึ่งพา กลไกระดับเมตาที่ตายตัวและสร้างขึ้นด้วยมือ ทำให้มีข้อจำกัดเชิงพื้นฐานต่อความเร็วที่ระบบจะพัฒนาต่อไปได้

Darwin Gödel Machine(DGM) และข้อจำกัดในโดเมนการเขียนโค้ด

  • DGM (Zhang et al., 2025b) เป็นระบบที่พิสูจน์ว่า open-ended self-improvement เป็นไปได้ในโดเมนการเขียนโค้ด
  • เริ่มจากเอเจนต์เขียนโค้ดตัวเดียว แล้ว สร้างและประเมินเวอร์ชันที่แก้ไขตัวเองซ้ำ ๆ พร้อมขยาย stepping-stone archive สำหรับการพัฒนาในอนาคต
  • เนื่องจากทั้งการประเมินและการปรับแก้ตนเองล้วนเป็นงานเขียนโค้ด การพัฒนาความสามารถด้านโค้ดจึงเชื่อมตรงกับความสามารถในการพัฒนาตัวเอง
  • แต่ การจัดแนวเฉพาะโดเมน (domain-specific alignment) แบบนี้โดยทั่วไปไม่เกิดขึ้นในโดเมนอื่นนอกเหนือจากการเขียนโค้ด

โครงสร้างของเฟรมเวิร์ก HyperAgents

  • HyperAgents เป็น self-referential agent ที่รวมองค์ประกอบสองส่วนไว้ใน โปรแกรมที่แก้ไขได้เพียงหนึ่งเดียว
    • task agent: ทำหน้าที่แก้ภารกิจตามเป้าหมาย
    • meta agent: ทำหน้าที่แก้ไขตัวเองและ task agent
  • แก่นสำคัญคือ ขั้นตอนการแก้ไขในระดับเมตาเองก็แก้ไขได้ จึงทำให้เกิด metacognitive self-modification
    • ไม่เพียงพัฒนาพฤติกรรมการแก้โจทย์ แต่ยัง พัฒนากลไกที่สร้างการปรับปรุงในอนาคตได้ด้วย

DGM-Hyperagents (DGM-H)

  • ขยาย DGM ให้เป็น DGM-Hyperagents (DGM-H)
  • ด้วยการเปิดให้ขั้นตอนการปรับปรุงเองวิวัฒน์ได้ จึงลบสมมติฐานเรื่อง การจัดแนวเฉพาะโดเมน ระหว่างประสิทธิภาพของงานกับความสามารถในการปรับแก้ตนเอง
  • ในทางทฤษฎี จึงมีศักยภาพที่จะรองรับ ความก้าวหน้าแบบเร่งตัวเอง ได้ในทุกงานที่คำนวณได้

ผลการทดลองและขอบเขตของโดเมน

  • มีการทดลองในหลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย การออกแบบรางวัลสำหรับหุ่นยนต์ และการ ตรวจให้คะแนนวิธีทำคณิตศาสตร์ระดับโอลิมปิก
  • DGM-H แสดงให้เห็นว่า ประสิทธิภาพดีขึ้นอย่างต่อเนื่อง เมื่อเวลาผ่านไป
  • ทำผลงานได้ ดีกว่า ทั้ง baseline ที่ไม่มีการพัฒนาตนเองหรือการสำรวจแบบ open-ended และดีกว่า DGM เดิม

การถ่ายโอนและการสะสมของการปรับปรุงระดับเมตา

  • พบว่า DGM-H ปรับปรุง กระบวนการสร้างเอเจนต์ใหม่ ได้โดยตรง
    • ตัวอย่าง: ได้การปรับปรุงระดับเมตาอย่าง persistent memory และ performance tracking
  • การปรับปรุงระดับเมตาเหล่านี้สามารถ ถ่ายโอนข้ามโดเมน (transfer across domains) และ สะสมข้ามการรัน (accumulate across runs) ได้

การพิจารณาด้านความปลอดภัย

  • การทดลองทั้งหมดดำเนินการภายใต้มาตรการป้องกันด้านความปลอดภัย เช่น sandboxing และ การกำกับดูแลโดยมนุษย์
  • มีการอภิปรายถึงความหมายของความปลอดภัยในบริบทของระบบที่พัฒนาตัวเองได้ และ นัยที่กว้างขวางของระบบลักษณะนี้

ความสำคัญ

  • DGM-Hyperagents ไม่ได้เพียงค้นหาวิธีแก้ที่ดีกว่าเท่านั้น แต่ยังชี้ให้เห็นความเป็นไปได้ของ ระบบ AI แบบ open-ended ที่พัฒนาวิธีการพัฒนาให้ดีขึ้นอย่างต่อเนื่อง

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น