HyperAgents ของ Meta — เมื่อเอเจนต์ออกแบบฮาร์เนสของตัวเองได้
(cobusgreyling.medium.com)- HyperAgents ที่ Meta และ UBC ร่วมกันเผยแพร่ คือเฟรมเวิร์ก AI เอเจนต์แบบอ้างอิงตนเอง ที่ไม่เพียงแก้ไขโค้ดสำหรับทำงาน แต่ยังแก้ไขกลไกการปรับปรุงตัวเองได้ด้วย
- จากการทำ self-improvement ซ้ำ ๆ ในหลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย หุ่นยนต์ และการให้คะแนนคณิตศาสตร์ พบว่าเอเจนต์สามารถคิดค้น หน่วยความจำถาวร การติดตามประสิทธิภาพ และไปป์ไลน์การตรวจสอบหลายขั้นตอน ได้อย่างอิสระ
- องค์ประกอบที่เอเจนต์สร้างขึ้นเองเหล่านี้ ตรงกับองค์ประกอบหลักของ production harness ที่นักพัฒนามักสร้างด้วยมืออย่างพอดี
- Harness ไม่ใช่แค่สิ่งอำนวยความสะดวกในการพัฒนา แต่เป็น สถาปัตยกรรมแบบลู่เข้าสู่รูปเดียวกัน ของระบบ agentic และเอเจนต์กำลังเปลี่ยนจาก ผู้บริโภค โครงสร้างพื้นฐานไปเป็น ผู้ผลิต
- บทบาทของนักพัฒนากำลังเปลี่ยนจากการสร้าง harness โดยตรง ไปสู่การ ออกแบบเงื่อนไขตั้งต้น ที่ทำให้เอเจนต์วิวัฒน์ harness ที่มีประสิทธิภาพได้
ภาพรวมของ HyperAgents
- HyperAgents ที่นำเสนอในงานวิจัยใหม่ของ Meta และ UBC เป็นเอเจนต์แบบ self-referential ที่สามารถแก้ไขได้ไม่เฉพาะพฤติกรรมการแก้ปัญหา แต่รวมถึงกลไกที่ใช้สร้างการปรับปรุงในอนาคตด้วย
- สิ่งที่น่าสนใจคือผลลัพธ์ที่เอเจนต์ลู่เข้าไปหาเมื่อปล่อยให้ปรับปรุงตัวเอง ซึ่งก็คือการ คิดค้นใหม่ องค์ประกอบแบบเดียวกับที่นักพัฒนาสร้างด้วยมือในปัจจุบัน
- Hyperagent ถูกนิยามให้เป็น ผู้ผลิต (producer) ของโครงสร้างพื้นฐาน
HyperAgents เทียบกับ Universal Agents
- Universal Agent คือผู้ปฏิบัติการ (executor) ที่ปรับตัวได้สูง สามารถแก้ปัญหาแทบทุกอย่างแบบเฉพาะหน้าโดยการเขียนโค้ด แต่ยังคงทำงานอยู่ภายในโครงสร้างพื้นฐาน (harness) ที่มนุษย์ออกแบบ
- Hyperagent เป็นผู้ผลิตโครงสร้างพื้นฐาน โดยเริ่มจากสถานะขั้นต่ำแล้ว บูตสแตรป harness ระดับ production ของตัวเองผ่าน วิวัฒนาการแบบอ้างอิงตนเอง
ความหมายของฮาร์เนส (Harness) และองค์ประกอบหลัก
- Harness คือระบบซอฟต์แวร์ที่กำกับวิธีการทำงานของ AI เอเจนต์ โดยจัดการเครื่องมือ หน่วยความจำ การลองใหม่ context engineering และการตรวจสอบ เพื่อให้โมเดลโฟกัสกับการใช้เหตุผลได้
- องค์ประกอบหลัก 6 อย่างที่จำเป็นต่อ production harness:
- Tool Integration: การลงทะเบียนและเรียกใช้เครื่องมือ
- Memory & State: การทำให้ผลลัพธ์คงอยู่ข้ามแต่ละขั้นตอน
- Context Engineering: การประกอบพรอมป์ตแบบไดนามิก
- Planning: การแยกงานซับซ้อนออกเป็นหลายขั้น
- Verification: การตรวจสอบผลลัพธ์เทียบกับกฎ
- Modularity: การเปิด-ปิดองค์ประกอบอย่างอิสระ
- โดยปกติแล้ว นี่คือพื้นที่ของ วิศวกรรมโดยมนุษย์ ที่นักพัฒนาต้องเขียน
ToolRegistryclass,MemoryManager, ลูปการลองใหม่ และลอจิกประกอบพรอมป์ตด้วยตัวเอง - คำถามที่งานวิจัย HyperAgents ตั้งขึ้นคือ “ถ้าเอเจนต์สร้างองค์ประกอบเหล่านี้ขึ้นมาเองจะเกิดอะไรขึ้น?”
HyperAgents ทำงานอย่างไร
- เฟรมเวิร์กที่งานวิจัยนำเสนอคือ DGM-Hyperagents (DGM-H) โดยแนวคิดหลักนั้นเรียบง่าย
- Hyperagent คือ โปรแกรมเดียวที่แก้ไขได้ ซึ่งประกอบด้วยสองส่วน:
- Task Agent ที่แก้ปัญหางานที่ได้รับ
- Meta Agent ที่แก้ไขทั้ง Task Agent และตัวมันเอง
- คำสำคัญคือ “itself” เพราะ Meta Agent สามารถเขียนโค้ดของตัวเองใหม่ได้ ทำให้แม้แต่กลไกที่ใช้สร้างการปรับปรุงก็กลายเป็นเป้าหมายของการปรับปรุงด้วย
- งานวิจัยเรียกสิ่งนี้ว่า metacognitive self-modification
- วิธีทำงานผ่านลูปวิวัฒนาการ:
- เริ่มจากเอเจนต์พื้นฐาน
- Meta Agent อ่านโค้ดของเอเจนต์ วิเคราะห์ประสิทธิภาพในอดีต และสร้างเวอร์ชันที่แก้ไขแล้ว
- ประเมินเวอร์ชันที่แก้ไข หากผลงานดีกว่าก็เพิ่มเข้า archive
- เลือกจาก archive แล้วทำซ้ำ
- เมื่อทำซ้ำเป็นร้อยรอบ เอเจนต์ไม่เพียงเก่งขึ้นในการทำงาน แต่ยัง เก่งขึ้นในการปรับปรุงตัวเอง ด้วย
องค์ประกอบที่เกิดขึ้นจากการปรับปรุงตัวเอง
- จากการทำ self-improvement ในหลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย การออกแบบ reward สำหรับหุ่นยนต์ และการให้คะแนนคณิตศาสตร์โอลิมปิก พบว่าเอเจนต์สามารถคิดค้นสิ่งต่อไปนี้ได้อย่างอิสระ:
หน่วยความจำถาวร (Persistent Memory)
- เอเจนต์วิวัฒน์ ระบบหน่วยความจำ ขึ้นมาเองโดยไม่มีคำสั่งจากนักพัฒนา
- เพราะเอเจนต์ที่จำผลลัพธ์ในอดีต ติดตามแนวโน้มประสิทธิภาพ และเก็บ insight ที่สรุปรวมไว้ได้ มีผลงานดีกว่าเอเจนต์ที่ทำไม่ได้
- ตัวอย่างรายการหน่วยความจำในงานวิจัย ได้แก่ การเก็บสมมติฐานเชิงเหตุ การระบุรุ่นที่มีผลงานดีที่สุด การวินิจฉัย การแก้ไขมากเกินไป และการเสนอวิธีผสานกลยุทธ์ที่สำเร็จ
การติดตามประสิทธิภาพ (Performance Tracking)
- เอเจนต์สร้าง observability ของตัวเองขึ้นมา
- รวมถึงค่าเฉลี่ยเคลื่อนที่ของแนวโน้มการปรับปรุง สถิติรวมรายรุ่น และประวัติคะแนนรายโดเมน
- เป็นความสามารถแบบเดียวกับ การติดตามโทเคนและ audit logging ที่นักพัฒนามักสร้างไว้ใน harness ด้วยมือ
ไปป์ไลน์การประเมินหลายขั้นตอน (Multi-stage Evaluation Pipelines)
- ในโดเมนการรีวิวงานวิจัย เอเจนต์วิวัฒน์จากคำสั่งพฤติกรรมแบบผิวเผิน ไปเป็น ไปป์ไลน์การประเมินหลายขั้นตอน ที่ชัดเจน
- มีทั้งเช็กลิสต์ กฎการตัดสินใจ และเกณฑ์ที่นิยามไว้อย่างชัดเจน
- เป็นผลจากการที่เอเจนต์สร้าง verifier ขึ้นมาใช้เอง
โปรโตคอลการตัดสินใจแบบมี threshold (Decision Protocols with Thresholds)
- เอเจนต์พัฒนาเส้นแบ่งการตัดสินใจที่ชัดเจน เช่น อัตราการรับ/ปฏิเสธ threshold ของคะแนน และระดับความเชื่อมั่น
- ตรงกับ การตรวจสอบเชิงกฎ (rule-based checks) ที่ verifier ใน harness มักทำ
ฐานความรู้เฉพาะโดเมน (Domain Knowledge Bases)
- ในการออกแบบ reward สำหรับหุ่นยนต์ เอเจนต์ค่อย ๆ สร้างและขัดเกลาฐานความรู้ภายใน เช่น เงื่อนไขจำกัดของสภาพแวดล้อม ตัวแปรสถานะที่ใช้ได้ และ heuristic การสเกล reward
- นี่คือผลของ context engineering ที่เอเจนต์เรียนรู้วิธีประกอบบริบทที่ถูกต้องให้ตัวเอง
การลองใหม่และการแก้ไขตัวเอง (Retry and Self-Correction)
- หากการแก้ไขเอเจนต์ทำให้ประสิทธิภาพแย่ลง รุ่นถัดไปจะ วินิจฉัยการถดถอย และแก้ไข
- เป็นรูปแบบเดียวกับ ลูปการลองใหม่ที่มีการป้อนกลับ ซึ่ง harness มักใช้งาน
ภาพใหญ่ — เทรนด์ที่ลู่เข้าสู่ทิศทางเดียวกัน
- รูปแบบที่ติดตามได้จากหลายงานวิจัยกำลังเชื่อมกันเป็นกระแสเดียว:
- Harness Engineering: นิยามองค์ประกอบ 6 อย่างที่นักพัฒนาสร้างรอบเอเจนต์
- From Copilot to Codex: การเปลี่ยนจากโค้ดที่มนุษย์เขียน ไปสู่โค้ดที่มอบหมายให้เอเจนต์เขียน
- Universal Agents: แนวคิดว่าความสามารถด้านการเขียนโค้ดทำให้เอเจนต์มีความเป็นสากล
- HyperAgents: เอเจนต์สร้าง harness ของตัวเองผ่านการแก้ไขตัวเอง
- เอเจนต์กำลังเปลี่ยนจาก ผู้บริโภคโครงสร้างพื้นฐานไปเป็นผู้ผลิต จากเดิมที่ทำงานอยู่ภายใน harness ไปสู่การทำวิศวกรรม harness เอง
- เดโมเชิงรูปธรรมในงาน DGM-H คือเริ่มจากเอเจนต์เปล่าที่มีเพียงการเรียก LLM ครั้งเดียว แล้วพัฒนาผ่านการแก้ไขตัวเองหลายร้อยรอบ จนมีหน่วยความจำถาวร การติดตามประสิทธิภาพ ไปป์ไลน์การประเมินหลายขั้นตอน ฐานความรู้เฉพาะโดเมน และ โครงสร้างโค้ดแบบโมดูลาร์
- บทบาทของนักพัฒนาไม่ได้หายไป แต่กำลัง เปลี่ยนรูป และงานวิจัยก็เน้นว่าการกำกับดูแลโดยมนุษย์ยังจำเป็น
- บทบาทกำลังย้ายจากการสร้าง harness โดยตรง ไปสู่การ ออกแบบเงื่อนไขตั้งต้น ที่ทำให้เอเจนต์วิวัฒน์ harness ที่มีประสิทธิภาพได้
3 ความคิดเห็น
ผมคิดว่าการคิดค้นองค์ประกอบของฮาร์เนสขึ้นมาใหม่ ไม่น่าใช่การบรรจบกันอย่างหลีกเลี่ยงไม่ได้ แต่เป็นผลจากการทำตามกรณีตัวอย่างที่มีอยู่ก่อนแล้วซึ่งสามารถพบได้มากพอผ่านเว็บค้นหาและอื่น ๆ มากกว่า
อย่างน้อยก็คงต้องถึงระดับที่เรียกได้ว่าประสบความสำเร็จในการคิดค้นองค์ประกอบของ AI agent ขึ้นมาใหม่ภายใต้สถานการณ์ที่เรียนรู้และเข้าถึงได้จากข้อมูลในอดีตเท่านั้น จึงจะพอเรียกได้ว่าเป็นการบรรจบกันทางสถาปัตยกรรมไม่ใช่หรือครับ
นี่คือจุดเริ่มต้นของ Skynet เหรอเนี่ย 555
นี่มันสมเหตุสมผลเหรอครับ??...