HyperAgents ของ Meta — เมื่อเอเจนต์ออกแบบฮาร์เนสของตัวเองได้

(cobusgreyling.medium.com)

46 คะแนน โดย GN⁺ 18 일 전 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

HyperAgents ที่ Meta และ UBC ร่วมกันเผยแพร่ คือเฟรมเวิร์ก AI เอเจนต์แบบอ้างอิงตนเอง ที่ไม่เพียงแก้ไขโค้ดสำหรับทำงาน แต่ยังแก้ไขกลไกการปรับปรุงตัวเองได้ด้วย
จากการทำ self-improvement ซ้ำ ๆ ในหลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย หุ่นยนต์ และการให้คะแนนคณิตศาสตร์ พบว่าเอเจนต์สามารถคิดค้น หน่วยความจำถาวร การติดตามประสิทธิภาพ และไปป์ไลน์การตรวจสอบหลายขั้นตอน ได้อย่างอิสระ
องค์ประกอบที่เอเจนต์สร้างขึ้นเองเหล่านี้ ตรงกับองค์ประกอบหลักของ production harness ที่นักพัฒนามักสร้างด้วยมืออย่างพอดี
Harness ไม่ใช่แค่สิ่งอำนวยความสะดวกในการพัฒนา แต่เป็น สถาปัตยกรรมแบบลู่เข้าสู่รูปเดียวกัน ของระบบ agentic และเอเจนต์กำลังเปลี่ยนจาก ผู้บริโภค โครงสร้างพื้นฐานไปเป็น ผู้ผลิต
บทบาทของนักพัฒนากำลังเปลี่ยนจากการสร้าง harness โดยตรง ไปสู่การ ออกแบบเงื่อนไขตั้งต้น ที่ทำให้เอเจนต์วิวัฒน์ harness ที่มีประสิทธิภาพได้

ภาพรวมของ HyperAgents

HyperAgents ที่นำเสนอในงานวิจัยใหม่ของ Meta และ UBC เป็นเอเจนต์แบบ self-referential ที่สามารถแก้ไขได้ไม่เฉพาะพฤติกรรมการแก้ปัญหา แต่รวมถึงกลไกที่ใช้สร้างการปรับปรุงในอนาคตด้วย
สิ่งที่น่าสนใจคือผลลัพธ์ที่เอเจนต์ลู่เข้าไปหาเมื่อปล่อยให้ปรับปรุงตัวเอง ซึ่งก็คือการ คิดค้นใหม่ องค์ประกอบแบบเดียวกับที่นักพัฒนาสร้างด้วยมือในปัจจุบัน
Hyperagent ถูกนิยามให้เป็น ผู้ผลิต (producer) ของโครงสร้างพื้นฐาน

HyperAgents เทียบกับ Universal Agents

Universal Agent คือผู้ปฏิบัติการ (executor) ที่ปรับตัวได้สูง สามารถแก้ปัญหาแทบทุกอย่างแบบเฉพาะหน้าโดยการเขียนโค้ด แต่ยังคงทำงานอยู่ภายในโครงสร้างพื้นฐาน (harness) ที่มนุษย์ออกแบบ
Hyperagent เป็นผู้ผลิตโครงสร้างพื้นฐาน โดยเริ่มจากสถานะขั้นต่ำแล้ว บูตสแตรป harness ระดับ production ของตัวเองผ่าน วิวัฒนาการแบบอ้างอิงตนเอง

ความหมายของฮาร์เนส (Harness) และองค์ประกอบหลัก

Harness คือระบบซอฟต์แวร์ที่กำกับวิธีการทำงานของ AI เอเจนต์ โดยจัดการเครื่องมือ หน่วยความจำ การลองใหม่ context engineering และการตรวจสอบ เพื่อให้โมเดลโฟกัสกับการใช้เหตุผลได้
องค์ประกอบหลัก 6 อย่างที่จำเป็นต่อ production harness:
- Tool Integration: การลงทะเบียนและเรียกใช้เครื่องมือ
- Memory & State: การทำให้ผลลัพธ์คงอยู่ข้ามแต่ละขั้นตอน
- Context Engineering: การประกอบพรอมป์ตแบบไดนามิก
- Planning: การแยกงานซับซ้อนออกเป็นหลายขั้น
- Verification: การตรวจสอบผลลัพธ์เทียบกับกฎ
- Modularity: การเปิด-ปิดองค์ประกอบอย่างอิสระ
โดยปกติแล้ว นี่คือพื้นที่ของ วิศวกรรมโดยมนุษย์ ที่นักพัฒนาต้องเขียน ToolRegistry class, MemoryManager, ลูปการลองใหม่ และลอจิกประกอบพรอมป์ตด้วยตัวเอง
คำถามที่งานวิจัย HyperAgents ตั้งขึ้นคือ “ถ้าเอเจนต์สร้างองค์ประกอบเหล่านี้ขึ้นมาเองจะเกิดอะไรขึ้น?”

HyperAgents ทำงานอย่างไร

เฟรมเวิร์กที่งานวิจัยนำเสนอคือ DGM-Hyperagents (DGM-H) โดยแนวคิดหลักนั้นเรียบง่าย
Hyperagent คือ โปรแกรมเดียวที่แก้ไขได้ ซึ่งประกอบด้วยสองส่วน:
- Task Agent ที่แก้ปัญหางานที่ได้รับ
- Meta Agent ที่แก้ไขทั้ง Task Agent และตัวมันเอง
คำสำคัญคือ “itself” เพราะ Meta Agent สามารถเขียนโค้ดของตัวเองใหม่ได้ ทำให้แม้แต่กลไกที่ใช้สร้างการปรับปรุงก็กลายเป็นเป้าหมายของการปรับปรุงด้วย
งานวิจัยเรียกสิ่งนี้ว่า metacognitive self-modification
วิธีทำงานผ่านลูปวิวัฒนาการ:
- เริ่มจากเอเจนต์พื้นฐาน
- Meta Agent อ่านโค้ดของเอเจนต์ วิเคราะห์ประสิทธิภาพในอดีต และสร้างเวอร์ชันที่แก้ไขแล้ว
- ประเมินเวอร์ชันที่แก้ไข หากผลงานดีกว่าก็เพิ่มเข้า archive
- เลือกจาก archive แล้วทำซ้ำ
เมื่อทำซ้ำเป็นร้อยรอบ เอเจนต์ไม่เพียงเก่งขึ้นในการทำงาน แต่ยัง เก่งขึ้นในการปรับปรุงตัวเอง ด้วย

องค์ประกอบที่เกิดขึ้นจากการปรับปรุงตัวเอง

จากการทำ self-improvement ในหลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย การออกแบบ reward สำหรับหุ่นยนต์ และการให้คะแนนคณิตศาสตร์โอลิมปิก พบว่าเอเจนต์สามารถคิดค้นสิ่งต่อไปนี้ได้อย่างอิสระ:

หน่วยความจำถาวร (Persistent Memory)

เอเจนต์วิวัฒน์ ระบบหน่วยความจำ ขึ้นมาเองโดยไม่มีคำสั่งจากนักพัฒนา
เพราะเอเจนต์ที่จำผลลัพธ์ในอดีต ติดตามแนวโน้มประสิทธิภาพ และเก็บ insight ที่สรุปรวมไว้ได้ มีผลงานดีกว่าเอเจนต์ที่ทำไม่ได้
ตัวอย่างรายการหน่วยความจำในงานวิจัย ได้แก่ การเก็บสมมติฐานเชิงเหตุ การระบุรุ่นที่มีผลงานดีที่สุด การวินิจฉัย การแก้ไขมากเกินไป และการเสนอวิธีผสานกลยุทธ์ที่สำเร็จ

การติดตามประสิทธิภาพ (Performance Tracking)

เอเจนต์สร้าง observability ของตัวเองขึ้นมา
รวมถึงค่าเฉลี่ยเคลื่อนที่ของแนวโน้มการปรับปรุง สถิติรวมรายรุ่น และประวัติคะแนนรายโดเมน
เป็นความสามารถแบบเดียวกับ การติดตามโทเคนและ audit logging ที่นักพัฒนามักสร้างไว้ใน harness ด้วยมือ

ไปป์ไลน์การประเมินหลายขั้นตอน (Multi-stage Evaluation Pipelines)

ในโดเมนการรีวิวงานวิจัย เอเจนต์วิวัฒน์จากคำสั่งพฤติกรรมแบบผิวเผิน ไปเป็น ไปป์ไลน์การประเมินหลายขั้นตอน ที่ชัดเจน
มีทั้งเช็กลิสต์ กฎการตัดสินใจ และเกณฑ์ที่นิยามไว้อย่างชัดเจน
เป็นผลจากการที่เอเจนต์สร้าง verifier ขึ้นมาใช้เอง

โปรโตคอลการตัดสินใจแบบมี threshold (Decision Protocols with Thresholds)

เอเจนต์พัฒนาเส้นแบ่งการตัดสินใจที่ชัดเจน เช่น อัตราการรับ/ปฏิเสธ threshold ของคะแนน และระดับความเชื่อมั่น
ตรงกับ การตรวจสอบเชิงกฎ (rule-based checks) ที่ verifier ใน harness มักทำ

ฐานความรู้เฉพาะโดเมน (Domain Knowledge Bases)

ในการออกแบบ reward สำหรับหุ่นยนต์ เอเจนต์ค่อย ๆ สร้างและขัดเกลาฐานความรู้ภายใน เช่น เงื่อนไขจำกัดของสภาพแวดล้อม ตัวแปรสถานะที่ใช้ได้ และ heuristic การสเกล reward
นี่คือผลของ context engineering ที่เอเจนต์เรียนรู้วิธีประกอบบริบทที่ถูกต้องให้ตัวเอง

การลองใหม่และการแก้ไขตัวเอง (Retry and Self-Correction)

หากการแก้ไขเอเจนต์ทำให้ประสิทธิภาพแย่ลง รุ่นถัดไปจะ วินิจฉัยการถดถอย และแก้ไข
เป็นรูปแบบเดียวกับ ลูปการลองใหม่ที่มีการป้อนกลับ ซึ่ง harness มักใช้งาน

ภาพใหญ่ — เทรนด์ที่ลู่เข้าสู่ทิศทางเดียวกัน

รูปแบบที่ติดตามได้จากหลายงานวิจัยกำลังเชื่อมกันเป็นกระแสเดียว:
- Harness Engineering: นิยามองค์ประกอบ 6 อย่างที่นักพัฒนาสร้างรอบเอเจนต์
- From Copilot to Codex: การเปลี่ยนจากโค้ดที่มนุษย์เขียน ไปสู่โค้ดที่มอบหมายให้เอเจนต์เขียน
- Universal Agents: แนวคิดว่าความสามารถด้านการเขียนโค้ดทำให้เอเจนต์มีความเป็นสากล
- HyperAgents: เอเจนต์สร้าง harness ของตัวเองผ่านการแก้ไขตัวเอง
เอเจนต์กำลังเปลี่ยนจาก ผู้บริโภคโครงสร้างพื้นฐานไปเป็นผู้ผลิต จากเดิมที่ทำงานอยู่ภายใน harness ไปสู่การทำวิศวกรรม harness เอง
เดโมเชิงรูปธรรมในงาน DGM-H คือเริ่มจากเอเจนต์เปล่าที่มีเพียงการเรียก LLM ครั้งเดียว แล้วพัฒนาผ่านการแก้ไขตัวเองหลายร้อยรอบ จนมีหน่วยความจำถาวร การติดตามประสิทธิภาพ ไปป์ไลน์การประเมินหลายขั้นตอน ฐานความรู้เฉพาะโดเมน และ โครงสร้างโค้ดแบบโมดูลาร์
บทบาทของนักพัฒนาไม่ได้หายไป แต่กำลัง เปลี่ยนรูป และงานวิจัยก็เน้นว่าการกำกับดูแลโดยมนุษย์ยังจำเป็น
บทบาทกำลังย้ายจากการสร้าง harness โดยตรง ไปสู่การ ออกแบบเงื่อนไขตั้งต้น ที่ทำให้เอเจนต์วิวัฒน์ harness ที่มีประสิทธิภาพได้

3 ความคิดเห็น

geesecross 18 일 전

ผมคิดว่าการคิดค้นองค์ประกอบของฮาร์เนสขึ้นมาใหม่ ไม่น่าใช่การบรรจบกันอย่างหลีกเลี่ยงไม่ได้ แต่เป็นผลจากการทำตามกรณีตัวอย่างที่มีอยู่ก่อนแล้วซึ่งสามารถพบได้มากพอผ่านเว็บค้นหาและอื่น ๆ มากกว่า

อย่างน้อยก็คงต้องถึงระดับที่เรียกได้ว่าประสบความสำเร็จในการคิดค้นองค์ประกอบของ AI agent ขึ้นมาใหม่ภายใต้สถานการณ์ที่เรียนรู้และเข้าถึงได้จากข้อมูลในอดีตเท่านั้น จึงจะพอเรียกได้ว่าเป็นการบรรจบกันทางสถาปัตยกรรมไม่ใช่หรือครับ

ng0301 18 일 전

นี่คือจุดเริ่มต้นของ Skynet เหรอเนี่ย 555

ilfjh 18 일 전

นี่มันสมเหตุสมผลเหรอครับ??...