46 คะแนน โดย GN⁺ 18 일 전 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • HyperAgents ที่ Meta และ UBC ร่วมกันเผยแพร่ คือเฟรมเวิร์ก AI เอเจนต์แบบอ้างอิงตนเอง ที่ไม่เพียงแก้ไขโค้ดสำหรับทำงาน แต่ยังแก้ไขกลไกการปรับปรุงตัวเองได้ด้วย
  • จากการทำ self-improvement ซ้ำ ๆ ในหลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย หุ่นยนต์ และการให้คะแนนคณิตศาสตร์ พบว่าเอเจนต์สามารถคิดค้น หน่วยความจำถาวร การติดตามประสิทธิภาพ และไปป์ไลน์การตรวจสอบหลายขั้นตอน ได้อย่างอิสระ
  • องค์ประกอบที่เอเจนต์สร้างขึ้นเองเหล่านี้ ตรงกับองค์ประกอบหลักของ production harness ที่นักพัฒนามักสร้างด้วยมืออย่างพอดี
  • Harness ไม่ใช่แค่สิ่งอำนวยความสะดวกในการพัฒนา แต่เป็น สถาปัตยกรรมแบบลู่เข้าสู่รูปเดียวกัน ของระบบ agentic และเอเจนต์กำลังเปลี่ยนจาก ผู้บริโภค โครงสร้างพื้นฐานไปเป็น ผู้ผลิต
  • บทบาทของนักพัฒนากำลังเปลี่ยนจากการสร้าง harness โดยตรง ไปสู่การ ออกแบบเงื่อนไขตั้งต้น ที่ทำให้เอเจนต์วิวัฒน์ harness ที่มีประสิทธิภาพได้

ภาพรวมของ HyperAgents

  • HyperAgents ที่นำเสนอในงานวิจัยใหม่ของ Meta และ UBC เป็นเอเจนต์แบบ self-referential ที่สามารถแก้ไขได้ไม่เฉพาะพฤติกรรมการแก้ปัญหา แต่รวมถึงกลไกที่ใช้สร้างการปรับปรุงในอนาคตด้วย
  • สิ่งที่น่าสนใจคือผลลัพธ์ที่เอเจนต์ลู่เข้าไปหาเมื่อปล่อยให้ปรับปรุงตัวเอง ซึ่งก็คือการ คิดค้นใหม่ องค์ประกอบแบบเดียวกับที่นักพัฒนาสร้างด้วยมือในปัจจุบัน
  • Hyperagent ถูกนิยามให้เป็น ผู้ผลิต (producer) ของโครงสร้างพื้นฐาน

HyperAgents เทียบกับ Universal Agents

  • Universal Agent คือผู้ปฏิบัติการ (executor) ที่ปรับตัวได้สูง สามารถแก้ปัญหาแทบทุกอย่างแบบเฉพาะหน้าโดยการเขียนโค้ด แต่ยังคงทำงานอยู่ภายในโครงสร้างพื้นฐาน (harness) ที่มนุษย์ออกแบบ
  • Hyperagent เป็นผู้ผลิตโครงสร้างพื้นฐาน โดยเริ่มจากสถานะขั้นต่ำแล้ว บูตสแตรป harness ระดับ production ของตัวเองผ่าน วิวัฒนาการแบบอ้างอิงตนเอง

ความหมายของฮาร์เนส (Harness) และองค์ประกอบหลัก

  • Harness คือระบบซอฟต์แวร์ที่กำกับวิธีการทำงานของ AI เอเจนต์ โดยจัดการเครื่องมือ หน่วยความจำ การลองใหม่ context engineering และการตรวจสอบ เพื่อให้โมเดลโฟกัสกับการใช้เหตุผลได้
  • องค์ประกอบหลัก 6 อย่างที่จำเป็นต่อ production harness:
    • Tool Integration: การลงทะเบียนและเรียกใช้เครื่องมือ
    • Memory & State: การทำให้ผลลัพธ์คงอยู่ข้ามแต่ละขั้นตอน
    • Context Engineering: การประกอบพรอมป์ตแบบไดนามิก
    • Planning: การแยกงานซับซ้อนออกเป็นหลายขั้น
    • Verification: การตรวจสอบผลลัพธ์เทียบกับกฎ
    • Modularity: การเปิด-ปิดองค์ประกอบอย่างอิสระ
  • โดยปกติแล้ว นี่คือพื้นที่ของ วิศวกรรมโดยมนุษย์ ที่นักพัฒนาต้องเขียน ToolRegistry class, MemoryManager, ลูปการลองใหม่ และลอจิกประกอบพรอมป์ตด้วยตัวเอง
  • คำถามที่งานวิจัย HyperAgents ตั้งขึ้นคือ “ถ้าเอเจนต์สร้างองค์ประกอบเหล่านี้ขึ้นมาเองจะเกิดอะไรขึ้น?”

HyperAgents ทำงานอย่างไร

  • เฟรมเวิร์กที่งานวิจัยนำเสนอคือ DGM-Hyperagents (DGM-H) โดยแนวคิดหลักนั้นเรียบง่าย
  • Hyperagent คือ โปรแกรมเดียวที่แก้ไขได้ ซึ่งประกอบด้วยสองส่วน:
    • Task Agent ที่แก้ปัญหางานที่ได้รับ
    • Meta Agent ที่แก้ไขทั้ง Task Agent และตัวมันเอง
  • คำสำคัญคือ “itself” เพราะ Meta Agent สามารถเขียนโค้ดของตัวเองใหม่ได้ ทำให้แม้แต่กลไกที่ใช้สร้างการปรับปรุงก็กลายเป็นเป้าหมายของการปรับปรุงด้วย
  • งานวิจัยเรียกสิ่งนี้ว่า metacognitive self-modification
  • วิธีทำงานผ่านลูปวิวัฒนาการ:
    • เริ่มจากเอเจนต์พื้นฐาน
    • Meta Agent อ่านโค้ดของเอเจนต์ วิเคราะห์ประสิทธิภาพในอดีต และสร้างเวอร์ชันที่แก้ไขแล้ว
    • ประเมินเวอร์ชันที่แก้ไข หากผลงานดีกว่าก็เพิ่มเข้า archive
    • เลือกจาก archive แล้วทำซ้ำ
  • เมื่อทำซ้ำเป็นร้อยรอบ เอเจนต์ไม่เพียงเก่งขึ้นในการทำงาน แต่ยัง เก่งขึ้นในการปรับปรุงตัวเอง ด้วย

องค์ประกอบที่เกิดขึ้นจากการปรับปรุงตัวเอง

  • จากการทำ self-improvement ในหลายโดเมน เช่น การเขียนโค้ด การรีวิวงานวิจัย การออกแบบ reward สำหรับหุ่นยนต์ และการให้คะแนนคณิตศาสตร์โอลิมปิก พบว่าเอเจนต์สามารถคิดค้นสิ่งต่อไปนี้ได้อย่างอิสระ:

หน่วยความจำถาวร (Persistent Memory)

  • เอเจนต์วิวัฒน์ ระบบหน่วยความจำ ขึ้นมาเองโดยไม่มีคำสั่งจากนักพัฒนา
  • เพราะเอเจนต์ที่จำผลลัพธ์ในอดีต ติดตามแนวโน้มประสิทธิภาพ และเก็บ insight ที่สรุปรวมไว้ได้ มีผลงานดีกว่าเอเจนต์ที่ทำไม่ได้
  • ตัวอย่างรายการหน่วยความจำในงานวิจัย ได้แก่ การเก็บสมมติฐานเชิงเหตุ การระบุรุ่นที่มีผลงานดีที่สุด การวินิจฉัย การแก้ไขมากเกินไป และการเสนอวิธีผสานกลยุทธ์ที่สำเร็จ

การติดตามประสิทธิภาพ (Performance Tracking)

  • เอเจนต์สร้าง observability ของตัวเองขึ้นมา
  • รวมถึงค่าเฉลี่ยเคลื่อนที่ของแนวโน้มการปรับปรุง สถิติรวมรายรุ่น และประวัติคะแนนรายโดเมน
  • เป็นความสามารถแบบเดียวกับ การติดตามโทเคนและ audit logging ที่นักพัฒนามักสร้างไว้ใน harness ด้วยมือ

ไปป์ไลน์การประเมินหลายขั้นตอน (Multi-stage Evaluation Pipelines)

  • ในโดเมนการรีวิวงานวิจัย เอเจนต์วิวัฒน์จากคำสั่งพฤติกรรมแบบผิวเผิน ไปเป็น ไปป์ไลน์การประเมินหลายขั้นตอน ที่ชัดเจน
  • มีทั้งเช็กลิสต์ กฎการตัดสินใจ และเกณฑ์ที่นิยามไว้อย่างชัดเจน
  • เป็นผลจากการที่เอเจนต์สร้าง verifier ขึ้นมาใช้เอง

โปรโตคอลการตัดสินใจแบบมี threshold (Decision Protocols with Thresholds)

  • เอเจนต์พัฒนาเส้นแบ่งการตัดสินใจที่ชัดเจน เช่น อัตราการรับ/ปฏิเสธ threshold ของคะแนน และระดับความเชื่อมั่น
  • ตรงกับ การตรวจสอบเชิงกฎ (rule-based checks) ที่ verifier ใน harness มักทำ

ฐานความรู้เฉพาะโดเมน (Domain Knowledge Bases)

  • ในการออกแบบ reward สำหรับหุ่นยนต์ เอเจนต์ค่อย ๆ สร้างและขัดเกลาฐานความรู้ภายใน เช่น เงื่อนไขจำกัดของสภาพแวดล้อม ตัวแปรสถานะที่ใช้ได้ และ heuristic การสเกล reward
  • นี่คือผลของ context engineering ที่เอเจนต์เรียนรู้วิธีประกอบบริบทที่ถูกต้องให้ตัวเอง

การลองใหม่และการแก้ไขตัวเอง (Retry and Self-Correction)

  • หากการแก้ไขเอเจนต์ทำให้ประสิทธิภาพแย่ลง รุ่นถัดไปจะ วินิจฉัยการถดถอย และแก้ไข
  • เป็นรูปแบบเดียวกับ ลูปการลองใหม่ที่มีการป้อนกลับ ซึ่ง harness มักใช้งาน

ภาพใหญ่ — เทรนด์ที่ลู่เข้าสู่ทิศทางเดียวกัน

  • รูปแบบที่ติดตามได้จากหลายงานวิจัยกำลังเชื่อมกันเป็นกระแสเดียว:
    • Harness Engineering: นิยามองค์ประกอบ 6 อย่างที่นักพัฒนาสร้างรอบเอเจนต์
    • From Copilot to Codex: การเปลี่ยนจากโค้ดที่มนุษย์เขียน ไปสู่โค้ดที่มอบหมายให้เอเจนต์เขียน
    • Universal Agents: แนวคิดว่าความสามารถด้านการเขียนโค้ดทำให้เอเจนต์มีความเป็นสากล
    • HyperAgents: เอเจนต์สร้าง harness ของตัวเองผ่านการแก้ไขตัวเอง
  • เอเจนต์กำลังเปลี่ยนจาก ผู้บริโภคโครงสร้างพื้นฐานไปเป็นผู้ผลิต จากเดิมที่ทำงานอยู่ภายใน harness ไปสู่การทำวิศวกรรม harness เอง
  • เดโมเชิงรูปธรรมในงาน DGM-H คือเริ่มจากเอเจนต์เปล่าที่มีเพียงการเรียก LLM ครั้งเดียว แล้วพัฒนาผ่านการแก้ไขตัวเองหลายร้อยรอบ จนมีหน่วยความจำถาวร การติดตามประสิทธิภาพ ไปป์ไลน์การประเมินหลายขั้นตอน ฐานความรู้เฉพาะโดเมน และ โครงสร้างโค้ดแบบโมดูลาร์
  • บทบาทของนักพัฒนาไม่ได้หายไป แต่กำลัง เปลี่ยนรูป และงานวิจัยก็เน้นว่าการกำกับดูแลโดยมนุษย์ยังจำเป็น
  • บทบาทกำลังย้ายจากการสร้าง harness โดยตรง ไปสู่การ ออกแบบเงื่อนไขตั้งต้น ที่ทำให้เอเจนต์วิวัฒน์ harness ที่มีประสิทธิภาพได้

3 ความคิดเห็น

 
geesecross 18 일 전

ผมคิดว่าการคิดค้นองค์ประกอบของฮาร์เนสขึ้นมาใหม่ ไม่น่าใช่การบรรจบกันอย่างหลีกเลี่ยงไม่ได้ แต่เป็นผลจากการทำตามกรณีตัวอย่างที่มีอยู่ก่อนแล้วซึ่งสามารถพบได้มากพอผ่านเว็บค้นหาและอื่น ๆ มากกว่า

อย่างน้อยก็คงต้องถึงระดับที่เรียกได้ว่าประสบความสำเร็จในการคิดค้นองค์ประกอบของ AI agent ขึ้นมาใหม่ภายใต้สถานการณ์ที่เรียนรู้และเข้าถึงได้จากข้อมูลในอดีตเท่านั้น จึงจะพอเรียกได้ว่าเป็นการบรรจบกันทางสถาปัตยกรรมไม่ใช่หรือครับ

 
ng0301 18 일 전

นี่คือจุดเริ่มต้นของ Skynet เหรอเนี่ย 555

 
ilfjh 18 일 전

นี่มันสมเหตุสมผลเหรอครับ??...