Agent Lightning ที่ Microsoft Research เปิดตัว เป็นเฟรมเวิร์กนวัตกรรมที่ช่วยฝึก AI Agent ด้วยการเรียนรู้แบบเสริมกำลัง (RL) ได้โดยแทบไม่ต้องเปลี่ยนโค้ดเอเจนต์เดิมเลย รองรับเฟรมเวิร์กเอเจนต์หลากหลาย เช่น LangChain และ AutoGen และแสดงผลลัพธ์เชิงประจักษ์ เช่น การเพิ่มความแม่นยำในการทดสอบ SQL Agent จาก 73.2% เป็น 80.4%

คุณสมบัติหลัก
  • สถาปัตยกรรม Training-Agent Disaggregation: แยกการรันเอเจนต์และการฝึก RL ออกจากกันอย่างสมบูรณ์ ด้วยดีไซน์แบบ sidecar จึงเก็บข้อมูลได้แบบไม่รบกวนระบบ (พรอมต์, การเรียกใช้เครื่องมือ, สัญญาณรางวัล) และทำให้ไม่ต้องแก้โค้ดเลย
  • ความเป็นอิสระจากเฟรมเวิร์ก: เชื่อมต่อได้ทันทีผ่าน OpenAI-compatible API ไม่ว่าจะเป็น LangChain, OpenAI Agent SDK, CrewAI หรือเอเจนต์แบบใดก็ตาม
  • อัลกอริทึม GRPO: เป็นรูปแบบดัดแปลงของ PPO ที่เรียนรู้ได้อย่างคุ้มค่าหน่วยความจำผ่านการเปรียบเทียบประสิทธิภาพสัมพัทธ์ภายในกลุ่ม โดย LightningRL จะแยกปฏิสัมพันธ์หลายเทิร์นที่ซับซ้อนออกเป็น transition เพื่อจัดการ credit assignment
ตัวอย่างการใช้งานจริง: SQL Agent

ฝึกกับ SQL Agent บนพื้นฐาน LangGraph (แปลงคำถามภาษาธรรมชาติเป็น SQL query, รันคำสั่ง, และวนลูปแก้ข้อผิดพลาด):

  • กระบวนการฝึก: เริ่มได้เพียงรันเซิร์ฟเวอร์แล้วเชื่อมต่อไคลเอนต์ ตัวอย่างเช่น ใช้โมเดล Qwen2.5-Coder-3B
  • ผลลัพธ์: บนชุดข้อมูล Spider ความแม่นยำเพิ่มจาก 73.2% → 80.4% และจำนวน transition เฉลี่ยลดจาก 3.30 → 2.60 ทำให้มีประสิทธิภาพมากขึ้น โมเดล 7B ทำได้ถึง 84.4%
การติดตั้งและการใช้งาน
  • pip install agentlightning (เพิ่มเติม: ตัวเลือก [apo] หรือ [verl])
  • มีตัวอย่างบน GitHub เช่น Text-to-SQL, RAG และกรณีใช้งานอื่น ๆ อีกทั้งยังปรับแต่งแบบเลือกจุดได้แม้ในระบบ multi-agent
  • อัลกอริทึมที่รองรับ: GRPO/PPO, Supervised Fine-tuning, APO (การปรับแต่งพรอมต์)
แนวโน้มในอนาคต

เป็นโครงการโอเพนซอร์สที่กำลังกระตุ้นชุมชนให้คึกคักขึ้น (เช่น DeepWerewolf) และมีแผนขยายต่อไปด้วยกลไกรางวัลที่หลากหลายยิ่งขึ้น, Off-policy RL, การเรียนรู้แบบหลักสูตร และอื่น ๆ แนวทางที่แยกการพัฒนาเอเจนต์ออกจากการปรับแต่งนี้ มีแนวโน้มจะเปิดยุคของเอเจนต์แบบปรับตัวได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น