Microsoft Agent Lightning: เฟรมเวิร์กฝึกเสริมกำลังสำหรับ AI Agent โดยไม่ต้องแก้โค้ด

(aisparkup.com)

13 คะแนน โดย davespark 2025-10-27 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Agent Lightning ที่ Microsoft Research เปิดตัว เป็นเฟรมเวิร์กนวัตกรรมที่ช่วยฝึก AI Agent ด้วยการเรียนรู้แบบเสริมกำลัง (RL) ได้โดยแทบไม่ต้องเปลี่ยนโค้ดเอเจนต์เดิมเลย รองรับเฟรมเวิร์กเอเจนต์หลากหลาย เช่น LangChain และ AutoGen และแสดงผลลัพธ์เชิงประจักษ์ เช่น การเพิ่มความแม่นยำในการทดสอบ SQL Agent จาก 73.2% เป็น 80.4%

คุณสมบัติหลัก

สถาปัตยกรรม Training-Agent Disaggregation: แยกการรันเอเจนต์และการฝึก RL ออกจากกันอย่างสมบูรณ์ ด้วยดีไซน์แบบ sidecar จึงเก็บข้อมูลได้แบบไม่รบกวนระบบ (พรอมต์, การเรียกใช้เครื่องมือ, สัญญาณรางวัล) และทำให้ไม่ต้องแก้โค้ดเลย
ความเป็นอิสระจากเฟรมเวิร์ก: เชื่อมต่อได้ทันทีผ่าน OpenAI-compatible API ไม่ว่าจะเป็น LangChain, OpenAI Agent SDK, CrewAI หรือเอเจนต์แบบใดก็ตาม
อัลกอริทึม GRPO: เป็นรูปแบบดัดแปลงของ PPO ที่เรียนรู้ได้อย่างคุ้มค่าหน่วยความจำผ่านการเปรียบเทียบประสิทธิภาพสัมพัทธ์ภายในกลุ่ม โดย LightningRL จะแยกปฏิสัมพันธ์หลายเทิร์นที่ซับซ้อนออกเป็น transition เพื่อจัดการ credit assignment

ตัวอย่างการใช้งานจริง: SQL Agent

ฝึกกับ SQL Agent บนพื้นฐาน LangGraph (แปลงคำถามภาษาธรรมชาติเป็น SQL query, รันคำสั่ง, และวนลูปแก้ข้อผิดพลาด):

กระบวนการฝึก: เริ่มได้เพียงรันเซิร์ฟเวอร์แล้วเชื่อมต่อไคลเอนต์ ตัวอย่างเช่น ใช้โมเดล Qwen2.5-Coder-3B
ผลลัพธ์: บนชุดข้อมูล Spider ความแม่นยำเพิ่มจาก 73.2% → 80.4% และจำนวน transition เฉลี่ยลดจาก 3.30 → 2.60 ทำให้มีประสิทธิภาพมากขึ้น โมเดล 7B ทำได้ถึง 84.4%

การติดตั้งและการใช้งาน

pip install agentlightning (เพิ่มเติม: ตัวเลือก [apo] หรือ [verl])
มีตัวอย่างบน GitHub เช่น Text-to-SQL, RAG และกรณีใช้งานอื่น ๆ อีกทั้งยังปรับแต่งแบบเลือกจุดได้แม้ในระบบ multi-agent
อัลกอริทึมที่รองรับ: GRPO/PPO, Supervised Fine-tuning, APO (การปรับแต่งพรอมต์)

แนวโน้มในอนาคต

เป็นโครงการโอเพนซอร์สที่กำลังกระตุ้นชุมชนให้คึกคักขึ้น (เช่น DeepWerewolf) และมีแผนขยายต่อไปด้วยกลไกรางวัลที่หลากหลายยิ่งขึ้น, Off-policy RL, การเรียนรู้แบบหลักสูตร และอื่น ๆ แนวทางที่แยกการพัฒนาเอเจนต์ออกจากการปรับแต่งนี้ มีแนวโน้มจะเปิดยุคของเอเจนต์แบบปรับตัวได้