นี่คือผลการวิจัยจากทีมวิจัย UC Santa Barbara, MIT CSAIL และ MIT-IBM Watson AI Lab ที่ประเมิน ความสามารถในการใช้ทักษะของ AI Agent ในสภาพการใช้งานจริงอย่างสมจริง

ทีมวิจัยรวบรวมทักษะจำนวน 34,198 รายการ (องค์ความรู้แบบมีโครงสร้าง เช่น เวิร์กโฟลว์ วิธีใช้ API และแนวปฏิบัติที่ดี) จากโอเพนซอร์สเพื่อนำมาทดสอบ โดยเบนช์มาร์กเดิม (SKILLSBENCH) มีปัญหาที่ประเมินภายใต้เงื่อนไขในอุดมคติที่ ป้อนทักษะที่ตรงเป๊ะให้เอเจนต์ล่วงหน้า ทำให้ประสิทธิภาพถูกประเมินสูงเกินจริง

เพื่อแก้ปัญหานี้ ทีมวิจัยได้ออกแบบ สถานการณ์สมจริง 6 ขั้น ดังนี้:

  • ให้ทักษะโดยตรง
  • ให้เอเจนต์เลือกทักษะด้วยตัวเอง
  • ผสมทักษะที่ไม่เกี่ยวข้องเข้าไป
  • ค้นหาจากคลังทักษะขนาดใหญ่
  • กรณีที่ไม่มีทักษะแบบปรับให้ตรงงานเลย

เมื่อนำไปทดสอบกับโมเดลล่าสุดอย่าง Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B พบว่า:

  • อิงจาก Claude Opus 4.6

    • เมื่อให้ทักษะโดยตรง: อัตราผ่าน 55.4%
    • ภายใต้เงื่อนไขจริง (ค้นหาขนาดใหญ่ + การเลือก): 40.1%
    • เมื่อไม่มีทักษะแบบปรับเฉพาะงาน: 38.4% (ต่างจากค่าอ้างอิงที่ไม่ใช้ทักษะซึ่งอยู่ที่ 35.4% เพียง 3%p เท่านั้น)
  • สำหรับโมเดลที่อ่อนกว่า (Kimi, Qwen) การใช้ทักษะกลับให้ผลตรงกันข้าม คือทำให้ประสิทธิภาพ ตกต่ำกว่าค่าอ้างอิง

สาเหตุหลักของประสิทธิภาพที่ลดลง

  1. คัดเลือกทักษะล้มเหลว: แม้จะมีทักษะที่ตรงงาน Claude ก็เรียกมาใช้ได้ถูกต้องเพียง 49%
  2. ข้อจำกัดด้านความแม่นยำของการค้นหา: ใน 5 อันดับแรก ค่า Recall@5 ของการดึงทักษะที่เกี่ยวข้องกลับมาได้สูงสุดเพียง 65.5%
  3. ความสามารถในการปรับใช้ยังไม่พอ: ไม่สามารถประยุกต์ทักษะที่คล้ายกันให้เหมาะกับสถานการณ์ได้ดี

ความพยายามในการปรับปรุงและผลลัพธ์

  • หากใช้วิธีคัดกรองหรือสร้างทักษะใหม่ตามแต่ละงาน ประสิทธิภาพของ Claude เพิ่มจาก 40.1% → 48.2% ได้ แต่จะได้ผลก็ต่อเมื่อทักษะที่ค้นหาได้ตั้งแต่แรกมีความเกี่ยวข้องอยู่พอสมควร
  • ยังมีความเห็นด้วยว่า แนวทางแบบงานวิจัยของ Vercel ที่เพียงใส่ไฟล์ Markdown อย่าง AGENTS.md เข้าไปในคอนเท็กซ์ อาจมีความเสถียรมากกว่า

บทสรุปและข้อเสนอแนะ

ปัจจุบันทักษะของ AI Agent ยังแสดง ประสิทธิภาพที่ถูกประเมินสูงเกินจริงเฉพาะบนเบนช์มาร์ก เท่านั้น แต่ในสภาพแวดล้อมการใช้งานจริง ผลลัพธ์ยังมีข้อจำกัดมาก โดยเฉพาะกับโมเดลที่อ่อนกว่า ทักษะอาจกลายเป็นตัวรบกวนเสียด้วยซ้ำ

ทีมวิจัยเน้นย้ำว่าจำเป็นต้องมี เทคนิคการค้นหาที่ดีกว่าเดิม, กลยุทธ์การคัดกรองทักษะแบบออฟไลน์ที่มีประสิทธิภาพ, และ การออกแบบระบบนิเวศของทักษะให้สอดคล้องกับความสามารถของโมเดล ทั้งนี้ได้เปิดเผยทั้งตัวงานวิจัยและโค้ดไว้บน GitHub แล้ว

อ่านเพิ่มเติม: https://aisparkup.com/posts/11097

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น