นี่คือผลการวิจัยจากทีมวิจัย UC Santa Barbara, MIT CSAIL และ MIT-IBM Watson AI Lab ที่ประเมิน ความสามารถในการใช้ทักษะของ AI Agent ในสภาพการใช้งานจริงอย่างสมจริง
ทีมวิจัยรวบรวมทักษะจำนวน 34,198 รายการ (องค์ความรู้แบบมีโครงสร้าง เช่น เวิร์กโฟลว์ วิธีใช้ API และแนวปฏิบัติที่ดี) จากโอเพนซอร์สเพื่อนำมาทดสอบ โดยเบนช์มาร์กเดิม (SKILLSBENCH) มีปัญหาที่ประเมินภายใต้เงื่อนไขในอุดมคติที่ ป้อนทักษะที่ตรงเป๊ะให้เอเจนต์ล่วงหน้า ทำให้ประสิทธิภาพถูกประเมินสูงเกินจริง
เพื่อแก้ปัญหานี้ ทีมวิจัยได้ออกแบบ สถานการณ์สมจริง 6 ขั้น ดังนี้:
- ให้ทักษะโดยตรง
- ให้เอเจนต์เลือกทักษะด้วยตัวเอง
- ผสมทักษะที่ไม่เกี่ยวข้องเข้าไป
- ค้นหาจากคลังทักษะขนาดใหญ่
- กรณีที่ไม่มีทักษะแบบปรับให้ตรงงานเลย
เมื่อนำไปทดสอบกับโมเดลล่าสุดอย่าง Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B พบว่า:
-
อิงจาก Claude Opus 4.6
- เมื่อให้ทักษะโดยตรง: อัตราผ่าน 55.4%
- ภายใต้เงื่อนไขจริง (ค้นหาขนาดใหญ่ + การเลือก): 40.1%
- เมื่อไม่มีทักษะแบบปรับเฉพาะงาน: 38.4% (ต่างจากค่าอ้างอิงที่ไม่ใช้ทักษะซึ่งอยู่ที่ 35.4% เพียง 3%p เท่านั้น)
-
สำหรับโมเดลที่อ่อนกว่า (Kimi, Qwen) การใช้ทักษะกลับให้ผลตรงกันข้าม คือทำให้ประสิทธิภาพ ตกต่ำกว่าค่าอ้างอิง
สาเหตุหลักของประสิทธิภาพที่ลดลง
- คัดเลือกทักษะล้มเหลว: แม้จะมีทักษะที่ตรงงาน Claude ก็เรียกมาใช้ได้ถูกต้องเพียง 49%
- ข้อจำกัดด้านความแม่นยำของการค้นหา: ใน 5 อันดับแรก ค่า Recall@5 ของการดึงทักษะที่เกี่ยวข้องกลับมาได้สูงสุดเพียง 65.5%
- ความสามารถในการปรับใช้ยังไม่พอ: ไม่สามารถประยุกต์ทักษะที่คล้ายกันให้เหมาะกับสถานการณ์ได้ดี
ความพยายามในการปรับปรุงและผลลัพธ์
- หากใช้วิธีคัดกรองหรือสร้างทักษะใหม่ตามแต่ละงาน ประสิทธิภาพของ Claude เพิ่มจาก 40.1% → 48.2% ได้ แต่จะได้ผลก็ต่อเมื่อทักษะที่ค้นหาได้ตั้งแต่แรกมีความเกี่ยวข้องอยู่พอสมควร
- ยังมีความเห็นด้วยว่า แนวทางแบบงานวิจัยของ Vercel ที่เพียงใส่ไฟล์ Markdown อย่าง AGENTS.md เข้าไปในคอนเท็กซ์ อาจมีความเสถียรมากกว่า
บทสรุปและข้อเสนอแนะ
ปัจจุบันทักษะของ AI Agent ยังแสดง ประสิทธิภาพที่ถูกประเมินสูงเกินจริงเฉพาะบนเบนช์มาร์ก เท่านั้น แต่ในสภาพแวดล้อมการใช้งานจริง ผลลัพธ์ยังมีข้อจำกัดมาก โดยเฉพาะกับโมเดลที่อ่อนกว่า ทักษะอาจกลายเป็นตัวรบกวนเสียด้วยซ้ำ
ทีมวิจัยเน้นย้ำว่าจำเป็นต้องมี เทคนิคการค้นหาที่ดีกว่าเดิม, กลยุทธ์การคัดกรองทักษะแบบออฟไลน์ที่มีประสิทธิภาพ, และ การออกแบบระบบนิเวศของทักษะให้สอดคล้องกับความสามารถของโมเดล ทั้งนี้ได้เปิดเผยทั้งตัวงานวิจัยและโค้ดไว้บน GitHub แล้ว
อ่านเพิ่มเติม: https://aisparkup.com/posts/11097
ยังไม่มีความคิดเห็น