ทักษะของ AI Agent ในโลกจริงทำผลงานได้ไม่ถึงครึ่งของคะแนนบนเบนช์มาร์ก

(arxiv.org)

3 คะแนน โดย davespark 2026-04-16 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

นี่คือผลการวิจัยจากทีมวิจัย UC Santa Barbara, MIT CSAIL และ MIT-IBM Watson AI Lab ที่ประเมิน ความสามารถในการใช้ทักษะของ AI Agent ในสภาพการใช้งานจริงอย่างสมจริง

ทีมวิจัยรวบรวมทักษะจำนวน 34,198 รายการ (องค์ความรู้แบบมีโครงสร้าง เช่น เวิร์กโฟลว์ วิธีใช้ API และแนวปฏิบัติที่ดี) จากโอเพนซอร์สเพื่อนำมาทดสอบ โดยเบนช์มาร์กเดิม (SKILLSBENCH) มีปัญหาที่ประเมินภายใต้เงื่อนไขในอุดมคติที่ ป้อนทักษะที่ตรงเป๊ะให้เอเจนต์ล่วงหน้า ทำให้ประสิทธิภาพถูกประเมินสูงเกินจริง

เพื่อแก้ปัญหานี้ ทีมวิจัยได้ออกแบบ สถานการณ์สมจริง 6 ขั้น ดังนี้:

ให้ทักษะโดยตรง
ให้เอเจนต์เลือกทักษะด้วยตัวเอง
ผสมทักษะที่ไม่เกี่ยวข้องเข้าไป
ค้นหาจากคลังทักษะขนาดใหญ่
กรณีที่ไม่มีทักษะแบบปรับให้ตรงงานเลย

เมื่อนำไปทดสอบกับโมเดลล่าสุดอย่าง Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B พบว่า:

อิงจาก Claude Opus 4.6
- เมื่อให้ทักษะโดยตรง: อัตราผ่าน 55.4%
- ภายใต้เงื่อนไขจริง (ค้นหาขนาดใหญ่ + การเลือก): 40.1%
- เมื่อไม่มีทักษะแบบปรับเฉพาะงาน: 38.4% (ต่างจากค่าอ้างอิงที่ไม่ใช้ทักษะซึ่งอยู่ที่ 35.4% เพียง 3%p เท่านั้น)
สำหรับโมเดลที่อ่อนกว่า (Kimi, Qwen) การใช้ทักษะกลับให้ผลตรงกันข้าม คือทำให้ประสิทธิภาพ ตกต่ำกว่าค่าอ้างอิง

สาเหตุหลักของประสิทธิภาพที่ลดลง

คัดเลือกทักษะล้มเหลว: แม้จะมีทักษะที่ตรงงาน Claude ก็เรียกมาใช้ได้ถูกต้องเพียง 49%
ข้อจำกัดด้านความแม่นยำของการค้นหา: ใน 5 อันดับแรก ค่า Recall@5 ของการดึงทักษะที่เกี่ยวข้องกลับมาได้สูงสุดเพียง 65.5%
ความสามารถในการปรับใช้ยังไม่พอ: ไม่สามารถประยุกต์ทักษะที่คล้ายกันให้เหมาะกับสถานการณ์ได้ดี

ความพยายามในการปรับปรุงและผลลัพธ์

หากใช้วิธีคัดกรองหรือสร้างทักษะใหม่ตามแต่ละงาน ประสิทธิภาพของ Claude เพิ่มจาก 40.1% → 48.2% ได้ แต่จะได้ผลก็ต่อเมื่อทักษะที่ค้นหาได้ตั้งแต่แรกมีความเกี่ยวข้องอยู่พอสมควร
ยังมีความเห็นด้วยว่า แนวทางแบบงานวิจัยของ Vercel ที่เพียงใส่ไฟล์ Markdown อย่าง AGENTS.md เข้าไปในคอนเท็กซ์ อาจมีความเสถียรมากกว่า

บทสรุปและข้อเสนอแนะ

ปัจจุบันทักษะของ AI Agent ยังแสดง ประสิทธิภาพที่ถูกประเมินสูงเกินจริงเฉพาะบนเบนช์มาร์ก เท่านั้น แต่ในสภาพแวดล้อมการใช้งานจริง ผลลัพธ์ยังมีข้อจำกัดมาก โดยเฉพาะกับโมเดลที่อ่อนกว่า ทักษะอาจกลายเป็นตัวรบกวนเสียด้วยซ้ำ

ทีมวิจัยเน้นย้ำว่าจำเป็นต้องมี เทคนิคการค้นหาที่ดีกว่าเดิม, กลยุทธ์การคัดกรองทักษะแบบออฟไลน์ที่มีประสิทธิภาพ, และ การออกแบบระบบนิเวศของทักษะให้สอดคล้องกับความสามารถของโมเดล ทั้งนี้ได้เปิดเผยทั้งตัวงานวิจัยและโค้ดไว้บน GitHub แล้ว

อ่านเพิ่มเติม: https://aisparkup.com/posts/11097

ทักษะของ AI Agent ในโลกจริงทำผลงานได้ไม่ถึงครึ่งของคะแนนบนเบนช์มาร์ก

สาเหตุหลักของประสิทธิภาพที่ลดลง

ความพยายามในการปรับปรุงและผลลัพธ์

บทสรุปและข้อเสนอแนะ

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น