• การประเมิน LLM ยังหยุดอยู่ที่ระดับ "คะแนน SAT" — ไม่ว่าจะเป็น MMLU, HumanEval, SWE-bench ล้วนอยู่ในกรอบคิดแบบเซสชันเดียว·คำตอบเดียว แต่ coding agent ในโลกจริงทำงานข้ามหลายเซสชัน เรียนรู้จากความผิดพลาด และอ่านคอนเวนชันที่มีอยู่เดิม สิ่งนี้ไม่ใช่ปัญหาเรื่องความรู้ (knowledge) แต่เป็นปัญหาเรื่องพฤติกรรม (behavior)
• ตอนเราคัดเลือกคน เราดูมากกว่าเกรดว่า "เขาคิดอย่างไร" — แล้วทำไมการประเมิน LLM ถึงไม่ทำแบบนั้น ตอนนี้เรายังติดอยู่ในขั้น "เช็ก GPA" ที่ทุกโมเดลต่างทำได้ถึงระดับ 90 percentile
• ต่อให้แก้บั๊กเดียวกัน แนวทางก็อาจต่างกันอย่างสิ้นเชิง — Model A ใช้ grep หาแล้วแพตช์ใน 30 วินาที (สายทำต้นแบบ), Model B แยกเป็นงานย่อยแล้วเข้าหาอย่างเป็นระบบ (สายสถาปัตยกรรม), Model C เรียนรู้แบบอย่างจาก git log แล้วค่อยแก้ (สายบำรุงรักษา) ทั้งสามโมเดลแก้บั๊กได้เหมือนกัน คะแนนจึงเท่ากัน แต่ความเหมาะสมกับบทบาทแตกต่างกันโดยสิ้นเชิง
• ข้อเสนอ 4 มิติสำหรับสังเกตพฤติกรรม — Decomposition (แยกปัญหาก่อนหรือรีบลงมือทันที), Approach (มองหารูปแบบหรืออนุมานจากหลักการ), Recovery (พอไปต่อไม่ได้จะเปลี่ยนกลยุทธ์หรือดันทุรังต่อ), Consistency (กับปัญหาคล้ายกันยังใช้แนวทางแบบเดิมหรือไม่)
การประเมินความรู้ vs การประเมินพฤติกรรม
| เบนช์มาร์กเดิม | สิ่งที่วัด | สิ่งที่พลาดไป |
|---|---|---|
| MMLU | ปริมาณความรู้ที่ท่องจำได้ | การตัดสินใจในการประยุกต์ใช้, "การรับรู้ว่าสิ่งใดที่ตัวเองไม่รู้" |
| HumanEval | อัตราผ่านตั้งแต่ความพยายามครั้งแรก | กระบวนการดีบัก, การทำซ้ำ, การปรับตัว |
| SWE-bench | แพตช์ผ่านหรือไม่ | เส้นทางการเข้าหาปัญหา, ความเข้าใจสถาปัตยกรรม, การเรียนรู้ข้ามเซสชัน |
ปี 2026 คำถามที่เราต้องถามจริงๆ
ตอนนี้ coding agent ไม่ใช่แค่เดโม แต่กลายเป็นเครื่องมือของทีมจริงแล้ว คำถามที่เราควรถามไม่ใช่ "ได้กี่คะแนน" แต่คือ:
- "โมเดลไหนเหมาะกับงานดูแลรักษาระบบ legacy"
- "สไตล์การดีบักแบบไหนเหมาะกับการ pair programming กับจูเนียร์"
- "โมเดลไหนแสดงพฤติกรรมที่คาดการณ์ได้มากที่สุดในระดับรายสัปดาห์"
นี่คือคำถามเรื่อง role-fit เป็นคำถามแบบเดียวกับการจ้างงาน แต่เรายังตอบมันด้วยคะแนน SAT อยู่
บทความนี้ไม่ได้เสนอเฟรมเวิร์กในรูปแบบที่สมบูรณ์สำเร็จรูป แต่เปิดสมมติฐานทั้ง 4 ข้อไว้อย่างชัดเจนด้วยท่าทีว่า "ถ้าผมผิดก็ช่วยแก้ให้ด้วย" เพื่อชวนถกเถียงกันในคอมเมนต์ และในเดือนเมษายน 2026 งานวิจัยของ Tang et al. เรื่อง "In-Situ Behavioral Evaluation for LLM Fairness" ก็ชี้ไปในทิศทางคล้ายกันเช่นกัน.
ยังไม่มีความคิดเห็น