จุดบอดของการประเมิน LLM: ทำไมเราจึงมองแค่ ‘ความรู้’ ไม่ใช่ ‘พฤติกรรม’ ?

(dev.to)

14 คะแนน โดย johnonlee 2026-05-27 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

• การประเมิน LLM ยังหยุดอยู่ที่ระดับ "คะแนน SAT" — ไม่ว่าจะเป็น MMLU, HumanEval, SWE-bench ล้วนอยู่ในกรอบคิดแบบเซสชันเดียว·คำตอบเดียว แต่ coding agent ในโลกจริงทำงานข้ามหลายเซสชัน เรียนรู้จากความผิดพลาด และอ่านคอนเวนชันที่มีอยู่เดิม สิ่งนี้ไม่ใช่ปัญหาเรื่องความรู้ (knowledge) แต่เป็นปัญหาเรื่องพฤติกรรม (behavior)

• ตอนเราคัดเลือกคน เราดูมากกว่าเกรดว่า "เขาคิดอย่างไร" — แล้วทำไมการประเมิน LLM ถึงไม่ทำแบบนั้น ตอนนี้เรายังติดอยู่ในขั้น "เช็ก GPA" ที่ทุกโมเดลต่างทำได้ถึงระดับ 90 percentile

• ต่อให้แก้บั๊กเดียวกัน แนวทางก็อาจต่างกันอย่างสิ้นเชิง — Model A ใช้ grep หาแล้วแพตช์ใน 30 วินาที (สายทำต้นแบบ), Model B แยกเป็นงานย่อยแล้วเข้าหาอย่างเป็นระบบ (สายสถาปัตยกรรม), Model C เรียนรู้แบบอย่างจาก git log แล้วค่อยแก้ (สายบำรุงรักษา) ทั้งสามโมเดลแก้บั๊กได้เหมือนกัน คะแนนจึงเท่ากัน แต่ความเหมาะสมกับบทบาทแตกต่างกันโดยสิ้นเชิง

• ข้อเสนอ 4 มิติสำหรับสังเกตพฤติกรรม — Decomposition (แยกปัญหาก่อนหรือรีบลงมือทันที), Approach (มองหารูปแบบหรืออนุมานจากหลักการ), Recovery (พอไปต่อไม่ได้จะเปลี่ยนกลยุทธ์หรือดันทุรังต่อ), Consistency (กับปัญหาคล้ายกันยังใช้แนวทางแบบเดิมหรือไม่)

การประเมินความรู้ vs การประเมินพฤติกรรม

เบนช์มาร์กเดิม	สิ่งที่วัด	สิ่งที่พลาดไป
MMLU	ปริมาณความรู้ที่ท่องจำได้	การตัดสินใจในการประยุกต์ใช้, "การรับรู้ว่าสิ่งใดที่ตัวเองไม่รู้"
HumanEval	อัตราผ่านตั้งแต่ความพยายามครั้งแรก	กระบวนการดีบัก, การทำซ้ำ, การปรับตัว
SWE-bench	แพตช์ผ่านหรือไม่	เส้นทางการเข้าหาปัญหา, ความเข้าใจสถาปัตยกรรม, การเรียนรู้ข้ามเซสชัน

ปี 2026 คำถามที่เราต้องถามจริงๆ

ตอนนี้ coding agent ไม่ใช่แค่เดโม แต่กลายเป็นเครื่องมือของทีมจริงแล้ว คำถามที่เราควรถามไม่ใช่ "ได้กี่คะแนน" แต่คือ:

"โมเดลไหนเหมาะกับงานดูแลรักษาระบบ legacy"
"สไตล์การดีบักแบบไหนเหมาะกับการ pair programming กับจูเนียร์"
"โมเดลไหนแสดงพฤติกรรมที่คาดการณ์ได้มากที่สุดในระดับรายสัปดาห์"

นี่คือคำถามเรื่อง role-fit เป็นคำถามแบบเดียวกับการจ้างงาน แต่เรายังตอบมันด้วยคะแนน SAT อยู่

บทความนี้ไม่ได้เสนอเฟรมเวิร์กในรูปแบบที่สมบูรณ์สำเร็จรูป แต่เปิดสมมติฐานทั้ง 4 ข้อไว้อย่างชัดเจนด้วยท่าทีว่า "ถ้าผมผิดก็ช่วยแก้ให้ด้วย" เพื่อชวนถกเถียงกันในคอมเมนต์ และในเดือนเมษายน 2026 งานวิจัยของ Tang et al. เรื่อง "In-Situ Behavioral Evaluation for LLM Fairness" ก็ชี้ไปในทิศทางคล้ายกันเช่นกัน.

5 ความคิดเห็น

husky81 2026-05-28

คิดดูแล้ว ข้อสอบเข้ามหาวิทยาลัยที่ใช้ประเมินคนก็เหมือนกัน คือดูแค่ความรู้ ไม่ได้ดูพฤติกรรม

cronex 2026-05-27

ถ้ารักษารูปแบบให้คงที่ก็คงไม่เท่าไร แต่พอใช้แต่ละครั้งผลกลับต่างกันไปหมด..... เลยไม่รู้จริง ๆ ว่าควรประเมินอย่างไร

johnonlee 2026-05-27

เห็นด้วยครับ/ค่ะ แม้จะไม่มีคำตอบที่ตายตัว แต่ก็น่าจะจำเป็นต้องลองมองในทิศทางแบบนี้ด้วย ตอนนี้เรายังให้โมเดลเดียวทำงานตั้งแต่ต้นจนจบ แต่ผม/ฉันคิดว่าในวันข้างหน้าอาจเปลี่ยนไปเป็นการให้แต่ละโมเดลรับผิดชอบเฉพาะส่วนที่ตัวเองถนัดในแต่ละช่วงก็ได้ ทุกคนอาจตั้งใจเรียนรู้จนมีความรู้ในระดับใกล้เคียงกันได้ระดับหนึ่ง แต่รูปแบบการกระทำอาจทำให้ผลงานที่ออกมาแตกต่างกันได้ครับ/ค่ะ

b8g6pn 2026-05-27

ไม่มีคำตอบที่ถูกต้องตายตัว และเพราะหัวใจสำคัญคือการใช้เกณฑ์แบบมนุษย์ให้แม่นยำพร้อมใช้ทรัพยากรให้น้อย การประเมินจากปริมาณโทเค็นและระดับความสำเร็จน่าจะเหมาะสมกว่าไหม? ถ้าจะเข้าไปก้าวก่ายถึงวิธีการด้วยก็คงยากมากจริง ๆ...

aliveornot 2026-05-27

ก็ไม่ใช่ว่าจะพูดผิด แต่มีคำตอบไหมล่ะ เพราะแม้แต่ในการจ้างงานจริง การให้คะแนนสิ่งนั้นก็ทำได้ยาก เลยต้องรับคนเข้ามาลองใช้ดูก่อน แล้วค่อยปลดออกกันแบบนี้ไง... เหมือนกับตอนใช้โมเดล AI แล้วเปลี่ยนตัวนั่นแหละ

จุดบอดของการประเมิน LLM: ทำไมเราจึงมองแค่ ‘ความรู้’ ไม่ใช่ ‘พฤติกรรม’ ?

การประเมินความรู้ vs การประเมินพฤติกรรม

ปี 2026 คำถามที่เราต้องถามจริงๆ

บทความที่เกี่ยวข้อง

5 ความคิดเห็น