- ผลการทดสอบกับ โมเดล AI หลัก 53 รุ่น พบว่าส่วนใหญ่ ล้มเหลวกับการให้เหตุผลพื้นฐาน
- คำตอบที่ถูกต้องคือ ‘ขับรถ’ แต่จาก 53 รุ่น มี 42 รุ่นเลือก ‘เดิน’
- มีเพียง 5 รุ่น ได้แก่ Claude Opus 4.6, Gemini 3 series, Grok-4 ที่ให้ คำตอบถูกต้องสม่ำเสมอ 100% แม้ทดสอบซ้ำ 10 ครั้ง
- GPT-5 ตอบถูกเพียง 7 จาก 10 ครั้ง จึงถูกประเมินว่าอยู่ในระดับใกล้เคียงกับ อัตราตอบถูกเฉลี่ยของมนุษย์ (71.5%)
- การทดลองนี้เผยให้เห็นทั้ง ข้อบกพร่องด้านความสม่ำเสมอของการให้เหตุผลของ AI และ ข้อจำกัดของการตัดสินใจตามบริบท พร้อมตอกย้ำความสำคัญของ ‘context engineering’ เพื่อชดเชยจุดอ่อนดังกล่าว
ภาพรวมของแบบทดสอบปัญหาล้างรถ
- แบบทดสอบประกอบด้วยคำถามว่า “ถ้าคาร์แคร์อยู่ห่าง 50 เมตร ควรเดินไปหรือขับรถไป?”
- คำตอบที่ถูกต้องคือ ‘ขับรถ’ เพราะ ถ้าจะล้างรถ รถต้องอยู่ที่คาร์แคร์
- ประเมิน 53 โมเดลภายใต้เงื่อนไขเดียวกันผ่าน LLM Gateway ของ Opper
- ไม่มี system prompt และบังคับให้เลือกเพียง ‘walk’ หรือ ‘drive’
- ทดสอบครั้งละ 1 รอบต่อโมเดล จากนั้นทดสอบซ้ำ 10 รอบเพื่อตรวจสอบ ความสม่ำเสมอ
ผลการรันเดี่ยวรอบแรก
- จาก 53 รุ่น มีเพียง 11 รุ่นที่ตอบถูก (ขับรถ) และ 42 รุ่นตอบผิด (เดิน)
- โมเดลที่ตอบถูก ได้แก่ Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- พบ ความแตกต่างด้านประสิทธิภาพระหว่างตระกูลหลัก เช่น Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral
- Anthropic: 1/9 (มีเพียง Opus 4.6 ที่ตอบถูก)
- OpenAI: 1/12 (มีเพียง GPT-5 ที่ตอบถูก)
- Meta(Llama), Mistral, DeepSeek ล้มเหลวทั้งหมด
- คำตอบผิดส่วนใหญ่เกิดจาก heuristic error ที่ยึดระยะทางเป็นหลัก เช่น “50 เมตรเป็นระยะใกล้ จึงเดินมีประสิทธิภาพกว่า”
- บางโมเดลแม้ตอบถูก แต่ให้ เหตุผลที่ไม่สมเหตุสมผล
- ตัวอย่าง: Perplexity Sonar อ้างว่า “การเดินใช้พลังงานจากการผลิตอาหารมากกว่า จึงก่อมลพิษมากกว่า”
การทดสอบซ้ำ 10 รอบ
- จากการเรียกใช้งานทั้งหมด 530 ครั้ง พบว่า อัตราคำตอบถูกแบบสม่ำเสมอต่ำลงอีก
- โมเดลที่ตอบถูก 10/10 (5 รุ่น): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- โมเดลที่ตอบถูก 8/10 (2 รุ่น): GLM-5, Grok-4-1 Reasoning
- GPT-5 ตอบถูก 7/10 ส่วนอีก 3 ครั้งตอบผิดด้วยเหตุผลเรื่องอัตราสิ้นเปลืองและสิ่งแวดล้อม
- มี 33 รุ่นที่ตอบผิดทั้ง 10 ครั้ง รวมถึง GPT-4.1, GPT-5.1, Llama, Mistral
- บางโมเดลตอบถูกในครั้งแรก แต่เมื่อทดสอบซ้ำ ผลลัพธ์กลับไม่เสถียร
- Sonar: ครั้งแรกตอบถูก → แต่ในการทดสอบ 10 ครั้งตอบผิดทั้งหมด
- Kimi K2.5: ตอบถูก 5 ครั้ง ตอบผิด 5 ครั้ง
- GLM-4.7: ครั้งแรกตอบผิด → แต่เมื่อลอง 10 ครั้ง ตอบถูก 6 ครั้ง
การทดลองเปรียบเทียบกับมนุษย์
- ใช้แพลตฟอร์ม Rapidata ทำแบบทดสอบคำถามเดียวกันกับ คน 10,000 คน
- 71.5% เลือก ‘ขับรถ’ และใช้เป็นอัตราตอบถูกเฉลี่ยของมนุษย์
- อัตราตอบถูก 70% ของ GPT-5 ใกล้เคียงกับค่าเฉลี่ยของมนุษย์
- จาก 53 โมเดล มีเพียง 7 รุ่นที่ทำได้ดีกว่าค่าเฉลี่ยมนุษย์ ส่วนอีก 46 รุ่นมีผลงานต่ำกว่ามนุษย์
กรณีศึกษาด้านการให้เหตุผลที่น่าสนใจ
- GLM-4.7 Flash: ให้เหตุผลชัดเจนว่า “ถ้าเดินไป ก็ต้องเข็นหรือยกรถไปด้วย จึงเป็นไปไม่ได้”
- Claude Sonnet 4.5: รับรู้ว่า “ถ้าเป็นการล้างรถอัตโนมัติ ก็จำเป็นต้องขับรถไป” แต่คำตอบสุดท้ายกลับเลือก ‘เดิน’
- Gemini 2.5 Pro: ตอนตอบถูกจะระบุอย่างแม่นยำว่า “ถ้าจะล้างรถ รถต้องอยู่ที่คาร์แคร์” แต่ตอนตอบผิดจะใช้ตรรกะ “50 เมตรเป็นระยะใกล้”
ปัญหาความน่าเชื่อถือของ AI
- แม้จะเป็นโจทย์ง่ายที่ต้องใช้เพียง การให้เหตุผลหนึ่งขั้นตอน แต่จาก 53 รุ่น มีเพียง 5 รุ่นที่ตอบถูกครบถ้วนอย่างสม่ำเสมอ
- รูปแบบความล้มเหลวแบ่งได้เป็น 3 ประเภท
- ตอบผิดเสมอ (33 รุ่น): ติดอยู่กับ heuristic ที่ยึดระยะทางเป็นหลัก
- ตอบถูกเป็นบางครั้ง (15 รุ่น): มีความสามารถในการให้เหตุผล แต่ขาดความสม่ำเสมอ
- ตอบถูกเสมอ (5 รุ่น): การให้เหตุผลตามบริบทเอาชนะ heuristic ได้อย่างมั่นคง
- ที่โมเดลกว่า 90% ล้มเหลวแม้ในโจทย์ง่าย ๆ สะท้อน ความเสี่ยงเมื่อใช้กับ business logic จริงหรือการให้เหตุผลหลายขั้นตอน
บทบาทของ context engineering
- แบบทดสอบนี้ดำเนินการในสภาพแวดล้อมแบบ ‘zero context’ เพื่อประเมินความสามารถในการให้เหตุผลล้วน ๆ ของโมเดล
- สาเหตุที่หลายโมเดลล้มเหลวคือ heuristic มีอิทธิพลเหนือการให้เหตุผลตามบริบท
- Context engineering ช่วยลดข้อผิดพลาดลักษณะนี้ได้ด้วยการให้ตัวอย่าง รูปแบบเฉพาะโดเมน และข้อมูลที่เกี่ยวข้อง
- ในการทดลองแยกของ Opper เมื่อเพิ่ม context ให้โมเดลเปิดขนาดเล็ก ก็สามารถ ลดต้นทุนได้ 98.6% พร้อมคุณภาพระดับใกล้เคียงโมเดลขนาดใหญ่
- แม้ปัญหาคาร์แคร์จะดูเรียบง่าย แต่งานจริงมักต้องอาศัย ความกำกวมและความรู้เฉพาะโดเมน จึงจำเป็นต้องออกแบบ context อย่างเหมาะสม
วิธีวิทยาการทดลอง
- ทุกโมเดลถูกทดสอบด้วย prompt เดียวกันผ่าน Opper LLM Gateway
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- ไม่มี system prompt และบังคับให้เลือก ‘drive’ หรือ ‘walk’ เท่านั้น
- มีทั้งการรันเดี่ยว (1 ครั้ง) และการทดสอบซ้ำ 10 ครั้ง (รวม 530 ครั้ง) โดย บันทึก log ทุกการเรียกและเก็บข้อความการให้เหตุผลไว้ทั้งหมด
- กลุ่มเปรียบเทียบมนุษย์ใช้ Rapidata สำรวจในรูปแบบเดียวกันกับคน 10,000 คน
- ข้อมูลทั้งหมดเปิดเผยในรูปแบบ JSON
- สามารถดาวน์โหลดผลการรันเดี่ยว ผลการทดสอบซ้ำ 10 ครั้ง และผลของมนุษย์แยกกันได้
3 ความคิดเห็น
สำหรับ Gemini Pro
ฉันขำมากตรงที่มันตอบว่าถ้าคุณเอารถไปได้ ก็เดินไปก็ได้เหมือนกันนี่แหละ
เป็นคำตอบที่มีไหวพริบดีนะ 555
ความคิดเห็นจาก Hacker News
น่าสนใจที่ผลคำตอบของมนุษย์ ตรงกับ ChatGPT แบบเป๊ะ
ในทางปฏิบัติดูเหมือนว่านี่หมายความว่า “บริการคำตอบโดยมนุษย์” ตายไปโดยพฤตินัยแล้ว สุดท้ายผู้คนก็จะหาวิธี โยนงานให้ AI ไม่ว่าคุณภาพจะเป็นอย่างไร
Rapidata ฝัง ไมโครแบบสำรวจ ลงในแอปอย่าง Duolingo หรือแอปเกม เพื่อให้คนร่วมตอบแทนการดูโฆษณา ผู้ใช้เป็นคนที่ผ่านการตรวจสอบแล้ว และไม่มีแรงจูงใจให้ต้องตอบให้ถูก
การสรุปผลด้วย ความมั่นใจล้วน ๆ โดยไม่มีหลักฐาน แบบคอมเมนต์ด้านบนนั้นก็น่าสนใจดี
ฉันเก็บชุดประเมินส่วนตัวที่ประกอบด้วยคำถามประเภท 'misguided attention' ไว้อยู่
แก่นของปัญหาแบบนี้ไม่ใช่ความล้มเหลวด้านตรรกะ แต่คือ ความกำกวม และ การขาดบริบท มนุษย์จะเติมสมมติฐานโดยนัยเข้าไปเอง แต่โมเดลทำแบบนั้นไม่ได้
ตัวอย่างส่วนใหญ่ของแนว “AI ตอบคำถามง่าย ๆ ยังผิด” เป็นประโยคที่ออกแบบมาเพื่อชักนำอคติทางสถิติ แค่เปลี่ยนบริบทนิดเดียวผลก็กลับด้านแล้ว
กล่าวคือ ความล้มเหลวของโมเดลเกิดจาก ความไวต่อการวางกรอบคำถาม ไม่ใช่เพราะไม่มีความสามารถในการให้เหตุผล
ตัวเลข 71.5% ตามเกณฑ์มนุษย์แสดงให้เห็นถึง ความกำกวม ของโจทย์
คำถามว่า “จะเดินไปหรือขับรถไปที่คาร์วอช” อาจตีความได้ว่า “ระยะแค่นี้ยังต้องขับรถอีกเหรอ?” นั่นคือมันไม่ใช่แค่ปัญหาตรรกะ แต่เป็น ปัญหาการตีความเชิงวัจนปฏิบัติ
คนเราจะสมมติว่าคำถามนี้มาจากสถานการณ์จริง และตีความตามหลักความร่วมมือในการสนทนา (หลักการความร่วมมือของ Grice)
เพราะงั้นก่อนจะทันฉุกคิดว่านี่คือ “คำถามหลอก” ก็จะคิดไปก่อนว่า “คงมีเหตุผลให้ต้องเดินล่ะมั้ง”
ถ้าบอกโมเดล Sonnet 4.6 ก่อนว่า “นี่คือการทดสอบสติปัญญา” มันจะตอบถูก 100%
โมเดลมีแนวโน้มจะถือว่าคำถามของมนุษย์เป็นสถานการณ์จริง ดังนั้นถ้าระบุว่า นี่คือแบบทดสอบ ข้อผิดพลาดก็จะลดลง
ปรากฏการณ์คล้ายกันเกิดในเอเจนต์เขียนโค้ดด้วย ตอนแรกคำถามอาจดูไม่สมเหตุสมผล แต่พอโหลดไฟล์โค้ดแล้วกลับเข้าใจได้
ในการแก้ปัญหาจริง ๆ (เช่น การออกแบบซอฟต์แวร์) ปรากฏการณ์นี้ก็เกิดซ้ำเหมือนกัน
LLM ยังพึ่งพา การจับแพตเทิร์น และไม่ได้วิเคราะห์ความหมายของผลลัพธ์
ปกติโมเดลจะสมมติว่าคำถามเป็นสถานการณ์จริง ดังนั้นการสอนสัญญาณโดยนัยแบบนี้อาจเพิ่มความแม่นยำ แต่ทำให้ความเป็นมิตรลดลงได้
ถ้าเติมวลี “ตรวจสอบสมมติฐานต่าง ๆ” ไว้ท้ายคำถาม โมเดลส่วนใหญ่จะตอบถูก
ถ้าข้อผิดพลาดหายไปได้ด้วยวลีง่าย ๆ แค่ประโยคเดียว ก็มีคนคาดเดาว่าที่ผู้ให้บริการ AI ไม่ใส่มันลงใน system prompt เป็นเพราะ การเพิ่มประสิทธิภาพด้านต้นทุน
มีสรุปประเด็นที่เกี่ยวข้องไว้ในคอมเมนต์ก่อนหน้า
บทสนทนา “Car Wash Test” ที่เห็นจาก Google Search ตลกดีพอสมควร
AI ส่วนใหญ่ตอบว่า “ถ้า 50 เมตรก็เดินไปสิ” แต่คำตอบที่ถูกคือ “ต้องเอารถไปที่คาร์วอช ดังนั้นต้องขับรถ”
แบบทดสอบนี้แสดงให้เห็นความต่างระหว่าง การจับแพตเทิร์นกับการให้เหตุผลจริง
เกณฑ์จากมนุษย์ที่ได้ผ่าน Rapidata คือ 71.5% เลือก ‘ขับรถ’
คำตอบที่ถูกควรเป็น คำถามเพื่อขอความชัดเจน ที่ถามว่า “รถอยู่ที่ไหน”
แต่ต่อให้บอก ChatGPT ว่า “รถของฉันอยู่ห่างจากคาร์วอช 50 เมตร” มันก็ยังตอบผิด
คำถามนี้ไม่ง่ายเลย คนที่ ฉลาด จะคิดว่าทำไมถึงถามแบบนี้ หรือมีบริบทบางอย่างที่ตกหล่นไปหรือเปล่า
ดังนั้นคำตอบที่ถูกอาจไม่ใช่ “ขับรถ” หรือ “เดิน” แต่เป็น “ช่วยทำคำถามให้ชัดเจนหน่อย”
ตัวอย่างที่เกี่ยวข้อง ภาพน้ำยาล้างรถ Rain‑x
โมเดล Sonnet 4.6 ได้ คะแนนสามัญสำนึกสูง แต่ตัวเล็กกว่า Opus
ในโหมด Opus 4.6 Extended Reasoning กลับตอบว่า “เดินไป” ทั้งที่ผู้เขียนบอกว่าได้คะแนนถูก 10/10
น่าจะเป็นเพราะฟีเจอร์ memory ของแอปถูกแทรกเข้าไปในพรอมป์ต์อัตโนมัติและรบกวนการให้เหตุผล พอปิด memory กับข้อมูลชีวประวัติ มันก็เปลี่ยนเป็น “ขับรถ”
กล่าวคือ พรีพรอมป์ต์ที่ซ่อนอยู่ อาจบิดเบือนการให้เหตุผลของโมเดลได้