ทดสอบ ‘ปัญหาล้างรถ’ กับโมเดล AI 53 รุ่น: “ถ้าคาร์แคร์อยู่ห่าง 50 เมตร ควรเดินไปหรือขับรถไป?”

(opper.ai)

10 คะแนน โดย GN⁺ 2026-02-25 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

ผลการทดสอบกับ โมเดล AI หลัก 53 รุ่น พบว่าส่วนใหญ่ ล้มเหลวกับการให้เหตุผลพื้นฐาน
คำตอบที่ถูกต้องคือ ‘ขับรถ’ แต่จาก 53 รุ่น มี 42 รุ่นเลือก ‘เดิน’
มีเพียง 5 รุ่น ได้แก่ Claude Opus 4.6, Gemini 3 series, Grok-4 ที่ให้ คำตอบถูกต้องสม่ำเสมอ 100% แม้ทดสอบซ้ำ 10 ครั้ง
GPT-5 ตอบถูกเพียง 7 จาก 10 ครั้ง จึงถูกประเมินว่าอยู่ในระดับใกล้เคียงกับ อัตราตอบถูกเฉลี่ยของมนุษย์ (71.5%)
การทดลองนี้เผยให้เห็นทั้ง ข้อบกพร่องด้านความสม่ำเสมอของการให้เหตุผลของ AI และ ข้อจำกัดของการตัดสินใจตามบริบท พร้อมตอกย้ำความสำคัญของ ‘context engineering’ เพื่อชดเชยจุดอ่อนดังกล่าว

ภาพรวมของแบบทดสอบปัญหาล้างรถ

แบบทดสอบประกอบด้วยคำถามว่า “ถ้าคาร์แคร์อยู่ห่าง 50 เมตร ควรเดินไปหรือขับรถไป?”
- คำตอบที่ถูกต้องคือ ‘ขับรถ’ เพราะ ถ้าจะล้างรถ รถต้องอยู่ที่คาร์แคร์
ประเมิน 53 โมเดลภายใต้เงื่อนไขเดียวกันผ่าน LLM Gateway ของ Opper
- ไม่มี system prompt และบังคับให้เลือกเพียง ‘walk’ หรือ ‘drive’
- ทดสอบครั้งละ 1 รอบต่อโมเดล จากนั้นทดสอบซ้ำ 10 รอบเพื่อตรวจสอบ ความสม่ำเสมอ

ผลการรันเดี่ยวรอบแรก

จาก 53 รุ่น มีเพียง 11 รุ่นที่ตอบถูก (ขับรถ) และ 42 รุ่นตอบผิด (เดิน)
โมเดลที่ตอบถูก ได้แก่ Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
พบ ความแตกต่างด้านประสิทธิภาพระหว่างตระกูลหลัก เช่น Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral
- Anthropic: 1/9 (มีเพียง Opus 4.6 ที่ตอบถูก)
- OpenAI: 1/12 (มีเพียง GPT-5 ที่ตอบถูก)
- Meta(Llama), Mistral, DeepSeek ล้มเหลวทั้งหมด
คำตอบผิดส่วนใหญ่เกิดจาก heuristic error ที่ยึดระยะทางเป็นหลัก เช่น “50 เมตรเป็นระยะใกล้ จึงเดินมีประสิทธิภาพกว่า”
บางโมเดลแม้ตอบถูก แต่ให้ เหตุผลที่ไม่สมเหตุสมผล
- ตัวอย่าง: Perplexity Sonar อ้างว่า “การเดินใช้พลังงานจากการผลิตอาหารมากกว่า จึงก่อมลพิษมากกว่า”

การทดสอบซ้ำ 10 รอบ

จากการเรียกใช้งานทั้งหมด 530 ครั้ง พบว่า อัตราคำตอบถูกแบบสม่ำเสมอต่ำลงอีก
โมเดลที่ตอบถูก 10/10 (5 รุ่น): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
โมเดลที่ตอบถูก 8/10 (2 รุ่น): GLM-5, Grok-4-1 Reasoning
GPT-5 ตอบถูก 7/10 ส่วนอีก 3 ครั้งตอบผิดด้วยเหตุผลเรื่องอัตราสิ้นเปลืองและสิ่งแวดล้อม
มี 33 รุ่นที่ตอบผิดทั้ง 10 ครั้ง รวมถึง GPT-4.1, GPT-5.1, Llama, Mistral
บางโมเดลตอบถูกในครั้งแรก แต่เมื่อทดสอบซ้ำ ผลลัพธ์กลับไม่เสถียร
- Sonar: ครั้งแรกตอบถูก → แต่ในการทดสอบ 10 ครั้งตอบผิดทั้งหมด
- Kimi K2.5: ตอบถูก 5 ครั้ง ตอบผิด 5 ครั้ง
- GLM-4.7: ครั้งแรกตอบผิด → แต่เมื่อลอง 10 ครั้ง ตอบถูก 6 ครั้ง

การทดลองเปรียบเทียบกับมนุษย์

ใช้แพลตฟอร์ม Rapidata ทำแบบทดสอบคำถามเดียวกันกับ คน 10,000 คน
- 71.5% เลือก ‘ขับรถ’ และใช้เป็นอัตราตอบถูกเฉลี่ยของมนุษย์
อัตราตอบถูก 70% ของ GPT-5 ใกล้เคียงกับค่าเฉลี่ยของมนุษย์
จาก 53 โมเดล มีเพียง 7 รุ่นที่ทำได้ดีกว่าค่าเฉลี่ยมนุษย์ ส่วนอีก 46 รุ่นมีผลงานต่ำกว่ามนุษย์

กรณีศึกษาด้านการให้เหตุผลที่น่าสนใจ

GLM-4.7 Flash: ให้เหตุผลชัดเจนว่า “ถ้าเดินไป ก็ต้องเข็นหรือยกรถไปด้วย จึงเป็นไปไม่ได้”
Claude Sonnet 4.5: รับรู้ว่า “ถ้าเป็นการล้างรถอัตโนมัติ ก็จำเป็นต้องขับรถไป” แต่คำตอบสุดท้ายกลับเลือก ‘เดิน’
Gemini 2.5 Pro: ตอนตอบถูกจะระบุอย่างแม่นยำว่า “ถ้าจะล้างรถ รถต้องอยู่ที่คาร์แคร์” แต่ตอนตอบผิดจะใช้ตรรกะ “50 เมตรเป็นระยะใกล้”

ปัญหาความน่าเชื่อถือของ AI

แม้จะเป็นโจทย์ง่ายที่ต้องใช้เพียง การให้เหตุผลหนึ่งขั้นตอน แต่จาก 53 รุ่น มีเพียง 5 รุ่นที่ตอบถูกครบถ้วนอย่างสม่ำเสมอ
รูปแบบความล้มเหลวแบ่งได้เป็น 3 ประเภท
- ตอบผิดเสมอ (33 รุ่น): ติดอยู่กับ heuristic ที่ยึดระยะทางเป็นหลัก
- ตอบถูกเป็นบางครั้ง (15 รุ่น): มีความสามารถในการให้เหตุผล แต่ขาดความสม่ำเสมอ
- ตอบถูกเสมอ (5 รุ่น): การให้เหตุผลตามบริบทเอาชนะ heuristic ได้อย่างมั่นคง
ที่โมเดลกว่า 90% ล้มเหลวแม้ในโจทย์ง่าย ๆ สะท้อน ความเสี่ยงเมื่อใช้กับ business logic จริงหรือการให้เหตุผลหลายขั้นตอน

บทบาทของ context engineering

แบบทดสอบนี้ดำเนินการในสภาพแวดล้อมแบบ ‘zero context’ เพื่อประเมินความสามารถในการให้เหตุผลล้วน ๆ ของโมเดล
สาเหตุที่หลายโมเดลล้มเหลวคือ heuristic มีอิทธิพลเหนือการให้เหตุผลตามบริบท
Context engineering ช่วยลดข้อผิดพลาดลักษณะนี้ได้ด้วยการให้ตัวอย่าง รูปแบบเฉพาะโดเมน และข้อมูลที่เกี่ยวข้อง
- ในการทดลองแยกของ Opper เมื่อเพิ่ม context ให้โมเดลเปิดขนาดเล็ก ก็สามารถ ลดต้นทุนได้ 98.6% พร้อมคุณภาพระดับใกล้เคียงโมเดลขนาดใหญ่
แม้ปัญหาคาร์แคร์จะดูเรียบง่าย แต่งานจริงมักต้องอาศัย ความกำกวมและความรู้เฉพาะโดเมน จึงจำเป็นต้องออกแบบ context อย่างเหมาะสม

วิธีวิทยาการทดลอง

ทุกโมเดลถูกทดสอบด้วย prompt เดียวกันผ่าน Opper LLM Gateway
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- ไม่มี system prompt และบังคับให้เลือก ‘drive’ หรือ ‘walk’ เท่านั้น
- มีทั้งการรันเดี่ยว (1 ครั้ง) และการทดสอบซ้ำ 10 ครั้ง (รวม 530 ครั้ง) โดย บันทึก log ทุกการเรียกและเก็บข้อความการให้เหตุผลไว้ทั้งหมด
กลุ่มเปรียบเทียบมนุษย์ใช้ Rapidata สำรวจในรูปแบบเดียวกันกับคน 10,000 คน
ข้อมูลทั้งหมดเปิดเผยในรูปแบบ JSON
- สามารถดาวน์โหลดผลการรันเดี่ยว ผลการทดสอบซ้ำ 10 ครั้ง และผลของมนุษย์แยกกันได้

3 ความคิดเห็น

armila 2026-02-26

สำหรับ Gemini Pro
ฉันขำมากตรงที่มันตอบว่าถ้าคุณเอารถไปได้ ก็เดินไปก็ได้เหมือนกันนี่แหละ

grenade 2026-02-27

เป็นคำตอบที่มีไหวพริบดีนะ 555

GN⁺ 2026-02-25

ความคิดเห็นจาก Hacker News

น่าสนใจที่ผลคำตอบของมนุษย์ ตรงกับ ChatGPT แบบเป๊ะ
ในทางปฏิบัติดูเหมือนว่านี่หมายความว่า “บริการคำตอบโดยมนุษย์” ตายไปโดยพฤตินัยแล้ว สุดท้ายผู้คนก็จะหาวิธี โยนงานให้ AI ไม่ว่าคุณภาพจะเป็นอย่างไร
- มันดูเหมือนเรื่องบังเอิญ แต่จริง ๆ แล้วคำตอบจากมนุษย์ไม่ได้ถูกรวบรวมมาแบบนั้น
  Rapidata ฝัง ไมโครแบบสำรวจ ลงในแอปอย่าง Duolingo หรือแอปเกม เพื่อให้คนร่วมตอบแทนการดูโฆษณา ผู้ใช้เป็นคนที่ผ่านการตรวจสอบแล้ว และไม่มีแรงจูงใจให้ต้องตอบให้ถูก
- โมเดลเริ่มต้นของ ChatGPT คือ GPT‑5.2 Instant ส่วนที่ตรงกับผลมนุษย์คือโมเดล GPT‑5
  การสรุปผลด้วย ความมั่นใจล้วน ๆ โดยไม่มีหลักฐาน แบบคอมเมนต์ด้านบนนั้นก็น่าสนใจดี
- เรื่องแบบนี้เกิดขึ้นบ่อยในบริการ แรงงานมนุษย์จากภายนอก (3rd-party) มานานแล้ว
ฉันเก็บชุดประเมินส่วนตัวที่ประกอบด้วยคำถามประเภท 'misguided attention' ไว้อยู่
แก่นของปัญหาแบบนี้ไม่ใช่ความล้มเหลวด้านตรรกะ แต่คือ ความกำกวม และ การขาดบริบท มนุษย์จะเติมสมมติฐานโดยนัยเข้าไปเอง แต่โมเดลทำแบบนั้นไม่ได้
ตัวอย่างส่วนใหญ่ของแนว “AI ตอบคำถามง่าย ๆ ยังผิด” เป็นประโยคที่ออกแบบมาเพื่อชักนำอคติทางสถิติ แค่เปลี่ยนบริบทนิดเดียวผลก็กลับด้านแล้ว
กล่าวคือ ความล้มเหลวของโมเดลเกิดจาก ความไวต่อการวางกรอบคำถาม ไม่ใช่เพราะไม่มีความสามารถในการให้เหตุผล
- พูดแบบนั้นสุดท้ายก็แปลว่า AI ห่วย นั่นเอง ถ้าฝึกให้เข้ากับคำถามบางแบบ ส่วนอื่นก็พัง แล้วมันก็จะวนแบบนี้ไปเรื่อย ๆ
- บางคนแย้งว่าคำว่า “ไวต่อการวางกรอบและอคติของการกระจายข้อมูล” จริง ๆ แล้วก็เป็นแค่การพูดอ้อม ๆ ว่า ไม่มีความสามารถในการให้เหตุผล
- ฟังดูเป็นชุดที่น่าสนใจ อยากรู้ว่าถ้าเป็นไปได้จะ แชร์คำถามเหล่านั้นได้ไหม
- น่าจะดีถ้า เปิดเผยชุดประเมินนั้น โดยเฉพาะอยากรู้ว่าคำถามที่น่าสนใจที่สุดคืออะไร
ตัวเลข 71.5% ตามเกณฑ์มนุษย์แสดงให้เห็นถึง ความกำกวม ของโจทย์
คำถามว่า “จะเดินไปหรือขับรถไปที่คาร์วอช” อาจตีความได้ว่า “ระยะแค่นี้ยังต้องขับรถอีกเหรอ?” นั่นคือมันไม่ใช่แค่ปัญหาตรรกะ แต่เป็น ปัญหาการตีความเชิงวัจนปฏิบัติ
- ไม่ใช่ว่าคำถามกำกวมตั้งแต่แรก แต่ สถานการณ์ของบทสนทนาเองก็เป็นข้อมูล
  คนเราจะสมมติว่าคำถามนี้มาจากสถานการณ์จริง และตีความตามหลักความร่วมมือในการสนทนา (หลักการความร่วมมือของ Grice)
  เพราะงั้นก่อนจะทันฉุกคิดว่านี่คือ “คำถามหลอก” ก็จะคิดไปก่อนว่า “คงมีเหตุผลให้ต้องเดินล่ะมั้ง”
- สัดส่วน 70:30 แบบนี้ก็พบได้บ่อยในสถิติทางสังคมอื่น ๆ เหมือนกัน อาจเป็นแค่ว่า 30% ให้เหตุผลได้ไม่ดีพอ
- แต่ในคำถามมีประโยคว่า “ฉันอยากล้างรถของฉัน คาร์วอชอยู่ห่างออกไป 50 เมตร” อยู่แล้ว นั่นคือ ข้อมูลถูกระบุไว้อย่างเพียงพอ
- ถ้าบริการแบบ Rapidata คล้ายกับพวก Mechanical Turk ก็อาจเป็นไปได้ว่าผู้ตอบไม่ได้อ่านคำถามให้ดี
- ปัญหาคือพลาด ประโยคช่วงต้น ที่ว่า “ฉันอยากล้างรถของฉัน”
ถ้าบอกโมเดล Sonnet 4.6 ก่อนว่า “นี่คือการทดสอบสติปัญญา” มันจะตอบถูก 100%
โมเดลมีแนวโน้มจะถือว่าคำถามของมนุษย์เป็นสถานการณ์จริง ดังนั้นถ้าระบุว่า นี่คือแบบทดสอบ ข้อผิดพลาดก็จะลดลง
ปรากฏการณ์คล้ายกันเกิดในเอเจนต์เขียนโค้ดด้วย ตอนแรกคำถามอาจดูไม่สมเหตุสมผล แต่พอโหลดไฟล์โค้ดแล้วกลับเข้าใจได้
- แก่นของปัญหานี้คือ ความล้มเหลวด้านการให้เหตุผล/การวางแผน มันมีแนวโน้มตอบออกมาโดยไม่ทบทวนผลลัพธ์
  ในการแก้ปัญหาจริง ๆ (เช่น การออกแบบซอฟต์แวร์) ปรากฏการณ์นี้ก็เกิดซ้ำเหมือนกัน
  LLM ยังพึ่งพา การจับแพตเทิร์น และไม่ได้วิเคราะห์ความหมายของผลลัพธ์
- เคยลองทดลองที่น่าสนใจ ถ้าใส่คำใบ้ ไว้ข้างหน้า จะถูก 3/3, ถ้าใส่ไว้ข้างหลังได้ 1.5/3 และถ้าไม่มีคำใบ้เลยได้ 0/3
- นี่คือ ปัญหาด้านความเกี่ยวข้อง วลีว่า “กำลังทดสอบอยู่” ทำหน้าที่เป็นสัญญาณว่า “อย่าเชื่อบริบท”
  ปกติโมเดลจะสมมติว่าคำถามเป็นสถานการณ์จริง ดังนั้นการสอนสัญญาณโดยนัยแบบนี้อาจเพิ่มความแม่นยำ แต่ทำให้ความเป็นมิตรลดลงได้
- แค่เติม “Exam Question: {prompt}” ChatGPT ก็ตอบถูกแล้ว แต่ Llama3.3 หรือ gpt‑oss‑120b ยังพลาดอยู่
ถ้าเติมวลี “ตรวจสอบสมมติฐานต่าง ๆ” ไว้ท้ายคำถาม โมเดลส่วนใหญ่จะตอบถูก
ถ้าข้อผิดพลาดหายไปได้ด้วยวลีง่าย ๆ แค่ประโยคเดียว ก็มีคนคาดเดาว่าที่ผู้ให้บริการ AI ไม่ใส่มันลงใน system prompt เป็นเพราะ การเพิ่มประสิทธิภาพด้านต้นทุน
มีสรุปประเด็นที่เกี่ยวข้องไว้ในคอมเมนต์ก่อนหน้า
- ฉันเองก็พบว่าถาม Claude หรือ Codex หลังทำงานเสร็จว่า “มีอะไรที่เราพลาดไปไหม?” หลายครั้งจะได้การปรับปรุงเพิ่มเติม
บทสนทนา “Car Wash Test” ที่เห็นจาก Google Search ตลกดีพอสมควร
AI ส่วนใหญ่ตอบว่า “ถ้า 50 เมตรก็เดินไปสิ” แต่คำตอบที่ถูกคือ “ต้องเอารถไปที่คาร์วอช ดังนั้นต้องขับรถ”
แบบทดสอบนี้แสดงให้เห็นความต่างระหว่าง การจับแพตเทิร์นกับการให้เหตุผลจริง
- LLM ฟุ่มเฟือยเกินจำเป็น เหมือน เรียงความนักเรียนมัธยมที่พยายามเขียนให้ครบจำนวนคำ
- สงสัยว่า LLM ใน Google Search ฉลาดขึ้นจริง หรือแค่ ไวต่อเทรนด์ล่าสุดมากขึ้น
- คำตอบของ Gemini ก็ตลกเหมือนกัน มันบอกว่าเป็น “ภาวะกลืนไม่เข้าคายไม่ออกระหว่างประสิทธิภาพกับตรรกะ” แล้วอธิบายว่า “ถ้าเดินไป สุดท้ายก็ต้องกลับมาเอารถอยู่ดี ดังนั้นการขับรถจึงถูกต้อง”
- เมื่อก่อนถ้าถามวันปัจจุบัน LLM จะตอบเป็นวันที่ตามช่วงเวลาที่มันถูกฝึก แต่ตอนนี้มันบอก วันที่จริง ได้แล้ว แปลว่ากำลังใช้การค้นเว็บอยู่
เกณฑ์จากมนุษย์ที่ได้ผ่าน Rapidata คือ 71.5% เลือก ‘ขับรถ’
คำตอบที่ถูกควรเป็น คำถามเพื่อขอความชัดเจน ที่ถามว่า “รถอยู่ที่ไหน”
แต่ต่อให้บอก ChatGPT ว่า “รถของฉันอยู่ห่างจากคาร์วอช 50 เมตร” มันก็ยังตอบผิด
- “รถอยู่ที่ไหน” ไม่ใช่คำถามเพื่อขอความชัดเจน แต่เป็นสมมติฐานที่รวมอยู่ใน ตัวเลือกที่เป็นไปได้ อยู่แล้ว
- ในบรรดาผู้ตอบของ Rapidata อาจมี 30% เป็นบอต ก็ได้
- Rapidata ถูกรวมเข้ากับแอปมากกว่า 3,000 แอป และมีผู้ใช้เข้าร่วม มากกว่า 10 ล้านคน รับคำตอบแบบเรียลไทม์จาก 160 ประเทศทั่วโลก
- ยังมี ทางเลือกสร้างสรรค์ อย่าง “อย่าขยับรถ เรียกคาร์วอชมาหาเอง” อย่างน้อยก็ดูสมเหตุสมผลกว่าการทิ้งรถไว้แล้วเดินไป
- Claude ยังตอบคำถามว่า “จะไปที่อู่ซึ่งอยู่ห่าง 200 เมตรเพื่อเปลี่ยนหัวเทียน ควรเดินไปไหม?” ว่า “เดินไป” ด้วย นี่จึงเป็นปัญหาเรื่อง บริบทพังทลาย
คำถามนี้ไม่ง่ายเลย คนที่ ฉลาด จะคิดว่าทำไมถึงถามแบบนี้ หรือมีบริบทบางอย่างที่ตกหล่นไปหรือเปล่า
ดังนั้นคำตอบที่ถูกอาจไม่ใช่ “ขับรถ” หรือ “เดิน” แต่เป็น “ช่วยทำคำถามให้ชัดเจนหน่อย”
- แค่ เพิ่มบริบทเล็กน้อย ก็ช่วยให้ประสิทธิภาพของโมเดลดีขึ้นมากแล้ว เช่น ระบุให้ชัดว่า “คาร์วอชเป็นอาคารที่รถต้องขับผ่านเข้าไป”
  ตัวอย่างที่เกี่ยวข้อง ภาพน้ำยาล้างรถ Rain‑x
- คำถามแบบนี้ ชัดเกินไปจนมนุษย์กลับสงสัยว่าเป็นคำถามหลอก
- LLM จะพยายามตอบทันที แต่มนุษย์มักจะโยน คำถามเพื่อขอความชัดเจน กลับไปก่อน
- จริง ๆ แล้วมันอาจเป็นประเด็นเรื่อง ขนบการใช้ภาษาอังกฤษ มากกว่า ประมาณว่า “คุณต้องบอกก่อนว่ากำลังจะไปไหน ฉันถึงจะช่วยได้” ซึ่งเป็นปฏิกิริยาที่ฟังดูธรรมชาติ
- คนส่วนใหญ่น่าจะตอบประมาณ “ขับรถสิ?” พร้อมคิดว่า ล้อเล่นใช่ไหม
โมเดล Sonnet 4.6 ได้ คะแนนสามัญสำนึกสูง แต่ตัวเล็กกว่า Opus
ในโหมด Opus 4.6 Extended Reasoning กลับตอบว่า “เดินไป” ทั้งที่ผู้เขียนบอกว่าได้คะแนนถูก 10/10
น่าจะเป็นเพราะฟีเจอร์ memory ของแอปถูกแทรกเข้าไปในพรอมป์ต์อัตโนมัติและรบกวนการให้เหตุผล พอปิด memory กับข้อมูลชีวประวัติ มันก็เปลี่ยนเป็น “ขับรถ”
กล่าวคือ พรีพรอมป์ต์ที่ซ่อนอยู่ อาจบิดเบือนการให้เหตุผลของโมเดลได้
- ฉันก็ทดสอบ Opus 4.6 ตั้งแต่วันเปิดตัว แต่มันยังพลาดอยู่เหมือนเดิม ต่อให้เป็น สมาชิกแบบเสียเงิน ก็ยังมีความต่างด้านคุณภาพของโมเดล
- ตามmodel card ของ Opus 4.6 มีปรากฏการณ์ที่ ทุ่มแรงให้เหตุผลมากเกินไปจนหาเหตุผลมาอธิบายคำตอบผิด ดูเหมือนการฝึก RL จะเร่งไปเกิน
- มีการทดสอบ Claude 9 โมเดล รวมถึง Sonnet 4.6 และดูผลได้จากแกลเลอรีลิงก์