10 คะแนน โดย GN⁺ 2026-02-25 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • ผลการทดสอบกับ โมเดล AI หลัก 53 รุ่น พบว่าส่วนใหญ่ ล้มเหลวกับการให้เหตุผลพื้นฐาน
  • คำตอบที่ถูกต้องคือ ‘ขับรถ’ แต่จาก 53 รุ่น มี 42 รุ่นเลือก ‘เดิน’
  • มีเพียง 5 รุ่น ได้แก่ Claude Opus 4.6, Gemini 3 series, Grok-4 ที่ให้ คำตอบถูกต้องสม่ำเสมอ 100% แม้ทดสอบซ้ำ 10 ครั้ง
  • GPT-5 ตอบถูกเพียง 7 จาก 10 ครั้ง จึงถูกประเมินว่าอยู่ในระดับใกล้เคียงกับ อัตราตอบถูกเฉลี่ยของมนุษย์ (71.5%)
  • การทดลองนี้เผยให้เห็นทั้ง ข้อบกพร่องด้านความสม่ำเสมอของการให้เหตุผลของ AI และ ข้อจำกัดของการตัดสินใจตามบริบท พร้อมตอกย้ำความสำคัญของ ‘context engineering’ เพื่อชดเชยจุดอ่อนดังกล่าว

ภาพรวมของแบบทดสอบปัญหาล้างรถ

  • แบบทดสอบประกอบด้วยคำถามว่า “ถ้าคาร์แคร์อยู่ห่าง 50 เมตร ควรเดินไปหรือขับรถไป?”
    • คำตอบที่ถูกต้องคือ ‘ขับรถ’ เพราะ ถ้าจะล้างรถ รถต้องอยู่ที่คาร์แคร์
  • ประเมิน 53 โมเดลภายใต้เงื่อนไขเดียวกันผ่าน LLM Gateway ของ Opper
    • ไม่มี system prompt และบังคับให้เลือกเพียง ‘walk’ หรือ ‘drive’
    • ทดสอบครั้งละ 1 รอบต่อโมเดล จากนั้นทดสอบซ้ำ 10 รอบเพื่อตรวจสอบ ความสม่ำเสมอ

ผลการรันเดี่ยวรอบแรก

  • จาก 53 รุ่น มีเพียง 11 รุ่นที่ตอบถูก (ขับรถ) และ 42 รุ่นตอบผิด (เดิน)
  • โมเดลที่ตอบถูก ได้แก่ Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • พบ ความแตกต่างด้านประสิทธิภาพระหว่างตระกูลหลัก เช่น Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral
    • Anthropic: 1/9 (มีเพียง Opus 4.6 ที่ตอบถูก)
    • OpenAI: 1/12 (มีเพียง GPT-5 ที่ตอบถูก)
    • Meta(Llama), Mistral, DeepSeek ล้มเหลวทั้งหมด
  • คำตอบผิดส่วนใหญ่เกิดจาก heuristic error ที่ยึดระยะทางเป็นหลัก เช่น “50 เมตรเป็นระยะใกล้ จึงเดินมีประสิทธิภาพกว่า”
  • บางโมเดลแม้ตอบถูก แต่ให้ เหตุผลที่ไม่สมเหตุสมผล
    • ตัวอย่าง: Perplexity Sonar อ้างว่า “การเดินใช้พลังงานจากการผลิตอาหารมากกว่า จึงก่อมลพิษมากกว่า”

การทดสอบซ้ำ 10 รอบ

  • จากการเรียกใช้งานทั้งหมด 530 ครั้ง พบว่า อัตราคำตอบถูกแบบสม่ำเสมอต่ำลงอีก
  • โมเดลที่ตอบถูก 10/10 (5 รุ่น): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • โมเดลที่ตอบถูก 8/10 (2 รุ่น): GLM-5, Grok-4-1 Reasoning
  • GPT-5 ตอบถูก 7/10 ส่วนอีก 3 ครั้งตอบผิดด้วยเหตุผลเรื่องอัตราสิ้นเปลืองและสิ่งแวดล้อม
  • มี 33 รุ่นที่ตอบผิดทั้ง 10 ครั้ง รวมถึง GPT-4.1, GPT-5.1, Llama, Mistral
  • บางโมเดลตอบถูกในครั้งแรก แต่เมื่อทดสอบซ้ำ ผลลัพธ์กลับไม่เสถียร
    • Sonar: ครั้งแรกตอบถูก → แต่ในการทดสอบ 10 ครั้งตอบผิดทั้งหมด
    • Kimi K2.5: ตอบถูก 5 ครั้ง ตอบผิด 5 ครั้ง
    • GLM-4.7: ครั้งแรกตอบผิด → แต่เมื่อลอง 10 ครั้ง ตอบถูก 6 ครั้ง

การทดลองเปรียบเทียบกับมนุษย์

  • ใช้แพลตฟอร์ม Rapidata ทำแบบทดสอบคำถามเดียวกันกับ คน 10,000 คน
    • 71.5% เลือก ‘ขับรถ’ และใช้เป็นอัตราตอบถูกเฉลี่ยของมนุษย์
  • อัตราตอบถูก 70% ของ GPT-5 ใกล้เคียงกับค่าเฉลี่ยของมนุษย์
  • จาก 53 โมเดล มีเพียง 7 รุ่นที่ทำได้ดีกว่าค่าเฉลี่ยมนุษย์ ส่วนอีก 46 รุ่นมีผลงานต่ำกว่ามนุษย์

กรณีศึกษาด้านการให้เหตุผลที่น่าสนใจ

  • GLM-4.7 Flash: ให้เหตุผลชัดเจนว่า “ถ้าเดินไป ก็ต้องเข็นหรือยกรถไปด้วย จึงเป็นไปไม่ได้”
  • Claude Sonnet 4.5: รับรู้ว่า “ถ้าเป็นการล้างรถอัตโนมัติ ก็จำเป็นต้องขับรถไป” แต่คำตอบสุดท้ายกลับเลือก ‘เดิน’
  • Gemini 2.5 Pro: ตอนตอบถูกจะระบุอย่างแม่นยำว่า “ถ้าจะล้างรถ รถต้องอยู่ที่คาร์แคร์” แต่ตอนตอบผิดจะใช้ตรรกะ “50 เมตรเป็นระยะใกล้”

ปัญหาความน่าเชื่อถือของ AI

  • แม้จะเป็นโจทย์ง่ายที่ต้องใช้เพียง การให้เหตุผลหนึ่งขั้นตอน แต่จาก 53 รุ่น มีเพียง 5 รุ่นที่ตอบถูกครบถ้วนอย่างสม่ำเสมอ
  • รูปแบบความล้มเหลวแบ่งได้เป็น 3 ประเภท
    • ตอบผิดเสมอ (33 รุ่น): ติดอยู่กับ heuristic ที่ยึดระยะทางเป็นหลัก
    • ตอบถูกเป็นบางครั้ง (15 รุ่น): มีความสามารถในการให้เหตุผล แต่ขาดความสม่ำเสมอ
    • ตอบถูกเสมอ (5 รุ่น): การให้เหตุผลตามบริบทเอาชนะ heuristic ได้อย่างมั่นคง
  • ที่โมเดลกว่า 90% ล้มเหลวแม้ในโจทย์ง่าย ๆ สะท้อน ความเสี่ยงเมื่อใช้กับ business logic จริงหรือการให้เหตุผลหลายขั้นตอน

บทบาทของ context engineering

  • แบบทดสอบนี้ดำเนินการในสภาพแวดล้อมแบบ ‘zero context’ เพื่อประเมินความสามารถในการให้เหตุผลล้วน ๆ ของโมเดล
  • สาเหตุที่หลายโมเดลล้มเหลวคือ heuristic มีอิทธิพลเหนือการให้เหตุผลตามบริบท
  • Context engineering ช่วยลดข้อผิดพลาดลักษณะนี้ได้ด้วยการให้ตัวอย่าง รูปแบบเฉพาะโดเมน และข้อมูลที่เกี่ยวข้อง
    • ในการทดลองแยกของ Opper เมื่อเพิ่ม context ให้โมเดลเปิดขนาดเล็ก ก็สามารถ ลดต้นทุนได้ 98.6% พร้อมคุณภาพระดับใกล้เคียงโมเดลขนาดใหญ่
  • แม้ปัญหาคาร์แคร์จะดูเรียบง่าย แต่งานจริงมักต้องอาศัย ความกำกวมและความรู้เฉพาะโดเมน จึงจำเป็นต้องออกแบบ context อย่างเหมาะสม

วิธีวิทยาการทดลอง

  • ทุกโมเดลถูกทดสอบด้วย prompt เดียวกันผ่าน Opper LLM Gateway
    • “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
    • ไม่มี system prompt และบังคับให้เลือก ‘drive’ หรือ ‘walk’ เท่านั้น
    • มีทั้งการรันเดี่ยว (1 ครั้ง) และการทดสอบซ้ำ 10 ครั้ง (รวม 530 ครั้ง) โดย บันทึก log ทุกการเรียกและเก็บข้อความการให้เหตุผลไว้ทั้งหมด
  • กลุ่มเปรียบเทียบมนุษย์ใช้ Rapidata สำรวจในรูปแบบเดียวกันกับคน 10,000 คน
  • ข้อมูลทั้งหมดเปิดเผยในรูปแบบ JSON
    • สามารถดาวน์โหลดผลการรันเดี่ยว ผลการทดสอบซ้ำ 10 ครั้ง และผลของมนุษย์แยกกันได้

3 ความคิดเห็น

 
armila 2026-02-26

สำหรับ Gemini Pro
ฉันขำมากตรงที่มันตอบว่าถ้าคุณเอารถไปได้ ก็เดินไปก็ได้เหมือนกันนี่แหละ

 
grenade 2026-02-27

เป็นคำตอบที่มีไหวพริบดีนะ 555

 
GN⁺ 2026-02-25
ความคิดเห็นจาก Hacker News
  • น่าสนใจที่ผลคำตอบของมนุษย์ ตรงกับ ChatGPT แบบเป๊ะ
    ในทางปฏิบัติดูเหมือนว่านี่หมายความว่า “บริการคำตอบโดยมนุษย์” ตายไปโดยพฤตินัยแล้ว สุดท้ายผู้คนก็จะหาวิธี โยนงานให้ AI ไม่ว่าคุณภาพจะเป็นอย่างไร

    • มันดูเหมือนเรื่องบังเอิญ แต่จริง ๆ แล้วคำตอบจากมนุษย์ไม่ได้ถูกรวบรวมมาแบบนั้น
      Rapidata ฝัง ไมโครแบบสำรวจ ลงในแอปอย่าง Duolingo หรือแอปเกม เพื่อให้คนร่วมตอบแทนการดูโฆษณา ผู้ใช้เป็นคนที่ผ่านการตรวจสอบแล้ว และไม่มีแรงจูงใจให้ต้องตอบให้ถูก
    • โมเดลเริ่มต้นของ ChatGPT คือ GPT‑5.2 Instant ส่วนที่ตรงกับผลมนุษย์คือโมเดล GPT‑5
      การสรุปผลด้วย ความมั่นใจล้วน ๆ โดยไม่มีหลักฐาน แบบคอมเมนต์ด้านบนนั้นก็น่าสนใจดี
    • เรื่องแบบนี้เกิดขึ้นบ่อยในบริการ แรงงานมนุษย์จากภายนอก (3rd-party) มานานแล้ว
  • ฉันเก็บชุดประเมินส่วนตัวที่ประกอบด้วยคำถามประเภท 'misguided attention' ไว้อยู่
    แก่นของปัญหาแบบนี้ไม่ใช่ความล้มเหลวด้านตรรกะ แต่คือ ความกำกวม และ การขาดบริบท มนุษย์จะเติมสมมติฐานโดยนัยเข้าไปเอง แต่โมเดลทำแบบนั้นไม่ได้
    ตัวอย่างส่วนใหญ่ของแนว “AI ตอบคำถามง่าย ๆ ยังผิด” เป็นประโยคที่ออกแบบมาเพื่อชักนำอคติทางสถิติ แค่เปลี่ยนบริบทนิดเดียวผลก็กลับด้านแล้ว
    กล่าวคือ ความล้มเหลวของโมเดลเกิดจาก ความไวต่อการวางกรอบคำถาม ไม่ใช่เพราะไม่มีความสามารถในการให้เหตุผล

    • พูดแบบนั้นสุดท้ายก็แปลว่า AI ห่วย นั่นเอง ถ้าฝึกให้เข้ากับคำถามบางแบบ ส่วนอื่นก็พัง แล้วมันก็จะวนแบบนี้ไปเรื่อย ๆ
    • บางคนแย้งว่าคำว่า “ไวต่อการวางกรอบและอคติของการกระจายข้อมูล” จริง ๆ แล้วก็เป็นแค่การพูดอ้อม ๆ ว่า ไม่มีความสามารถในการให้เหตุผล
    • ฟังดูเป็นชุดที่น่าสนใจ อยากรู้ว่าถ้าเป็นไปได้จะ แชร์คำถามเหล่านั้นได้ไหม
    • น่าจะดีถ้า เปิดเผยชุดประเมินนั้น โดยเฉพาะอยากรู้ว่าคำถามที่น่าสนใจที่สุดคืออะไร
  • ตัวเลข 71.5% ตามเกณฑ์มนุษย์แสดงให้เห็นถึง ความกำกวม ของโจทย์
    คำถามว่า “จะเดินไปหรือขับรถไปที่คาร์วอช” อาจตีความได้ว่า “ระยะแค่นี้ยังต้องขับรถอีกเหรอ?” นั่นคือมันไม่ใช่แค่ปัญหาตรรกะ แต่เป็น ปัญหาการตีความเชิงวัจนปฏิบัติ

    • ไม่ใช่ว่าคำถามกำกวมตั้งแต่แรก แต่ สถานการณ์ของบทสนทนาเองก็เป็นข้อมูล
      คนเราจะสมมติว่าคำถามนี้มาจากสถานการณ์จริง และตีความตามหลักความร่วมมือในการสนทนา (หลักการความร่วมมือของ Grice)
      เพราะงั้นก่อนจะทันฉุกคิดว่านี่คือ “คำถามหลอก” ก็จะคิดไปก่อนว่า “คงมีเหตุผลให้ต้องเดินล่ะมั้ง”
    • สัดส่วน 70:30 แบบนี้ก็พบได้บ่อยในสถิติทางสังคมอื่น ๆ เหมือนกัน อาจเป็นแค่ว่า 30% ให้เหตุผลได้ไม่ดีพอ
    • แต่ในคำถามมีประโยคว่า “ฉันอยากล้างรถของฉัน คาร์วอชอยู่ห่างออกไป 50 เมตร” อยู่แล้ว นั่นคือ ข้อมูลถูกระบุไว้อย่างเพียงพอ
    • ถ้าบริการแบบ Rapidata คล้ายกับพวก Mechanical Turk ก็อาจเป็นไปได้ว่าผู้ตอบไม่ได้อ่านคำถามให้ดี
    • ปัญหาคือพลาด ประโยคช่วงต้น ที่ว่า “ฉันอยากล้างรถของฉัน”
  • ถ้าบอกโมเดล Sonnet 4.6 ก่อนว่า “นี่คือการทดสอบสติปัญญา” มันจะตอบถูก 100%
    โมเดลมีแนวโน้มจะถือว่าคำถามของมนุษย์เป็นสถานการณ์จริง ดังนั้นถ้าระบุว่า นี่คือแบบทดสอบ ข้อผิดพลาดก็จะลดลง
    ปรากฏการณ์คล้ายกันเกิดในเอเจนต์เขียนโค้ดด้วย ตอนแรกคำถามอาจดูไม่สมเหตุสมผล แต่พอโหลดไฟล์โค้ดแล้วกลับเข้าใจได้

    • แก่นของปัญหานี้คือ ความล้มเหลวด้านการให้เหตุผล/การวางแผน มันมีแนวโน้มตอบออกมาโดยไม่ทบทวนผลลัพธ์
      ในการแก้ปัญหาจริง ๆ (เช่น การออกแบบซอฟต์แวร์) ปรากฏการณ์นี้ก็เกิดซ้ำเหมือนกัน
      LLM ยังพึ่งพา การจับแพตเทิร์น และไม่ได้วิเคราะห์ความหมายของผลลัพธ์
    • เคยลองทดลองที่น่าสนใจ ถ้าใส่คำใบ้ ไว้ข้างหน้า จะถูก 3/3, ถ้าใส่ไว้ข้างหลังได้ 1.5/3 และถ้าไม่มีคำใบ้เลยได้ 0/3
    • นี่คือ ปัญหาด้านความเกี่ยวข้อง วลีว่า “กำลังทดสอบอยู่” ทำหน้าที่เป็นสัญญาณว่า “อย่าเชื่อบริบท”
      ปกติโมเดลจะสมมติว่าคำถามเป็นสถานการณ์จริง ดังนั้นการสอนสัญญาณโดยนัยแบบนี้อาจเพิ่มความแม่นยำ แต่ทำให้ความเป็นมิตรลดลงได้
    • แค่เติม “Exam Question: {prompt}” ChatGPT ก็ตอบถูกแล้ว แต่ Llama3.3 หรือ gpt‑oss‑120b ยังพลาดอยู่
  • ถ้าเติมวลี “ตรวจสอบสมมติฐานต่าง ๆ” ไว้ท้ายคำถาม โมเดลส่วนใหญ่จะตอบถูก
    ถ้าข้อผิดพลาดหายไปได้ด้วยวลีง่าย ๆ แค่ประโยคเดียว ก็มีคนคาดเดาว่าที่ผู้ให้บริการ AI ไม่ใส่มันลงใน system prompt เป็นเพราะ การเพิ่มประสิทธิภาพด้านต้นทุน
    มีสรุปประเด็นที่เกี่ยวข้องไว้ในคอมเมนต์ก่อนหน้า

    • ฉันเองก็พบว่าถาม Claude หรือ Codex หลังทำงานเสร็จว่า “มีอะไรที่เราพลาดไปไหม?” หลายครั้งจะได้การปรับปรุงเพิ่มเติม
  • บทสนทนา “Car Wash Test” ที่เห็นจาก Google Search ตลกดีพอสมควร
    AI ส่วนใหญ่ตอบว่า “ถ้า 50 เมตรก็เดินไปสิ” แต่คำตอบที่ถูกคือ “ต้องเอารถไปที่คาร์วอช ดังนั้นต้องขับรถ”
    แบบทดสอบนี้แสดงให้เห็นความต่างระหว่าง การจับแพตเทิร์นกับการให้เหตุผลจริง

    • LLM ฟุ่มเฟือยเกินจำเป็น เหมือน เรียงความนักเรียนมัธยมที่พยายามเขียนให้ครบจำนวนคำ
    • สงสัยว่า LLM ใน Google Search ฉลาดขึ้นจริง หรือแค่ ไวต่อเทรนด์ล่าสุดมากขึ้น
    • คำตอบของ Gemini ก็ตลกเหมือนกัน มันบอกว่าเป็น “ภาวะกลืนไม่เข้าคายไม่ออกระหว่างประสิทธิภาพกับตรรกะ” แล้วอธิบายว่า “ถ้าเดินไป สุดท้ายก็ต้องกลับมาเอารถอยู่ดี ดังนั้นการขับรถจึงถูกต้อง”
    • เมื่อก่อนถ้าถามวันปัจจุบัน LLM จะตอบเป็นวันที่ตามช่วงเวลาที่มันถูกฝึก แต่ตอนนี้มันบอก วันที่จริง ได้แล้ว แปลว่ากำลังใช้การค้นเว็บอยู่
  • เกณฑ์จากมนุษย์ที่ได้ผ่าน Rapidata คือ 71.5% เลือก ‘ขับรถ’
    คำตอบที่ถูกควรเป็น คำถามเพื่อขอความชัดเจน ที่ถามว่า “รถอยู่ที่ไหน
    แต่ต่อให้บอก ChatGPT ว่า “รถของฉันอยู่ห่างจากคาร์วอช 50 เมตร” มันก็ยังตอบผิด

    • “รถอยู่ที่ไหน” ไม่ใช่คำถามเพื่อขอความชัดเจน แต่เป็นสมมติฐานที่รวมอยู่ใน ตัวเลือกที่เป็นไปได้ อยู่แล้ว
    • ในบรรดาผู้ตอบของ Rapidata อาจมี 30% เป็นบอต ก็ได้
    • Rapidata ถูกรวมเข้ากับแอปมากกว่า 3,000 แอป และมีผู้ใช้เข้าร่วม มากกว่า 10 ล้านคน รับคำตอบแบบเรียลไทม์จาก 160 ประเทศทั่วโลก
    • ยังมี ทางเลือกสร้างสรรค์ อย่าง “อย่าขยับรถ เรียกคาร์วอชมาหาเอง” อย่างน้อยก็ดูสมเหตุสมผลกว่าการทิ้งรถไว้แล้วเดินไป
    • Claude ยังตอบคำถามว่า “จะไปที่อู่ซึ่งอยู่ห่าง 200 เมตรเพื่อเปลี่ยนหัวเทียน ควรเดินไปไหม?” ว่า “เดินไป” ด้วย นี่จึงเป็นปัญหาเรื่อง บริบทพังทลาย
  • คำถามนี้ไม่ง่ายเลย คนที่ ฉลาด จะคิดว่าทำไมถึงถามแบบนี้ หรือมีบริบทบางอย่างที่ตกหล่นไปหรือเปล่า
    ดังนั้นคำตอบที่ถูกอาจไม่ใช่ “ขับรถ” หรือ “เดิน” แต่เป็น “ช่วยทำคำถามให้ชัดเจนหน่อย

    • แค่ เพิ่มบริบทเล็กน้อย ก็ช่วยให้ประสิทธิภาพของโมเดลดีขึ้นมากแล้ว เช่น ระบุให้ชัดว่า “คาร์วอชเป็นอาคารที่รถต้องขับผ่านเข้าไป”
      ตัวอย่างที่เกี่ยวข้อง ภาพน้ำยาล้างรถ Rain‑x
    • คำถามแบบนี้ ชัดเกินไปจนมนุษย์กลับสงสัยว่าเป็นคำถามหลอก
    • LLM จะพยายามตอบทันที แต่มนุษย์มักจะโยน คำถามเพื่อขอความชัดเจน กลับไปก่อน
    • จริง ๆ แล้วมันอาจเป็นประเด็นเรื่อง ขนบการใช้ภาษาอังกฤษ มากกว่า ประมาณว่า “คุณต้องบอกก่อนว่ากำลังจะไปไหน ฉันถึงจะช่วยได้” ซึ่งเป็นปฏิกิริยาที่ฟังดูธรรมชาติ
    • คนส่วนใหญ่น่าจะตอบประมาณ “ขับรถสิ?” พร้อมคิดว่า ล้อเล่นใช่ไหม
  • โมเดล Sonnet 4.6 ได้ คะแนนสามัญสำนึกสูง แต่ตัวเล็กกว่า Opus
    ในโหมด Opus 4.6 Extended Reasoning กลับตอบว่า “เดินไป” ทั้งที่ผู้เขียนบอกว่าได้คะแนนถูก 10/10
    น่าจะเป็นเพราะฟีเจอร์ memory ของแอปถูกแทรกเข้าไปในพรอมป์ต์อัตโนมัติและรบกวนการให้เหตุผล พอปิด memory กับข้อมูลชีวประวัติ มันก็เปลี่ยนเป็น “ขับรถ”
    กล่าวคือ พรีพรอมป์ต์ที่ซ่อนอยู่ อาจบิดเบือนการให้เหตุผลของโมเดลได้

    • ฉันก็ทดสอบ Opus 4.6 ตั้งแต่วันเปิดตัว แต่มันยังพลาดอยู่เหมือนเดิม ต่อให้เป็น สมาชิกแบบเสียเงิน ก็ยังมีความต่างด้านคุณภาพของโมเดล
    • ตามmodel card ของ Opus 4.6 มีปรากฏการณ์ที่ ทุ่มแรงให้เหตุผลมากเกินไปจนหาเหตุผลมาอธิบายคำตอบผิด ดูเหมือนการฝึก RL จะเร่งไปเกิน
    • มีการทดสอบ Claude 9 โมเดล รวมถึง Sonnet 4.6 และดูผลได้จากแกลเลอรีลิงก์