- คำถามเชิงกับดักด้านตรรกะสำหรับ LLM หลายโมเดล พลาดสมมติฐานว่าต้องเอารถไปที่ร้านล้างรถ และตอบว่า ให้เดินไป
- โมเดลดังหลายตัวอย่าง ChatGPT, Claude, Deepseek, Qwen แสดง คำตอบที่แตกต่างกันและข้อผิดพลาดทางตรรกะ
- กรณีนี้เผยให้เห็น ข้อจำกัดด้านการให้เหตุผลเชิงสามัญสำนึกและความไม่สม่ำเสมอของ LLM
ปัญหาร้านล้างรถ 50 เมตรและปฏิกิริยาของ LLM
- คำถามคือ “ถ้าร้านล้างรถอยู่ห่างออกไป 50 เมตร จะเดินไปหรือขับไป?” ซึ่งใช้ทดสอบ สมมติฐานพื้นฐานว่าต้องเอารถไปที่ร้านล้างรถ
- Perplexity : "ถ้าประมาณ 50 เมตรก็เป็นระยะสั้น เลยจะเดินไป การขยับรถในระยะสั้น ๆ ไม่มีประสิทธิภาพ"
- ChatGPT 5.2 : "ถ้าระยะ 50 เมตร การเดินใช้งานได้จริงกว่า ใช้เวลา 30~40 วินาทีก็ถึง ถ้าอากาศไม่ดีหรือมีของหนักก็จะขับ นอกนั้นเดินง่ายและสมเหตุสมผลกว่า"
- Claude : "ถ้า 50 เมตรก็จะเดิน การขับรถดูเกินไปมาก ยังไม่ทันเข้าเกียร์ก็คงต้องเหยียบเบรกแล้ว ใช้เวลา 30-45 วินาที และไม่ต้องหาที่จอด"
- DeepSeek : "ถ้าเดินไปก็ต้องกลับมาขับรถอีก เพื่อความสะดวกให้ขับรถ แต่ถ้าเพื่อสิ่งแวดล้อมก็เดินไป (แล้วค่อยกลับมาขับรถ)"
- Qwen3-Max : "ต้องเดินเท่านั้น การขับรถระยะสั้นไม่ดีต่อสิ่งแวดล้อม การเดินยังได้ออกกำลังกายด้วย"
ปฏิกิริยาและความเห็นของผู้ใช้
- “ถ้าจะเดินไป ก็ต้องยกรถไปด้วย”
- “อย่างน้อย Deepseek ก็ยังรับรู้ว่าต้องเอารถไปที่ร้านล้างรถ”
- Gemini และ ChatGPT บางครั้งก็ มองออกว่าโจทย์นี้มีหลุมพรางและตอบได้ถูกต้อง
- เมื่อถามว่า “ต้องใช้สายยางยาว 50 เมตรไหม” GPT-OSS ตอบว่า “25 เมตรก็พอ”
- “นี่ก็เหมือนกับ ‘ปัญหานักพัฒนาไปซื้อของ’”
10 ความคิดเห็น
Gemini 3.1 บอกว่าให้ขับรถไป
ส่วน chatgpt 5.2 บอกว่าเดินไปจะสมเหตุสมผลกว่าครับ
ลองทดสอบแล้วได้แบบนี้ครับ
Gemini 3.0 Pro (Google AI Studio)
แน่นอนว่าต้องขับรถไปสิครับ! 😄
ถ้าจะล้างรถ รถก็ต้องอยู่ที่คาร์วอชก่อนนะครับ ถ้าเดินไป ก็จะมีแค่ตัวคุณที่ไปถึงคาร์วอช แต่รถที่ต้องล้างก็ยังคงอยู่ที่จุดออกเดินทางเหมือนเดิม
ถึง 50 เมตรจะเป็นระยะที่ใกล้มาก แต่ถ้าอยากล้างรถให้สะอาด ก็ขับรถไปเถอะครับ!
Claude 4.5 Extended
50 เมตรนี่ใกล้มากจริง ๆ นะครับ!
ถ้าจะเอารถไปล้าง ก็ควรขับรถไป ครับ ยังไงก็ต้องนำรถไปที่คาร์วอชอยู่ดี
ระยะประมาณ 50 เมตรนั้น:
ถ้าคุณจะไปดูว่าคาร์วอชเปิดอยู่ไหมก่อน ค่อยเดินไปเช็กแล้วค่อยเอารถมาทีก็ได้ แต่โดยทั่วไปแล้วขับรถไปตรง ๆ เลยก็พอครับ
ChatGPT 5.2 Thinking โหมด Heavy
ถ้าจะล้างรถ รถต้องอยู่ที่คาร์วอช ดังนั้นโดยปกติแล้ว ขับรถไป 50 ม. จะเหมาะสมกว่า (ถ้าเดินไปก็มีแค่ตัวคุณไปถึง เลยล้างรถไม่ได้ครับ)
แต่ถ้าจะแยกเป็นกรณีพิเศษ ก็สรุปได้แบบนี้ครับ
สรุป: ถ้าตามคำถามตรง ๆ ขับรถไปครับ ระยะแค่ 50 ม. แทบไม่ต่างกันทั้งเรื่องน้ำมันและเวลา แถมยังไม่ต้องขนย้ายอุปกรณ์หรือสัมภาระ (ของใช้ล้างรถ) เพิ่มด้วย
ตัวประโยคเองก็มีนัยว่าการเดินไปสมเหตุสมผลกว่าอยู่แล้ว เหมือนข้อสอบข้อเขียนใบขับขี่นั่นแหละ
ถ้ามีคนอ้างว่า chain of thought เท่ากับ inference หรือการคิดเชิงเหตุผล ก็คงเป็นการพูดเกินจริงไปหน่อยไหม?
> ถ้าห่างกัน 50 เมตร ถึงจะเป็นระยะที่เดินไปไม่ถึง 1 นาที แต่ก็ต้องขับไปครับ เพราะไปล้างรถ ก็ต้องเอารถไปสิ! 😄
Opus 4.6!
ยิ่งใช้ GPT 5.2 (Instant) ก็ยิ่งเห็นชัดว่าเป็นโมเดลขนาดเล็ก เลยรู้สึกว่าเชื่อถือไม่ได้เอามาก ๆ จนสุดท้ายแม้แต่คิวรีทั่วไปก็ต้องบังคับให้ใช้โมเดล Thinking อย่างเดียว...
คำตอบของ GPT-5.2:
ถามด้วย Thinking ก็ยังบอกให้เดินไปอยู่ดี
เดิน
ระยะ 50 เมตรสั้นมาก การขับรถจะใช้เวลานานกว่าการเดินเมื่อรวมเวลาสตาร์ตรถ บังคับรถ และหาที่จอด แถมยังเพิ่มการสึกหรอของเครื่องยนต์และการปล่อยมลพิษโดยไม่จำเป็น ควรขับก็ต่อเมื่อมีเหตุผลเฉพาะ เช่น ต้องขนของหนัก มีปัญหาในการเคลื่อนไหว สภาพอากาศเลวร้าย หรือมีข้อกังวลด้านความปลอดภัย เช่น ไม่มีทางเท้าหรือการจราจรอันตราย
ความเห็นจาก Hacker News
กำลังทดสอบ LLM หลายตัวเพื่อดูว่า ‘ขอบเขตของความฉลาด’ ของพวกมันอยู่ตรงไหน
Sonnet, Opus 4.5, Gemini 3 Pro ต่างก็ตอบว่า “ควรขับรถ” แต่ OpenAI 5.2 reasoning ตอบว่า “เดิน”
พอระบุชัดว่า “รถอยู่ที่บ้าน และร้านล้างรถอยู่ห่างออกไป 50 เมตร” GPT 5.2 ก็กลับมาตอบว่า “ขับรถไป แต่เพราะระยะทางสั้นมาก ก็ค่อย ๆ ขับอย่างระมัดระวัง”
สรุปคือ การให้บริบทอย่างชัดเจน สำคัญมาก
มันยากที่จะไม่บอกตำแหน่งของรถโดยที่ยังไม่ทำให้การทดสอบเสีย แต่ Claude Opus 4.6 ก็ตอบได้ถูกต้องว่า “ต้องขับ”
“ถ้า Alice ขับรถกลับบ้านหลังเลิกงาน หยิบเอกสาร แล้วต้องไปอู่ที่อยู่ห่างออกไป 100 เมตรล่ะ?” → คำตอบคือ “ขับรถ”
ข้อมูลที่มนุษย์อาจละไว้ได้ สำหรับโมเดลกลับเป็นสิ่งจำเป็น
แม้แต่ในตัวอย่างง่าย ๆ แบบนี้ พอเป็นสถานการณ์ซับซ้อนก็ยิ่งตามรอยได้ยากว่าทำไมถึงล้มเหลว
น่าจะเป็นเพราะวลีอย่าง “walk or drive for <short distance>” ในข้อมูลฝึกมีความเชื่อมโยงกับ ‘walk’ อย่างแรง มากกว่า
นี่จึงอธิบายได้ว่าทำไมเมื่อเขียนพรอมป์ต์ให้ยาวขึ้นและเพิ่มสัดส่วนของบริบท จึงได้คำตอบที่ถูกต้อง
ประเด็นนี้มีการพูดถึงไปแล้วในบล็อกโพสต์ของ Matt Shumer
มีการสรุปไว้หลายจุด ทั้งความต่างระหว่างโมเดลฟรี/เสียเงิน และการเลือกใช้โมเดล
มีหลายคนบอกว่า “คนเราไม่ถามกันแบบนี้หรอก” แต่ความจริงคือคนเราก็ถาม คำถามกำกวม กันบ่อย
LLM ควรตีความคำถามแบบนั้นให้ถูกต้องได้
คำพูดทำนองว่า “ต้องเขียนพรอมป์ต์ให้ดี” ฟังดูเหมือนการปัดความรับผิดชอบ คล้ายตอน AntennaGate ที่บอกว่า “คุณจับโทรศัพท์ผิดเอง” มากกว่า
Gemini fast เข้าหาโจทย์นี้แบบภาวะกลืนไม่เข้าคายไม่ออกระหว่าง “ประสิทธิภาพ vs ตรรกะ”
โดยตอบชัดเจนว่า “ถ้าจะล้างรถ สุดท้ายก็ต้องเอารถไปอยู่ดี”
แต่ก็เสนอ ข้อยกเว้นแบบมีเงื่อนไข ว่า “ถ้าจะไปซื้อน้ำหอมหรือไปดูว่าคิวเป็นยังไง อาจเดินไปก็ได้”
มุกนี้ฮิตใน TikTok และตอนนี้ก็ถูกแพตช์แล้ว
ถ้าอยากได้ผลคล้ายเดิม ให้เปลี่ยนเป็น “45 เมตร”
เทรนด์ใหม่คือปัญหา “แก้วคว่ำ” (https://www.tiktok.com/t/ZP89Khv9t/)
พอลองกับพรอมป์ต์ดัดแปลงหลายแบบ พบว่าโมเดลมักเลือก “walk” ก่อน แล้วค่อย หาเหตุผลมารองรับย้อนหลัง
แต่ถ้าสั่งว่า “ก่อนตอบให้อธิบายเงื่อนไขที่จำเป็นก่อน”
มันจะสรุปได้ว่า “ถ้าจะล้างรถ ก็ต้องเอารถไปที่ร้านล้างรถ ดังนั้นต้องขับ”
กล่าวคือ ถ้า บังคับให้แสดงกระบวนการคิด ก็จะได้คำตอบที่มีตรรกะมากขึ้น
ซึ่งคล้ายกับแนวคิด System-1 vs System-2 ของมนุษย์
เหตุผลที่ผู้ให้บริการโมเดลอาจไม่ใส่วลีแบบนี้ไว้ในพรอมป์ต์ตั้งต้น ก็อาจเป็นเพราะต้องการ ประหยัดต้นทุนโทเค็น
โมเดลรุ่นใหม่ ๆ ส่วนใหญ่ผ่านการทดสอบนี้แล้ว
แต่ก็มักใช้ถ้อยคำระวังตัวอย่าง “ร้านล้างรถส่วนใหญ่ต้องมีรถอยู่ที่นั่นก่อนจึงจะล้างได้”
ความกำกวมแบบนี้เองที่สะท้อนความเสี่ยงของ AI
ในวงการแพทย์ก็เกิดความล้มเหลวด้าน การใช้เหตุผลตามสามัญสำนึก แบบเดียวกันได้
ตัวอย่างเช่น กรณีที่ตัดสินผิดว่าควรวัดความดันเด็กที่ไม่มีแขนจากหน้าผาก (https://www.nature.com/articles/s41598-025-22940-0)
ทั้งที่คำตอบที่ถูกคือ “เริ่มให้น้ำเกลือ”
แค่อาศัยการ ‘เรียนจากหนังสือ’ ก็มาได้ไกลขนาดนี้แล้วก็น่าทึ่งมาก
ขั้นต่อไปน่าจะเป็น การเรียนรู้จาก medical simulator
แนวทางที่ใช้ได้จริงน่าจะเป็นให้ AI หลายตัวช่วยกันตอบ แล้วให้มนุษย์ ตรวจทานไขว้
ถ้าชอบคำถามแนวนี้ SimpleBench ก็น่าสนใจ
ภายนอกดูเหมือนโจทย์ในตำรา แต่จริง ๆ มีหลายข้อที่ต้องใช้ วิจารณญาณตามสามัญสำนึก
เป็นเบนช์มาร์กที่ใช้ทดสอบว่าระบบจะไม่ถูกหลอกด้วยแพตเทิร์นทางภาษาอย่างเดียว และสามารถดึงสัญชาตญาณแบบมนุษย์ออกมาใช้ได้หรือไม่
บางคนก็เหมือนกันกับคำถามว่า
ถ้าคาร์แคร์อยู่ห่างออกไป 50 เมตร จะเดินไปหรือขับรถไป?
ตอนแรกก็บอกให้เดินไป
แต่ถ้าเปิดโหมดการคิดวิเคราะห์
ก็จะบอกว่าขึ้นอยู่กับเงื่อนไข หรือถ้าจะล้างรถก็ต้องเอารถไป
อีกอย่างหนึ่งที่ดูสมเหตุสมผลกว่าคือ
แม้แต่ผมเองตอนถามคำถามนั้นก็ไม่ได้คิดด้วยซ้ำว่าจะไปคาร์แคร์ทำไม
แต่คำตอบบางส่วน
กลับย้อนถามว่า จุดประสงค์ที่ไปคาร์แคร์คือไปล้างรถหรือไปซื้อของที่นั่น?
ผมแค่คัดลอกคำถามในเนื้อหามาตรงๆ
มันไม่มีกรรมของประโยคครับ..
และในความเป็นจริง
มนุษย์เองก็มักละประธานหรือกรรมที่อยู่ในหัวตัวเอง
แล้วสื่อสารกับอีกฝ่าย
พร้อมหวังว่าอีกฝ่ายจะเข้าใจได้ดี
แต่อีกฝ่ายก็จะตีความไปตามกระบวนการคิดของตัวเอง
จนเข้าใจไม่ตรงกับเจตนา
และลงมือทำต่างออกไป....
ถ้าตัวคำถามเป็นประโยคนี้ตามจริง
มนุษย์เองก็ย่อมตัดสินต่างกันตามมุมมองส่วนตัว..
ดังนั้นแทนที่ผมจะผิดหวังกับคำตอบของ AI
ผมกลับคิดว่าจำเป็นต้องสั่งให้ชัด และทำให้ประธานกับกรรมชัดเจน ซึ่งก็ไม่ต่างจากเวลาคุยกับมนุษย์
เพราะใช้พรอมป์ต์ที่กำกวม
เลยไม่ได้ค่าคาดหวังสูงสุด
ก็เลยทำให้นึกถึงคนที่บอกว่ายังเร็วเกินไปสำหรับ AI หรือบอกว่า AI ให้คำตอบผิดอยู่เสมอ
👍👍👍