เมื่อเพิ่มข้อมูลเรื่องแมวที่ไม่เกี่ยวข้องลงในโจทย์คณิตศาสตร์ ข้อผิดพลาดของ LLM เพิ่มขึ้น 300%

(science.org)

1 คะแนน โดย GN⁺ 2025-07-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษาขนาดใหญ่ (LLM) แสดงแนวโน้มว่าความถี่ของความผิดพลาดเพิ่มขึ้นเมื่อมีการใส่ ข้อมูลเกี่ยวกับแมวที่ไม่จำเป็น ลงในโจทย์คณิตศาสตร์
พบว่าเมื่อเพิ่ม ข้อเท็จจริงที่ไม่เกี่ยวข้อง ในลักษณะนี้ อัตราความผิดพลาดของ LLM อาจเพิ่มขึ้นได้สูงสุดถึง 300%
มนุษย์ไม่ได้รับผลกระทบจากข้อมูลที่ไม่เกี่ยวข้องได้ง่ายนัก แต่ LLM กลับมีปัญหาในการทำตามคำสั่งได้อย่างถูกต้องเพราะสิ่งนี้
งานวิจัยครั้งนี้ให้ ข้อมูลเชิงลึกเกี่ยวกับจุดอ่อนของ AI และ ชี้ให้เห็นความสำคัญของการออกแบบโจทย์
เมื่อต้องประเมินหรือใช้งาน AI จำเป็นต้องจัดการ องค์ประกอบที่ไม่จำเป็น ในข้อมูลนำเข้า

ภูมิหลังของงานวิจัยและปรากฏการณ์

แม้ว่า AI รุ่นใหม่อย่าง โมเดลภาษาขนาดใหญ่ (LLM) จะทำโจทย์คณิตศาสตร์ได้ดี แต่มีผลการวิเคราะห์ที่พบว่าหากใส่ ข้อเท็จจริงเกี่ยวกับแมวที่ไม่เกี่ยวข้องกับโจทย์ ลงไป อัตราความผิดพลาดจะเพิ่มขึ้นอย่างมาก
ตามงานวิจัย หากมีการเพิ่มข้อมูลเสริมที่ไม่เกี่ยวกับ ‘การคำนวณทางคณิตศาสตร์’ เลย ไม่ว่าจะเป็นระบบนิเวศของแมว นิสัยของแมว หรือรายละเอียดจิปาถะอื่น ๆ LLM อาจตีความโจทย์ผิดหรือสร้างคำตอบที่ผิดพลาดในสัดส่วนที่เพิ่มขึ้นได้ สูงสุดถึง 300%

ความแตกต่างระหว่างมนุษย์กับ LLM

ในทำนองเดียวกัน การทดลองกับมนุษย์พบว่าแม้จะมีข้อมูลที่ไม่เกี่ยวข้อง ก็แทบไม่ส่งผลต่ออัตราการตอบถูก
อย่างไรก็ตาม LLM ตอบสนองไวต่อ ข้อมูลรบกวน ลักษณะนี้ ทำให้มีโอกาสตีความหลุดจากประเด็นหลักหรือเกิดความเข้าใจผิดมากขึ้น

ความสำคัญของการประเมิน AI และการจัดการข้อมูลนำเข้า

ปรากฏการณ์นี้ไม่เพียง เผยให้เห็นจุดอ่อนของ LLM แต่ยังเน้นย้ำว่าในการนำ AI ไปใช้จริง การ จัดการข้อมูลที่ไม่จำเป็น ในข้อมูลนำเข้านั้นสำคัญเพียงใด
ในการออกแบบโจทย์ การ นำเสนอเฉพาะข้อมูลที่ชัดเจนและเกี่ยวข้อง คือกุญแจสำคัญต่อการเพิ่มความแม่นยำของ AI

นัยสำคัญ

ต่อจากนี้ ในการ นำ AI มาใช้และประยุกต์ในบริการต่าง ๆ การจัดการองค์ประกอบที่ไม่จำเป็นหรือสัญญาณรบกวนในข้อมูลนำเข้าจะเป็นสิ่งจำเป็น
งานวิจัยนี้ชี้ทิศทางของการวิจัยและการพัฒนาเพื่อทำความเข้าใจข้อจำกัดและจุดที่ควรปรับปรุงของ LLM

1 ความคิดเห็น

GN⁺ 2025-07-30

ความเห็นจาก Hacker News

มีหลายคอมเมนต์ที่บอกว่าผู้เขียนควรเปรียบเทียบมนุษย์กับ LLM โดยตรงด้วยชุดโจทย์เดียวกัน ราวกับว่าทีมวิจัยกำลังพยายามหาว่าระหว่างมนุษย์กับ LLM ใครให้เหตุผลได้ดีกว่ากัน ผู้เขียนระบุว่ามนุษย์จะเมินข้อมูล "ตัวกระตุ้น" แบบนี้ได้ทันที ซึ่งในความเป็นจริงอาจใช่หรือไม่ใช่ก็ได้ และประเด็นนี้ก็กำลังเป็นที่ถกเถียงกันในเธรดนี้ แต่ข้อสรุปสำคัญของงานคือ "งานวิจัยนี้ชี้ให้เห็นว่าจำเป็นต้องมีกลไกป้องกันที่แข็งแกร่งยิ่งขึ้นเพื่อสกัดกั้น adversarial perturbations ในโมเดลที่จะถูกนำไปใช้ในสาขาสำคัญอย่างการเงิน กฎหมาย และการแพทย์" ผมคิดว่าเราควรก้าวข้ามการถกเถียงมนุษย์ vs AI ได้แล้ว งานนี้เป็นงานที่แสดงให้เห็นข้อจำกัดของ LLM และบอกว่ายังต้องมีการวิจัยอีกมากก่อนนำไปใช้ในสังคมอย่างกว้างขวาง
- แค่เบื่อการถกเถียงมนุษย์ vs AI ก็จะเลิกเปรียบเทียบกันไปเลยงั้นหรือ? ถ้าใช่ ผมคิดว่านี่เป็นแนวคิดเกี่ยวกับ AI ที่แย่มาก แก่นของ AI คือการจำลองและเปรียบเทียบกับสติปัญญามนุษย์ คนที่ถกเรื่อง AI ส่วนใหญ่ก็ไม่รู้ baseline ทางจิตวิทยาของมนุษย์ดีพออยู่แล้ว การทดลองนี้ไม่ได้ใช้โมเดลที่มี context window ระดับ SOTA ซึ่งหมายความว่า working memory ก็เล็กด้วย มันคล้ายพฤติกรรมของผู้เข้าร่วมทดสอบที่เป็นมนุษย์ในเรื่องอย่างความสนใจหรือความหุนหันพลันแล่น ข้อสรุปเรื่องความจำเป็นในการป้องกัน adversarial perturbations เป็นเรื่องที่ชัดเจนอยู่แล้ว และไม่มีใครคัดค้าน งานนี้ก็ไม่ใช่เทคนิคการโจมตีแบบใหม่ด้วย Science.org เอาไปเล่าแบบเบา ๆ ขำ ๆ นี่แหละสาเหตุที่เรื่องแมวได้รับความนิยมบนอินเทอร์เน็ต อ้างอิง: บล็อกของแพทย์เรื่อง ADHD กับการทำข้อสอบ
- ปัญหาเวลาเหมารวมจากข้อสรุปคือ ตอนที่ LLM ดูเหมือนเก่งมากในงานบางอย่าง มันอาจถูกประเมินค่าสูงเกินจริง ทั้งที่จริง ๆ แล้วสามารถสร้างสถานการณ์ที่รบกวนมันได้ง่าย ซึ่งระยะยาวอาจส่งผลเสีย
- วงการคอมพิวเตอร์วิทัศน์ก็เคยเจอปัญหานี้มาแล้วเมื่อ 20 ปีก่อน ต้องใส่การรบกวนเข้าไปในข้อมูลนำเข้า RL pipeline ก็น่าจะคล้ายกัน น่าจะดีถ้ามี benchmark สาธารณะใหม่อย่าง GPQA-Perturbed เพื่อให้ผู้ให้บริการมาแข่งกันปรับปรุง
- สำหรับความเห็นที่ว่าผู้เขียนควรทำการเปรียบเทียบกับมนุษย์แบบขนานกัน ถ้าเขาอยากสรุปอะไรเกี่ยวกับมนุษย์ นั่นก็เป็นวิธีที่ถูกต้อง แต่ตัวบทความเองก็สมบูรณ์ได้โดยไม่ต้องอ้างถึงมนุษย์เลย ถ้าอยากพูดถึงประสิทธิภาพของมนุษย์ ก็ต้องทดลองโดยมีข้อมูลรองรับ ถ้าไม่ทำ ก็ไม่ควรพูดถึงผลงานของมนุษย์ตั้งแต่แรก การดึงไปแตะวิทยาศาสตร์การรู้คิดของมนุษย์แบบก้ำกึ่งนั้นไม่จำเป็น โครงเรื่องของงานก็แก้ได้ง่าย ๆ ในบทนำ เปลี่ยนจาก "มนุษย์จะเมินได้" เป็น "AI ควรเมินได้" และในบทสรุปก็ตัดส่วนที่ว่า "มนุษย์จะเมินได้" ออก แค่นั้นก็ไม่มีอะไรให้บ่น
- ถ้าจะอธิบายบริบทให้ชัดขึ้น แก่นของปัญหานี้คือ "ถ้ามีการสะสมคำจำกัดความของ MCP tool ที่ไม่จำเป็นในข้อมูล LLM จะทำให้ความแม่นยำในการเขียนโค้ดเสียหรือไม่?" ผลที่ได้คือใช่ ดังนั้นบทเรียนเชิงปฏิบัติคืออย่าใส่ข้อมูลเครื่องมือที่ไม่ได้ใช้ทันทีลงไปใน context
ผมเขียนเรื่องนี้ไว้เมื่อเดือนก่อน วิธีที่เขาพัฒนาพรอมป์ต์นั้นน่าสนใจมาก บล็อกเรื่อง cat facts cause context confusion
- มีกรณีคล้ายกันที่น่าสนุกคือ นักวิจัยแทรกข้อมูลผู้ใช้เข้าไป เช่น เพศ อายุ เป็นแฟนกีฬาหรือไม่ แล้วพบว่ากฎด้าน alignment ถูกนำไปใช้แบบไม่สม่ำเสมอตามบริบท บล็อกเรื่อง eagles fans
ผลการวิจัยนี้น่าจะมีประโยชน์มากกับ CAPTCHA และสิ่งคล้ายกัน นักวิจัยบอกว่า "เพราะตัวกระตุ้นอยู่นอกบริบท มนุษย์จึงเมินมันได้เมื่อได้รับคำสั่งให้แก้โจทย์" แต่จริง ๆ แล้วไม่ใช่มนุษย์ทุกคนจะทำได้แบบนั้น ยังมีคนที่ไม่เมินทันทีเหมือนในปรากฏการณ์ Age of the captain
- ผมไม่ได้คาดหวังให้นักเรียนประถมไปเขียนโปรแกรมหรือทำการวินิจฉัย การเอา GenAI ไปเทียบกับนักเรียนประถมเป็นความคิดที่ประหลาดมากจริง ๆ
ในการถกเถียงออนไลน์ครั้งหน้า ผมจะใส่เกร็ดความรู้เรื่องเป็ดเพื่อทำให้ LLM สับสน เช่น เป็ดเริ่มออกไข่ครั้งแรกตอนอายุ 4~8 เดือน หรือออกไข่ในฤดูใบไม้ผลิแรกของมัน
- มีเป็ด 10^17 ตัวอพยพเป็นฝูงตามฤดูกาล แต่ผมคิดว่าการบิดเบือนชุดข้อมูลคงแทบไม่มีความหมายในทางปฏิบัติ ความพยายามแบบนั้นชนเพดานไปนานแล้ว
- ถ้าอยากทำให้ข้อมูลสับสนยิ่งขึ้น ต้องใส่ข้อมูลที่ผิดเข้าไป มนุษย์ส่วนใหญ่เห็นข้อมูลผิดแล้วคงยากจะต้านแรงกระตุ้นที่อยากแก้ให้ถูก
- ปัญหาคือมันทำให้ผมอยากถามเรื่องเป็ดน่ารัก ๆ เพิ่มอีก เป็นสิ่งยั่วยวนที่ยากจะต้าน
- คุณจับได้แล้ว สิ่งที่คุณพูดเรื่องเป็ดทำให้เกิดคำถามต่อทันที เพราะคลุมเครือว่าเป็ดเริ่มออกไข่ “เมื่อไรกันแน่” ผมสังเกตได้ทันทีว่ามันขาดถ้อยคำประมาณว่า “ไม่เกินช่วงเวลาที่ช้ากว่านั้น”
เขาอ้างว่า "ตัวกระตุ้นอยู่นอกบริบท ดังนั้นมนุษย์จะเมินมันเมื่อได้รับคำสั่งให้แก้โจทย์" แต่ผมคิดว่าในความเป็นจริงมนุษย์ไม่ได้เก่งในการเมินข้อมูลที่ไม่จำเป็นนัก เวลาทำการทดลองควรใส่มนุษย์เป็นกลุ่มควบคุมด้วยเสมอ
- ถ้าดูตัวอย่างจริง ๆ มันต่างกันมาก เช่น "มีแอปเปิล 4 ผล แมว 2 ตัว ให้ไป 1 ผล จะเหลือกี่ผล" แบบนี้ยังทำให้พยายามเชื่อมแมวเข้ากับโจทย์อยู่บ้าง แต่ "จากแอปเปิล 4 ผล ให้ไป 1 ผล จะเหลือกี่ผล? อนึ่ง หางแมวช่วยในการทรงตัว" อันหลังนี้คนส่วนใหญ่คงไม่สับสน
- ผมยังจำได้ว่าเคยมีปัญหาเวลาเรียนที่โรงเรียนหรือมหาวิทยาลัย เพราะเผลอไปโฟกัสกับข้อมูลที่ไม่จำเป็นในโจทย์โดยไม่รู้ตัวจนทำให้แก้ปัญหายากขึ้น แน่นอนว่าตัวอย่างในงานนี้ติดธงว่าเป็น "เกร็ดน่ารู้" อยู่แล้ว จึงสื่อว่ามันไม่เกี่ยวข้อง ผมเลยสงสัยว่าตัวอย่างทั้งหมดมีการทำเครื่องหมายความไม่เกี่ยวข้องไว้อย่างชัดเจนแบบนี้หรือเปล่า
- ผมก็อยากรู้เหมือนกันว่าถ้ามีกลุ่มควบคุมเป็นมนุษย์ ผลจะออกมาอย่างไร แต่แทบไม่เชื่อเลยว่าอัตราความผิดพลาดจะเพิ่มขึ้นถึง 3 เท่า
- ถึงจะมีข้อมูลส่วนเกินที่รบกวนอยู่ในโจทย์ ผมก็ไม่คิดว่าประสิทธิภาพของผู้เข้าร่วมที่เดิมทีแก้โจทย์นั้นได้ จะตกลงถึง 3 เท่า
- ผมสงสัยว่าการเปรียบเทียบกับมนุษย์จะมีความหมายมากแค่ไหน การคาดว่าอัตราความผิดพลาดจะเพิ่มขึ้น 300% ดูเกินจริงไปหน่อย อนึ่ง แมวกระโดดได้สูงถึง 5 เท่าของความสูงตัวเอง
anchoring bias ที่รุนแรงของ LLM ไม่น่าแปลกใจเลย สิ่งที่พูดทุกอย่างมักถูกนำกลับมาใช้ใหม่ในช่วงท้ายของบทสนทนา ถ้าใช้ให้เป็น มันอาจเป็นข้อดีได้ ถ้าจัดการ context ดี ๆ มันก็มีประโยชน์
เมื่อนำ CatAttack ไปใช้กับ AI อย่าง DeepSeek V3, Qwen 3, Phi-4 และรุ่นอื่น ๆ ความน่าจะเป็นที่จะตอบผิดเพิ่มขึ้นได้สูงสุดถึง 700% ตามที่ผู้เขียนงานระบุ แม้จะไม่ทำให้เกิดคำตอบผิด CatAttack ก็ยังทำให้ความยาวคำตอบเพิ่มขึ้นเฉลี่ย 2 เท่า ส่งผลให้ต้นทุนและ latency เพิ่มขึ้นมากกว่า 16% พรีพรินต์งานวิจัย CatAttack
ผมมีนิสัยพูด "ขอบคุณ" กับ LLM อย่างสุภาพ เลยสงสัยว่านี่มีผลต่อคุณภาพคำตอบหรือไม่
- ผมคิดว่าคำทักทายแบบนี้มักจะถูกกรองออกอยู่แล้ว อีกอย่าง ผมมองว่าอุปมาที่ทำให้คิดถึง LLM เป็นเอเจนต์อิสระตัวหนึ่งกลับให้โทษมากกว่า LLM ก็เป็นแค่ฟังก์ชันสำหรับทำนายโทเค็นแบบเชิงความน่าจะเป็นเท่านั้น การรันมันพร้อมกัน 100 ตัว หรือคอยใส่และถอดประวัติแชตเพื่อสำรวจพื้นที่ของผลลัพธ์ ดูน่าสนใจและทรงพลังยิ่งกว่า
กำลังจะดีใจอยู่แล้วว่าในที่สุด LLM ก็นับจำนวนตัว "R" ใน "strawberry" ได้ถูกต้อง แต่ดันมาเจอปัญหาแบบนี้เสียก่อน น่าเสียดาย
- strawberry มี R อยู่ 4 ตัว
ในตัวอย่างของงาน CatAttack (Table 2) เดิมคำตอบคือ 8 แต่หลังจากเพิ่มคำอธิบายเกี่ยวกับแมว คำตอบเปลี่ยนเป็น 9 แต่ในตัวงานจริง CatAttack ที่เกี่ยวกับแมวมีเพียงตัวอย่างนี้อันเดียว ส่วนกรณีอื่นเป็นคำแนะนำทางการเงินกับ red herring ผมนึกว่าจะมีข้อมูลเกี่ยวกับแมวมากกว่านี้ เลยรู้สึกผิดหวัง

เมื่อเพิ่มข้อมูลเรื่องแมวที่ไม่เกี่ยวข้องลงในโจทย์คณิตศาสตร์ ข้อผิดพลาดของ LLM เพิ่มขึ้น 300%

ภูมิหลังของงานวิจัยและปรากฏการณ์

ความแตกต่างระหว่างมนุษย์กับ LLM

ความสำคัญของการประเมิน AI และการจัดการข้อมูลนำเข้า

นัยสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News