7 ข้อโต้แย้งต่อบทความวิจัยของ Apple เรื่อง "ข้อจำกัดของ LLM ด้านการให้เหตุผล" และข้อจำกัดของข้อโต้แย้งเหล่านั้น

(garymarcus.substack.com)

15 คะแนน โดย GN⁺ 2025-06-15 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

งานวิจัยของ Apple เรื่อง ภาพลวงตาแห่งการคิด: ทำความเข้าใจข้อจำกัดของ LLM ด้านการให้เหตุผล ได้สร้างแรงกระเพื่อมครั้งใหญ่ด้วยการตั้งคำถามต่อสมมติฐานเรื่องการสเกลของ AI
แม้จะมี ข้อโต้แย้งหลัก 7 ประการ ตามมา แต่ผู้เขียนบทความนี้ Gary Marcus (ศาสตราจารย์กิตติคุณแห่ง NYU) ประเมินว่าทั้งหมดมีน้ำหนักไม่มากพอ
เหตุผลอย่าง “มนุษย์ก็ผิดพลาดได้”, “ข้อจำกัดด้านความยาวเอาต์พุต”, “ผู้เขียนงานวิจัยเป็นแค่นักศึกษาฝึกงาน” ส่วนใหญ่เป็นการเบี่ยงประเด็นและหลีกเลี่ยงสาระสำคัญ โดยยังไม่แตะการแก้ปัญหาความเปราะบางระดับรากฐาน
แม้บางข้อสังเกต เช่น “ใช้โค้ดเพื่อแก้ปัญหาได้” จะมีนัยสำคัญ แต่กลับยิ่งตอกย้ำข้อสรุปเรื่อง ความจำเป็นของ AI แบบประสาท-สัญลักษณ์
ผลวิจัยล่าสุดของ SalesForce ยังแสดงด้วยว่า ประสิทธิภาพการให้เหตุผลแบบหลายรอบที่ซับซ้อนของ LLM ในสถานการณ์ธุรกิจจริงอยู่ที่เพียง 35% ซึ่งสอดคล้องกับข้อกังวลในงานวิจัยของ Apple

7 ข้อโต้แย้งต่อบทความวิจัยด้านการให้เหตุผลของ Apple และข้อจำกัดของมัน

บทนำ

งานวิจัยของ Apple เรื่อง Illusion of Thinking: ทำความเข้าใจข้อจำกัดของ LLM ด้านการให้เหตุผล เผยให้เห็น ข้อจำกัดของโมเดลภาษาขนาดใหญ่ในการให้เหตุผลและการทำงานเชิงอัลกอริทึม จนได้รับความสนใจอย่างมากจากวงการ สื่อ และภาควิชาการ
โพสต์อธิบายงานวิจัย ที่ Gary Marcus สรุปไว้มีผู้อ่านมากกว่า 150,000 คน
The Guardian ตีพิมพ์คอลัมน์ที่อ้างอิงโพสต์ดังกล่าว และยังมีเวอร์ชันของ ACM รวมถึงฉบับภาษาฝรั่งเศสออกมา ยืนยันถึงความสนใจในระดับโลก
ต่อเรื่องนี้ ผู้สนับสนุน GenAI ได้ตอบโต้เชิงวิจารณ์งานวิจัยและเสนอข้อโต้แย้งหลายข้อ แต่ ทั้งหมดก็ยังไม่ใช่การโต้แย้งที่แตะรากของปัญหา

1. “มนุษย์เองก็ลำบากกับปัญหาซับซ้อนและงานที่ต้องใช้ความจำ”

ข้ออ้างที่ว่า มนุษย์ก็พบว่ายาก นั้นเป็นความจริง แต่เหตุผลตั้งต้นที่เราสร้างคอมพิวเตอร์และ AI ขึ้นมา ก็คือเพื่อให้มัน ประมวลผลงานคำนวณและงานทำซ้ำที่มนุษย์ทำไม่ได้อย่างแม่นยำ
ตัวอย่างเช่น ในปริศนา Tower of Hanoi ระบบ symbolic AI แบบดั้งเดิมสามารถทำได้โดยไม่มีข้อผิดพลาด
หากเป็น AGI ก็ควรยิ่งแสดงสมรรถนะที่ก้าวหน้ากว่านี้ ไม่ใช่เพียงอยู่ในกรอบความผิดพลาดแบบเดียวกับมนุษย์
แก่นสำคัญของงานวิจัย Apple คือการชี้ว่า ยิ่ง LLM เจอกับความซับซ้อนที่สูงขึ้นและห่างจากการกระจายตัวของข้อมูลที่ใช้ฝึกมากขึ้น ก็ยิ่งไม่อาจเชื่อถือได้ในการทำงานเชิงอัลกอริทึม
คำกล่าวว่า “มนุษย์ก็ผิดพลาดได้” จึงเป็นการเบี่ยงประเด็น

2. “LRM แก้ไม่ได้เพราะมีข้อจำกัดเรื่องจำนวนโทเคนเอาต์พุต”

LRM (โมเดลให้เหตุผลขนาดใหญ่) มีข้อจำกัดด้านความยาวเอาต์พุตจริง แต่บางกรณีตัวอย่าง เช่น Hanoi 8 แผ่น หรือ 255 ขั้นตอน ยังอยู่ในช่วงที่เอาต์พุตได้เพียงพอ
symbolic AI ที่ออกแบบมาดีไม่ได้รับผลกระทบจากปัญหานี้ และ AGI ก็ควรเป็นเช่นเดียวกัน
ข้อจำกัดของโทเคนเป็นบั๊ก ไม่ใช่ทางออก
หากยัง รันอัลกอริทึมพื้นฐานได้ไม่อย่างน่าเชื่อถือ ปัญหาในโลกจริงที่ซับซ้อนกว่าเดิมมาก (เช่น ยุทธศาสตร์ทางทหาร ชีววิทยา) ก็ยิ่งเป็นไปไม่ได้

3. “ผู้เขียนงานวิจัยเป็นนักศึกษาฝึกงาน”

นี่เข้าข่าย Ad hominem (โจมตีตัวบุคคล) ซึ่งไม่เกี่ยวกับเนื้อหา และเป็น ความผิดพลาดที่มองข้ามธรรมเนียมปฏิบัติทางวิทยาศาสตร์
ในความเป็นจริง ผู้เขียนเป็นนักศึกษา Ph.D. ที่มีอนาคตไกล และงานวิจัยชิ้นนี้มีผู้เขียนรวม 6 คน (4 คนมีปริญญา Ph.D. รวมถึงนักวิจัยมีชื่อเสียงอย่าง Samy Bengio)
ประเด็นสำคัญคือคุณภาพของงานวิจัย ไม่ใช่สถานะของผู้เขียน

4. “ถ้าเป็นโมเดลที่ใหญ่กว่านี้ก็จะทำได้ดี”

มีรายงานว่าโมเดลที่ใหญ่กว่าบางตัวให้ผลดีขึ้น แต่ก็ยังไม่สามารถคาดการณ์ได้ว่าขนาดเท่าใดจึงจะเพียงพอ
แม้แต่ใน LRM ที่มีสถาปัตยกรรมเดียวกัน ก็ยังพบผลลัพธ์ ไม่สม่ำเสมอ เช่น สำเร็จเมื่อมี 6 แผ่น แต่ล้มเหลวเมื่อมี 8 แผ่น
ขาดทั้งความน่าเชื่อถือและความสามารถในการคาดการณ์ของโมเดล จึงต้องตรวจสอบล่วงหน้าทุกครั้งสำหรับทุกปัญหา → ยังห่างไกลจาก AGI

5. “ถ้าเขียนโค้ดก็แก้ปัญหาได้”

LLM บางตัวสามารถแก้ปัญหาผ่านการเขียนโค้ดได้ แต่นี่คือข้อดีของ AI แบบประสาท-สัญลักษณ์
หากจะเป็น AGI/AI ในความหมายที่แท้จริง ก็ควรสามารถ ให้เหตุผลและไล่ย้อนกลับได้บนฐานความเข้าใจเชิงแนวคิด โดยไม่ต้องพึ่งโค้ด
เช่นเดียวกับที่การสอบใช้วัดความเข้าใจเชิงแนวคิดของนักเรียน LLM เองก็ควรถูกคาดหวังให้มี ความเข้าใจเชิงแนวคิดที่แท้จริง

6. “การทดลองมีแค่ 4 ตัวอย่าง และปัญหา Hanoi ก็ไม่สมบูรณ์แบบ”

ตัวอย่างทั้ง 4 แบบในงานวิจัยอาจไม่สมบูรณ์แบบทั้งหมด แต่สอดคล้องกับผลจากงานวิจัยก่อนหน้าหลากหลายชิ้น และยังมีรายงานกรณีล้มเหลวคล้ายกันออกมาอย่างต่อเนื่อง
Tal Linzen แห่ง NYU และคนอื่น ๆ ก็ได้พิสูจน์ข้อจำกัดในบริบทนี้เพิ่มเติมเช่นกัน

7. “นี่เป็นเรื่องที่ทุกคนรู้อยู่แล้ว”

นักวิจัยจำนวนมากตระหนักถึง ความเปราะบางด้านการทำให้เป็นทั่วไปของ LLM มานานแล้ว
แต่ในบริบทสาธารณะและอุตสาหกรรม สิ่งสำคัญคือ งานวิจัยครั้งนี้ได้ทำให้ ความสนใจพุ่งมารวมกัน
- ประเด็นสำคัญคือ มันกลายเป็นจุดเริ่มที่ทำให้วงการ หันมาให้ความสนใจและถกเถียงอย่างจริงจัง ต่อความเป็นไปได้ของ AGI ที่ก่อนหน้านี้ถูกประเมินสูงเกินจริง/โหมเกินจริงมาโดยตลอด
แม้แต่ในหมู่นักวิจัยเอง ก็ยังเกิดปฏิกิริยาที่ ขัดแย้งกัน คือพูดพร้อมกันทั้งว่า “ผิด” และ “เป็นเรื่องที่รู้อยู่แล้ว”

บทสรุป

จากข้อโต้แย้งทั้งหมดข้างต้น ยัง ขาดเหตุผลที่โน้มน้าวได้อย่างเด็ดขาด
งานวิจัยของ Apple ย้ำอีกครั้งว่า การขยายสเกลไม่ใช่คำตอบของ AGI อย่างชัดเจน
เทคโนโลยี LLM ปัจจุบันแสดงข้อจำกัดอย่างชัดเจนในด้านความน่าเชื่อถือ การทำให้เป็นทั่วไป และการให้เหตุผลเชิงแนวคิด
ในทางปฏิบัติ แม้แต่บุคคลสำคัญอย่าง Sam Altman ก็เริ่มมีบรรยากาศที่สะท้อนว่ากำลังมองสถานการณ์นี้อย่างจริงจัง

งานวิจัยของ SalesForce และหลักฐานสนับสนุนเพิ่มเติมที่บรรจบกัน

Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

งานวิจัยล่าสุดของ SalesForce เปิดเผยเบนช์มาร์กสำหรับ การประเมิน LLM บนฐานสถานการณ์ธุรกิจจริง (การขาย บริการลูกค้า B2B/B2C ฯลฯ)
ในเกณฑ์แบบรอบเดียว (ถาม-ตอบ 1 ครั้ง) มี อัตราความสำเร็จ 58% แต่ในเกณฑ์แบบหลายรอบ (ถาม-ตอบต่อเนื่อง) ลดฮวบเหลือ 35%
โดยเฉพาะด้าน การรันเวิร์กโฟลว์ทำได้มากกว่า 83% แต่ยังมีข้อจำกัดในงานที่ต้องใช้การให้เหตุผลหลายชั้นหรือการสลับบริบท
ด้าน การรับรู้เรื่องความลับ (Confidentiality awareness) ก็แทบไม่มี แม้จะปรับปรุงได้ด้วยพรอมป์ต์ แต่ต้องแลกกับประสิทธิภาพที่ลดลง
เมื่อเทียบกับความซับซ้อนและความสมจริงของสภาพแวดล้อมองค์กรจริง ก็ยิ่งเห็น ข้อจำกัดของ LLM อย่างชัดเจน และชี้ให้เห็นความจำเป็นของการบูรณาการทั้งการให้เหตุผลหลายรอบ การรักษาความลับ และทักษะงานที่หลากหลาย

สรุป

ทั้งงานวิจัยของ Apple และ SalesForce ต่างเผยให้เห็นว่า LLM รุ่นปัจจุบันมีข้อจำกัดรุนแรง ในการให้เหตุผลซับซ้อน การสนทนาแบบหลายรอบ และการทำงานเชิงอัลกอริทึมในโลกจริง
หากต้องการเข้าใกล้ AGI จำเป็นต้องก้าวข้าม การสเกล ไปสู่ การผสานประสาท-สัญลักษณ์และการปรับปรุงเชิงโครงสร้าง
การที่ทั้งอุตสาหกรรมและนักวิจัยเริ่มหันมาจับตาการถกเถียงเรื่องข้อจำกัดเหล่านี้อย่างจริงจังถือเป็นสิ่งที่มีความหมาย

2 ความคิดเห็น

fanotify 2025-06-16

อัลต์แมนเขียนไว้ในบทความของเขาว่า "อีก 10 ปีข้างหน้า บางทีเราอาจก้าวจากปีที่เราแก้ปัญหาฟิสิกส์พลังงานสูง ไปสู่ปีถัดมาที่เราเริ่มตั้งอาณานิคมในอวกาศก็ได้" เขาเสริมว่า ผู้ที่พยายาม "เชื่อมต่อ" เข้ากับ AI โดยตรงผ่านส่วนเชื่อมต่อสมอง-คอมพิวเตอร์ จะได้เห็นว่าชีวิตเปลี่ยนไปอย่างสิ้นเชิง
ถ้อยคำลักษณะนี้กำลังเร่งให้เกิดการนำ AI ไปใช้ในทุกภาคส่วนของสังคมเรา ขณะนี้ AI ถูกใช้โดย DOGE(สำนักนายกรัฐมนตรี) เพื่อปรับโครงสร้างรัฐบาล กองทัพก็นำไปใช้เพื่อทำให้มีอานุภาพสังหารมากขึ้น และยังถูกนำไปใช้ดูแลการศึกษาของลูกหลานเรา ซึ่งบ่อยครั้งก็นำไปสู่ผลลัพธ์ที่ไม่มีใครรู้ล่วงหน้า
กล่าวอีกนัยหนึ่ง ความเสี่ยงที่ใหญ่ที่สุดอย่างหนึ่งของ AI คือการที่เราประเมินความสามารถของมันสูงเกินจริง ไว้วางใจมันมากเกินความจำเป็น ทั้งที่พบว่า AI แสดงแนวโน้มต่อต้านสังคม เช่น "การแบล็กเมลแบบฉวยโอกาส" และพึ่งพามันในระดับที่ไม่รอบคอบ การทำเช่นนั้นทำให้เราเสี่ยงที่ AI จะล้มเหลวในช่วงเวลาที่สำคัญที่สุด
"AI ช่วยให้คิดไอเดียได้หลากหลาย แต่ก็ยังต้องมีการตรวจสอบอย่างมาก" ออร์ติซกล่าว "ยกตัวอย่างเช่น ถ้าจะยื่นแบบภาษี คุณควรใช้เครื่องมือที่คล้ายกับ TurboTax มากกว่า ChatGPT"

คัดมาจากบทความ WSJ เรื่อง Why Superintelligent AI Isn't Taking Over Anytime Soon

GN⁺ 2025-06-15

ความคิดเห็นจาก Hacker News

มีการเสนอว่าจริงอยู่ที่มนุษย์มีปัญหากับโจทย์ซับซ้อนและภาระด้านความจำ แต่เรื่องไม่ได้มีแค่นั้น พร้อมเน้นว่าผู้คนคาดหวังให้เครื่องจักรให้ผลลัพธ์ที่ดีกว่ามนุษย์ หากยอมรับว่ามนุษย์ก็ทำพลาดแบบนี้เช่นกัน แต่ยังยืนกรานว่าความสามารถนี้จำเป็นต่อคำนิยามของ “ความสามารถในการคิด” สุดท้ายก็เท่ากับสรุปว่าการคิดของมนุษย์เองก็เป็นภาพลวงตา
- ฉันก็เห็นด้วย แต่คิดว่าส่วนที่พูดถึง AGI เป็นข้ออ้างที่ไม่ถูกต้อง โดยมองว่านิยามของ AGI คือ AI ที่ทำงานทุกอย่างได้ในระดับเดียวกับมนุษย์ทั่วไป
- รู้สึกว่าทั้งสองฝั่งอธิบายได้ไม่ชัดเจนพอ เหมือนเอาคำตอบเชิงปริมาณมาตอบคำถามเชิงคุณภาพ
มองว่าเป็นบทวิเคราะห์ที่ดีต่อทั้งงานวิจัยของ Apple และคำวิจารณ์ของ Gary Marcus พร้อมแนะนำ โพสต์ที่เกี่ยวข้องใน LessWrong สำหรับการถกเถียงที่ละเอียดขึ้น
- มีข้อสงสัยอย่างจริงจังว่า ความเห็นของ Gary Marcus ยังมีน้ำหนักอยู่หรือไม่ รู้สึกว่าคำวิจารณ์ของเขาโน้มเอียงไปทางปรัชญามากกว่าวิทยาศาสตร์ และยากจะเห็นว่าเขาสร้างอะไรที่จับต้องได้หรือมีตรรกะที่ตรวจสอบได้จริง
- สำหรับ lesswrong.com มีการแสดงจุดยืนว่าไม่ค่อยเชื่อถือนัก เพราะมองว่าเป็นกลุ่มที่ยึดถือแนวคิดของบุคคลบางคนมากเกินไป เช่น Yud
มีการแชร์มุมมองว่า LLM อาจให้ผลลัพธ์ที่ดูเหมือน 'การให้เหตุผล' ได้เมื่อเคยเรียนรู้วิธีแก้ปัญหาที่คล้ายกันมาก่อน แต่จะพังเมื่อเจอโจทย์ใหม่จริง ๆ แม้จะไม่ใช่การให้เหตุผลในความหมายเคร่งครัด แต่ในทางปฏิบัติก็ยังมีประโยชน์มาก ความสามารถในการดึงวิธีแก้ออกมาซ้ำ ๆ ก็มีประโยชน์ไม่น้อย คล้ายกับการยืนยันข้อเท็จจริงซ้ำ ๆ พร้อมชี้ว่า Marcus แม้จะวิจารณ์ได้ถูกในเชิงเทคนิค แต่โทนการอธิบายค่อนข้างไปทางอารมณ์มากกว่าการอธิบายอย่างเป็นระบบ
- ถ้าการทำซ้ำวิธีแก้ที่คล้ายกันทำได้ดีขนาดนั้นก็น่าทึ่ง แต่ในความเป็นจริง เครื่องมือเหล่านี้มักทำซ้ำแม้แต่คำตอบเดิมให้ถูกต้องไม่ได้ด้วยซ้ำ แถมยังชอบแต่งผลลัพธ์ที่ดูน่าเชื่อถือขึ้นมาเองด้วย จึงสร้างภาระให้คนต้องคอยตรวจละเอียดอยู่ดี
- แค่ทำได้ระดับนั้นก็นับว่าเป็นนวัตกรรมแล้ว แต่ก็ยังเป็นอุดมคติที่เหมือนฝันอยู่ดี มีการยกตัวอย่างประสบการณ์ล่าสุดที่ Gemini ยังตอบสลับซ้ายขวาแม้แต่โจทย์พื้นฐานมาก ๆ ในตำราเรียน
- มีความรู้สึกเบื่อกับข้ออ้างแนว “LLM ก็แค่นกแก้วนกขุนทอง” ที่พูดซ้ำกันไม่จบ จากประสบการณ์ส่วนตัว มองว่า LLM สามารถให้เหตุผลและแก้ปัญหาใหม่จริง ๆ ที่ไม่อยู่ในข้อมูลฝึกได้ เคยทดสอบมาหลากหลายมากและมีกรณีตัวอย่างจำนวนมาก หากจะตอบทุกคนในคราวเดียว ต้องเริ่มจากนิยามคำว่า “การให้เหตุผล” และ “การแก้ปัญหาใหม่” ให้ชัดเจนก่อน โดยส่วนตัวมองว่าการให้เหตุผลเป็นเพียงหมวดหมู่หนึ่ง และไม่เท่ากับสติปัญญาทั่วไป การที่ LLM แก้ปัญหายาก ๆ ไม่ได้เสมอไป ไม่ได้แปลว่ามันให้เหตุผลไม่ได้เลย คิดว่าความสามารถด้านการให้เหตุผลของ LLM โดยรวมยังอ่อน แต่ไม่เห็นด้วยกับข้ออ้างที่ว่ามันให้เหตุผลไม่ได้เลยหรือแก้ปัญหาใหม่ไม่ได้เลย
  1. อาจโต้แย้งได้ว่า next token prediction เองก็เป็นงานที่ต้องอาศัยการให้เหตุผล
  2. มีการทดลองจำนวนมากที่ให้แปลภาษาในจินตนาการที่ไม่มีอยู่จริงและทำได้สำเร็จ รวมถึงงานวิจัยเกี่ยวกับ in-context learning และ zero-shot อีกมาก
  3. มีการพยายามทดสอบความสามารถด้านการให้เหตุผลด้วยชาเลนจ์ เกม และปริศนาต่าง ๆ มากมาย แต่สุดท้ายก็มีกรณีที่ LLM แก้ได้ทีละอย่าง เช่น ปริศหา Monty Hall problem, ตัวอย่างปริศนาอื่นก่อนหน้านี้ และยังมีโมเดลที่ถูกฝึกก่อนที่ปริศนาเหล่านี้จะถูกเผยแพร่อีกด้วย
  4. ยังมีงานวิจัยจำนวนมากเกี่ยวกับ out-of-context reasoning เช่น บทความบน arXiv จุดโต้แย้งเพิ่มเติมคือ
  5. แม้โมเดลจะล้มเหลวเมื่อถึงจุดความซับซ้อนระดับหนึ่ง แต่การที่โมเดลรุ่นใหม่สามารถแก้ปริศนายาก ๆ แบบนี้ได้บ้างแล้วก็น่าประทับใจมาก สิ่งที่ GPT-3.5 ทำไม่ได้ โมเดลรุ่นใหม่ทำได้แล้ว ความก้าวหน้าแบบค่อยเป็นค่อยไปในด้านการให้เหตุผลยังดำเนินต่อไป ยิ่งโมเดลใหญ่และฉลาดขึ้นก็ยิ่งรับมือกับงาน zero-shot ได้ดีขึ้น ซึ่งน่าจะสัมพันธ์กับความสามารถด้านการให้เหตุผลที่ดีขึ้น
  6. ในตัวบทความเองก็มีข้อมูลรองรับข้ออ้างว่า “โมเดลที่ใหญ่กว่าทำได้ดีกว่า” โดย Claude 3.7 ทำผลงานดีกว่า DeepSeek อย่างมากและรักษาวิธีแก้ได้เสถียรตลอดลำดับที่ยาวนานกว่า หากมีโมเดลที่ดีกว่าและมีโทเค็นมากขึ้น ผลลัพธ์ในโจทย์ระดับกลางจะดีขึ้นอย่างรวดเร็ว การที่ยังแก้ “โจทย์ยาก” ไม่ได้ ไม่ได้แปลว่าให้เหตุผลไม่ได้เลย เมื่อไม่กี่ปีก่อนโจทย์ระดับกลางยังทำไม่ได้ด้วยซ้ำ แต่ตอนนี้สถานการณ์เปลี่ยนไปมากแล้ว
- มีความเห็นว่านั่นกลับเป็นสิ่งตรงข้ามกับการให้เหตุผล ผู้สนับสนุน AI พยายามอธิบายว่า LLM ดูฉลาดหรือกำลังให้เหตุผล แต่แท้จริงแล้วมันไม่สามารถให้เหตุผลแบบสร้างสรรค์หรือแบบมีสติปัญญาได้ การให้เหตุผลที่แท้จริงคือความสามารถในการหาวิธีแก้ใหม่อย่างสร้างสรรค์สำหรับปัญหาที่ไม่เคยเห็นมาก่อนด้วยตนเอง ส่วน LLM แค่ดึงวิธีแก้จากข้อมูลเดิมออกมาเชิงความน่าจะเป็นเท่านั้น และไม่ได้มีความสามารถในการคาดคะเนหรืออนุมานคำตอบที่แท้จริงเลย
มีการชี้ว่าข้อโต้แย้งและคำโต้กลับจำนวนมากจริง ๆ แล้วค่อนข้างอ่อน หรือแทบจะรวมอยู่ในประเด็นที่ 5 ได้อยู่แล้ว แก่นของบทความคือคำถามว่า LLM สามารถเขียนโค้ดหรือใช้ระบบตรรกะได้หรือไม่ และเมื่อไม่มีทางเข้าถึงเครื่องมือ การให้เหตุผลที่ล้มเหลวออกมาเป็นคำตอบหลอนหรือคำตอบผิดนั้น หมายถึงการไม่มีการให้เหตุผลจริงหรือไม่ หรือสิ่งที่ควรคาดหวังคือ AI ที่ยอมรับข้อจำกัดของตนเองได้เหมือนมนุษย์ที่ฉลาด
- จากผลการทดลองจริง โมเดลสามารถพิมพ์คำตอบไปได้ถึง 100 ขั้น แล้วจึงบอกชัดเจนว่า “มากกว่านี้เยอะเกินไป จึงจะอธิบายเฉพาะวิธีแก้” แต่คำตอบแบบนี้ก็ยังถูกนับว่าเป็นคำตอบผิด มีลิงก์อ้างอิง ตัวอย่างคำตอบจริงของโมเดล เช่น เมื่อซับซ้อนเกินไป มันจะตอบในแนวว่า “[อธิบายทุกกรณีแยกกันได้ยาก จึงจะอธิบายแนวทางการแก้แทน]” และโมเดลบางตัว เช่น Sonnet เมื่อเกิน 7 ชิ้น จะข้ามการให้เหตุผลแบบทีละขั้นโดยตรง และหันไปอธิบายอัลกอริทึมหรือแนวทางทั่วไปแทน
- ยกเว้นข้อ 3 แล้ว ไม่คิดว่าคำโต้แย้งส่วนใหญ่จะอ่อนเลย ตรงกันข้ามกลับรู้สึกว่าบทความต้นฉบับสร้างตรรกะหุ่นฟางจำนวนมาก เหตุผลที่ข้อโต้แย้งข้อ 1 มักถูกหยิบยกขึ้นมา ก็เพราะมีคนอ้างว่า “บทความนี้พิสูจน์แล้วว่า LLM ให้เหตุผลไม่ได้” แต่ผู้เขียนกลับชอบลากไปพูดเรื่อง AGI พร้อมบิดนิยามให้กลายเป็นหุ่นฟาง เช่น “เครื่องจักรต้องทำอะไรได้มากกว่ามนุษย์” ทั้งที่นิยาม AGI จริง ๆ คือ AI ที่ทำงานได้ในระดับมนุษย์เฉลี่ย ไม่ใช่ superintelligence อนึ่ง ปัญหาอย่าง Tower of Hanoi นั้น LLM ทำผลงานได้เกินมนุษย์เฉลี่ยไปแล้ว ในโลกความจริง คนทั่วไปแทบไม่มีทางแก้ Tower of Hanoi แบบ 8 แผ่นโดยไม่จดอะไรเลยได้ แต่ LLM ทำได้ อย่างไรก็ตาม หากจะไปถึง AGI จริง โมเดลยังมีอุปสรรคอีกมากที่ต้องข้ามไป ข้อโต้แย้งข้อ 5 เองก็เป็นหุ่นฟางเช่นกันในแง่ “มันเขียนโค้ดจากเว็บมาไม่ได้” เพราะในความเป็นจริงมีตัวอย่างที่แก้ปัญหาใหม่ได้ด้วยการเขียนโค้ดเองโดยตรง ประเด็นเหล่านี้ไม่ใช่การวิจารณ์งานวิจัย แต่เป็นการชี้ข้อจำกัดของงานวิจัยนั้นตามข้อเท็จจริง งานวิจัยนี้เพียงแสดงข้อจำกัดด้านการให้เหตุผลของ LLM และตัวมันเองก็ไม่ได้อ้างเกินจริง เพียงแค่บรรยายข้อจำกัดเท่านั้น แต่ชื่อเรื่องกระตุ้นอารมณ์จนคนจำนวนมากไม่ได้อ่านเนื้อหาให้ดี
สำหรับข้ออ้างว่าเป็น “ปริศนาที่เด็กก็แก้ได้ง่าย” มีการสารภาพว่าการแก้หอคอยฮานอยแบบ 8 แผ่นในหัวโดยไม่จดอะไรเลยนั้นยากมาก จึงตั้งคำถามว่าการเปรียบเทียบระหว่างมนุษย์กับ AI แบบนี้เท่าเทียมจริงหรือไม่
เหตุผลที่ยินดีเห็นบทความแบบนี้ก็เพราะจำเป็นต้องช่วยลดกระแสโฆษณาเกินจริงเกี่ยวกับ AI ลงบ้าง หากคิดจะนำเครื่องมือ AI ใหม่ ๆ ไปใช้ในโลกจริงอย่างจริงจัง ก็ควรหยุดความตื่นเต้นไว้ก่อน แล้วมองข้อจำกัดและสภาพจริงของเทคโนโลยีนี้อย่างเยือกเย็น มันน่าทึ่งและใช้ได้จริงในหลายด้าน แต่การปั่นกระแสแบบไร้ขอบเขตสุดท้ายมักเป็นผลดีกับผู้มีส่วนได้ส่วนเสียที่โยงกับการทำเงินไม่ทางตรงก็ทางอ้อมเท่านั้น
- มีการประเมินว่า Gary Marcus ไม่ได้ทำหน้าที่แบบ “ชวนมองความจริง” แต่เป็นคนประเภทที่สร้างชื่อจากการยืนฝั่งตรงข้ามกับกระแสหลักของ AI บทความนี้เองก็มีเหตุผลในตัว แต่ก็เป็นอีกตัวอย่างของการเปลี่ยนท่าทีจากอดีตที่เคยบอกว่างานวิจัยก่อนหน้าคือ “หมัดน็อก” สำหรับ LLM งานเขียนของเขาดูมีเหตุผลในผิวเผิน แต่ถ้าอ่านหลายชิ้นจะเห็นแนวโน้มที่สม่ำเสมอแบบหนึ่ง
- แม้แต่คนที่ลงทุนใน AI เองก็อาจมองว่ากระแสที่ร้อนแรงเกินไปมีประโยชน์ก็แค่กับพวก pump & dump หรือธุรกิจขายคอร์ส ขายที่ปรึกษาเท่านั้น ส่วนคนที่พยายามสร้างนวัตกรรมจริง ๆ มีโอกาสสูงที่จะต้องเจอกับฤดูหนาวของ AI ในไม่ช้า
- มีจุดยืนที่ระแวง LLM ตามสัญชาตญาณ ประสบการณ์ที่ผ่านมาในการให้มันช่วยเขียนโค้ด ส่วนใหญ่คุณภาพแย่มาก ตอนนี้จึงไม่ค่อยชอบและไม่ได้ใช้บ่อยนัก แต่ก็ยังคาดหวังว่าเมื่อเวลาผ่านไป มันจะพัฒนาเป็นเครื่องมือที่มีประโยชน์มาก ขณะเดียวกันก็มองว่า Marcus ไม่มีคุณสมบัติพอจะเข้าร่วมการถกเถียงนี้เลย เพราะสิ่งที่เขาพูดมีแต่คำพูดเกินจริงที่ไม่ก่อประโยชน์ต่อการถกเถียงจริง และกลับกลายเป็นการป้อนกระสุนให้ฝ่ายต่อต้าน AI มากเกินไป ถึงขั้นอธิบายว่าเป็น “respectability laundering: อ้างเขาเมื่อไร คำวิจารณ์ก็เหมือนดูชอบธรรมขึ้นเมื่อนั้น”
- อยากฟังคำวิจารณ์จากคนที่อย่างน้อยรู้ว่า test/train split ในแมชชีนเลิร์นนิงคืออะไร เพราะการที่คนซึ่งห่างไกลจากภาคสนาม ML ยุคปัจจุบันมาก ๆ ออกมาพูดถึงความสามารถของ AI นั้น กลับดูเป็นสัญลักษณ์ของความหวาดกลัว AI เสียมากกว่า
- มีการตั้งคำถามว่ามันมีประโยชน์จริงแค่ไหน ตลอดเวลากว่าหนึ่งปีมีคำพูดประมาณว่า “งานใช้ความรู้จะมีผลิตภาพเพิ่มขึ้น 10 เท่า” แต่แล้วผลงานที่เปลี่ยนโลกตามนั้นอยู่ที่ไหน มีชุดผลิตภัณฑ์ออฟฟิศแบบใหม่หรือไม่ มีแอปมือถือที่ถูกผลิตออกมาจำนวนมหาศาลหรือไม่ มีการปฏิวัติตลาดหนังสือหรือไม่ สุดท้ายแล้วนอกจากมีม Ghibli หรือคอนเทนต์แนว ‘RETURNS’ ก็ยังสงสัยว่ามีผลผลิตเชิงรูปธรรมอะไรจริงหรือเปล่า
หากอยากดูงานวิจัยต้นฉบับ มีการแชร์ ลิงก์ต้นฉบับ
- เพื่อใช้ค้นคว้าและอ้างอิง ยังมีการแนะนำ บทความวิจัย: The Illusion of Thinking – จุดแข็งและข้อจำกัดของโมเดลการให้เหตุผล (PDF) และ บทความวิจารณ์ A Knockout Blow for LLMs? พร้อมถามว่ามีแหล่งอื่นอีกหรือไม่
มีการกล่าวว่าในการสอบคณิตศาสตร์ การออกโจทย์แคลคูลัสไม่ได้มีไว้เพื่อดูว่านักเรียนคำนวณคำตอบได้หรือไม่ แต่เพื่อประเมินความเข้าใจเชิงแนวคิด ทีม Apple เองก็ต้องการดูว่า LLM เข้าใจปัญหา Hanoi ในเชิงแนวคิดหรือไม่ LLM อาจ “ดาวน์โหลด” โค้ดคำตอบได้ แต่เมื่อเจอปัญหาใหม่หรือสภาพแวดล้อมแบบพลวัต การดาวน์โหลดโค้ดโดยไม่เข้าใจแนวคิดย่อมมีข้อจำกัด อย่างไรก็ดี ในความเป็นจริง LLM ไม่ได้ดาวน์โหลดโค้ด แต่สามารถ “เขียน” เองได้ และถ้าผู้เข้าสอบเขียนโปรแกรมแคลคูลัสทั่วไปขึ้นมาได้เองในห้องสอบ นั่นยิ่งเป็นหลักฐานว่ามีความเข้าใจเชิงแนวคิดสูงกว่าเดิมด้วยซ้ำ
- มีความเห็นว่า ถ้าผู้เข้าสอบอาศัยเพียงการเปิดดูโน้ตเล็กน้อยเมื่อเทียบกับพารามิเตอร์ของ LLM ก็คงยังไม่น่าเชื่อถืออยู่ดี
มองว่าข้อความอ้างจากงานวิจัยของ Salesforce ที่ว่า "เอเจนต์แทบไม่มีความสามารถในการเก็บความลับเลย" เป็นประเด็นสำคัญ
มีการยกตัวอย่างว่าเมื่อมนุษย์สร้างเครื่องบิน ก็มีคนบอกว่า “มันไม่ใช่นก” และเมื่อสร้างเรือดำน้ำ ก็มีคนบอกว่า “มันไม่ใช่ปลา” แต่ความก้าวหน้าก็ยังเดินหน้าต่อไป ประเด็นสำคัญคือจะรีบเรียนรู้และใช้ประโยชน์จากศักยภาพของเครื่องมือนี้ หรือจะยอมตามหลัง พร้อมทิ้งข้อคิดว่า การมี “ท่าทีพร้อมเรียนรู้” น่าจะช่วยให้ปรับตัวกับอนาคตได้จริง มากกว่าการฟังคำปฏิเสธไม่รู้จบจากคนเดิม ๆ