ภาพลวงของการคิด: ทำความเข้าใจข้อจำกัดของ LLM สำหรับการให้เหตุผล

(ml-site.cdn-apple.com)

21 คะแนน โดย GN⁺ 2025-06-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลการให้เหตุผลขนาดใหญ่ (Large Reasoning Models, LRMs) แสดงให้เห็นถึงการปรับปรุงประสิทธิภาพในระดับหนึ่งในการแก้ปัญหาที่ซับซ้อน แต่ก็เผยให้เห็นอย่างชัดเจนถึง ข้อจำกัดเชิงพื้นฐานและปัญหาด้านการขยายขนาด
LRMs แสดงปรากฏการณ์ที่ กระบวนการให้เหตุผลพังทลายลงอย่างรวดเร็วเมื่อความยากของปัญหาเพิ่มขึ้น และจากการวิเคราะห์ยังพบปรากฏการณ์ย้อนแย้งที่เมื่อความพยายามในการให้เหตุผล (ปริมาณโทเค็นที่ใช้) เกินจุดวิกฤตกลับลดลงแทน
เมื่อ เปรียบเทียบ LLM มาตรฐานกับ LRMs ภายใต้ทรัพยากรการประมวลผลเท่ากัน พบว่าในโจทย์ง่าย LLM มาตรฐานทำได้ดีกว่า, ในระดับความยากปานกลาง LRMs ได้เปรียบ, และในโจทย์ยากมากทั้งสองแบบล้มเหลวทั้งหมด
LRMs มีข้อจำกัดอย่างชัดเจนในการให้เหตุผลเชิงอัลกอริทึมแบบชัดแจ้งและในกระบวนการคิดที่สม่ำเสมอ โดยแสดงพฤติกรรมที่แตกต่างหรือไม่สอดคล้องกันไปตามสภาพแวดล้อมของปริศนาแต่ละแบบ
งานวิจัยนี้ยืนยันถึง ปัญหาความน่าเชื่อถือและข้อจำกัดด้านการขยายขนาดของโมเดลให้เหตุผลในปัจจุบัน และชี้ว่าการออกแบบ AI รุ่นถัดไปจำเป็นต้องมีการประเมินที่แม่นยำและการปรับปรุงสถาปัตยกรรม
งานวิจัยของ Apple เรื่อง "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"

ภาพรวมและวัตถุประสงค์ของงานวิจัย

การปรากฏขึ้นของ โมเดลเฉพาะทางด้านการให้เหตุผลบนฐาน LLM ขนาดใหญ่ (LRMs) ในช่วงหลัง ทำให้เกิดความจำเป็นในการศึกษาว่าโครงสร้างของ “การคิด” และข้อจำกัดของโมเดลเหล่านี้ในการแก้ปัญหาเป็นอย่างไร
ปัจจุบันการประเมินส่วนใหญ่ยังอิงกับอัตราคำตอบถูกบนเบนช์มาร์กคณิตศาสตร์และโค้ดดิ้ง ซึ่งไม่สามารถวัดได้อย่างแม่นยำทั้งปัญหาการปนเปื้อนของข้อมูลและคุณภาพของกระบวนการ “คิด” ภายใน
งานวิจัยนี้จึงออกแบบสภาพแวดล้อมแบบปริศนาที่ สามารถควบคุมระดับความซับซ้อนได้อย่างละเอียดโดยคงโครงสร้างเชิงตรรกะไว้ เพื่อให้วิเคราะห์ได้ไม่เพียงผลลัพธ์สุดท้าย แต่รวมถึง ลำดับการให้เหตุผลภายใน ด้วย

สภาพแวดล้อมการประเมินและวิธีการทดลอง

การออกแบบสภาพแวดล้อมแบบปริศนา

ใช้สภาพแวดล้อมแบบปริศนา 4 แบบต่อไปนี้เพื่อควบคุมการทดลองและปรับระดับความซับซ้อนอย่างเป็นระบบ
- หอคอยฮานอย: ปรับความยากด้วยจำนวนแผ่น โดยไม่ประเมินว่าเป็นคำตอบที่เหมาะที่สุดหรือไม่ แต่ตัดสินจากการไปถึงสถานะเป้าหมาย
- หมากกระโดดสลับตำแหน่ง: ควบคุมความซับซ้อนด้วยจำนวนหมากสีแดง สีน้ำเงิน และช่องว่าง โดยมีเป้าหมายสุดท้ายคือสลับตำแหน่งกันให้สำเร็จ
- ข้ามแม่น้ำ: ปรับความยากด้วยจำนวนคู่ผู้กระทำ-เอเจนต์และความจุของเรือ โดยต้องย้ายทั้งหมดภายใต้เงื่อนไขข้อจำกัด
- โลกของบล็อก: ปรับด้วยจำนวนบล็อก โดยย้ายจากสถานะตั้งต้นไปยังสถานะการเรียงซ้อนตามเป้าหมาย

แต่ละสภาพแวดล้อมสามารถเพิ่มความซับซ้อนได้อย่างละเอียดผ่านการปรับจำนวนองค์ประกอบของปริศนา

ผลการทดลองสำคัญ

1. รูปแบบการให้เหตุผล 3 แบบตามระดับความซับซ้อน

ความซับซ้อนต่ำ: LLM มาตรฐาน มีประสิทธิภาพมากกว่า (ประหยัดโทเค็นกว่า) LRMs และในหลายกรณีก็มีอัตราคำตอบถูกสูงกว่า
ความซับซ้อนปานกลาง: กระบวนการคิดที่ยาวขึ้น (Chain-of-Thought) และการไตร่ตรองตนเองของ LRMs แสดงข้อได้เปรียบด้านประสิทธิภาพ
ความซับซ้อนสูง: โมเดลทั้งสองแบบ เกิดการพังทลายของประสิทธิภาพทันที (อัตราคำตอบถูกเป็น 0) และยังพบว่าที่จุดนี้ LRMs ใช้โทเค็นเพื่อการให้เหตุผลลดลงด้วย ซึ่งเป็นความไร้ประสิทธิภาพอีกรูปแบบหนึ่ง

2. การวิเคราะห์เชิงลึกของร่องรอยการคิด (Reasoning Trace)

“คิดมากเกินไป (overthinking)”: ในปัญหาความซับซ้อนต่ำ LRMs มักพบคำตอบที่ถูกตั้งแต่ช่วงต้น แต่หลังจากนั้นกลับทำการสำรวจที่ผิดซ้ำ ๆ ต่อไป แสดงรูปแบบของ การสิ้นเปลืองการประมวลผลโดยไม่จำเป็น
ความยากปานกลาง: หลังตรวจพบคำตอบผิด โมเดลค่อย ๆ เข้าใกล้คำตอบที่ถูก แต่ต้องใช้กระบวนการสำรวจมากขึ้นกว่าก่อนหน้า
ความยากสูง: ยืนยันการเกิด ภาวะพังทลาย ที่ไม่สามารถสร้างคำตอบที่ถูกต้องได้ตลอดทั้งกระบวนการให้เหตุผล

3. ข้อจำกัดในการรันอัลกอริทึม

แม้จะ ให้ชุดอัลกอริทึมที่กำหนดไว้ผ่านพรอมป์ต์ โมเดลก็ยังไม่สามารถรันตามนั้นได้อย่างน่าเชื่อถือแม้แต่ในระดับพื้นฐาน
สิ่งนี้ชี้ให้เห็นถึง การขาดความสามารถพื้นฐานในการจัดการสัญลักษณ์ ที่จำเป็นต่อการปฏิบัติตามโครงสร้างเชิงตรรกะอย่างถูกต้อง ไม่ใช่แค่การ “หาคำตอบ” เท่านั้น

4. ปัญหาเบนช์มาร์กและการปนเปื้อนของข้อมูล

บนเบนช์มาร์กคณิตศาสตร์เดิม (MATH500, AIME24, AIME25) พบว่า ช่องว่างด้านประสิทธิภาพระหว่างโมเดลแบบคิดและไม่คิดไม่สม่ำเสมอ
ในกรณีของ AIME25 ยังเผยให้เห็นข้อจำกัดที่ทำให้ประเมินความสามารถการให้เหตุผลที่แท้จริงของโมเดลได้ยาก เนื่องจากความเป็นไปได้ของการปนเปื้อนของข้อมูล

บทสรุปของงานวิจัยและนัยสำคัญ

งานวิจัยนี้นำเสนอ สภาพแวดล้อมการประเมินเชิงละเอียดบนฐานปริศนา เพื่อวิเคราะห์เชิงประจักษ์อย่างลึกซึ้งว่า LLM สำหรับการให้เหตุผลมีความสามารถในการคิดจริงหรือไม่ และข้อจำกัดของมันปรากฏขึ้นตรงจุดใด
โมเดลให้เหตุผลที่มีอยู่ในปัจจุบันมี ข้อจำกัดเชิงพื้นฐานที่พังทลายลงโดยสิ้นเชิงเมื่อเกินระดับความซับซ้อนบางจุด และปัญหานี้ไม่สามารถแก้ได้ด้วยงบประมาณโทเค็นหรือการเพิ่ม self-reflection แบบง่าย ๆ

ตั้งคำถามต่อ ข้อจำกัดของวิธีประเมินแบบเดิม และเสนอแนวทางสภาพแวดล้อมการวัดผลแบบห้องปฏิบัติการ
แม้แต่โมเดลให้เหตุผลระดับ SOTA ในปัจจุบันก็ยัง ไม่สามารถบรรลุความสามารถในการแก้ปัญหาแบบทั่วไปได้
มี ข้อจำกัดด้านการสเกลของการใช้โทเค็นเพื่อการให้เหตุผลตามความซับซ้อน
เสนอการประเมินแบบ อิงร่องรอยกระบวนการคิด (trace) เพื่อวิเคราะห์กลไกการแก้ไขตนเองและการค้นหาความผิดพลาด
พบ ความล้มเหลวและความไม่สม่ำเสมอในการรันอัลกอริทึมแบบชัดแจ้ง

ผลลัพธ์นี้ตอกย้ำความสำคัญของการออกแบบ AI รุ่นถัดไป การประเมินความน่าเชื่อถือ และการวัดสมรรถนะของโมเดลในสภาพแวดล้อมที่หลีกเลี่ยงปัญหาการปนเปื้อนของข้อมูล

แนวโน้มงานวิจัยที่เกี่ยวข้อง

มีความพยายามหลากหลายในการเสริมความสามารถด้านการให้เหตุผล เช่น CoT (Chain-of-Thought), เทคนิคการตรวจสอบตนเอง, และการกระตุ้นการคิดด้วยการเรียนรู้เสริมกำลัง
ความยากในการได้มาซึ่งข้อมูล CoT คุณภาพสูง และข้อจำกัดของแนวทาง supervised/RL เริ่มเด่นชัดขึ้น
ตัวอย่างเด่น ได้แก่ DeepSeek-R1, Claude 3.7 Sonnet Thinking
มีการตั้งคำถามต่อปัญหา “การคิดมากเกินไป” (overthinking) และความน่าเชื่อถือของตัวชี้วัดจากการปนเปื้อนของเบนช์มาร์ก
ย้ำความจำเป็นของ การประเมินบนฐานสภาพแวดล้อมแบบปริศนาที่ควบคุมความซับซ้อนของปัญหาได้อย่างละเอียด

งานต่อไปและข้อจำกัด

จำเป็นต้องมีการศึกษาต่อเกี่ยวกับ ข้อจำกัดเชิงพื้นฐานของโมเดลให้เหตุผลในการทำตามตรรกะอย่างชัดแจ้ง/การจัดการสัญลักษณ์
แม้พิจารณาเป็นรายกรณีของ สภาพแวดล้อมแบบปริศนา ก็ยังพบว่าพฤติกรรมของโมเดลไม่สม่ำเสมอ (เช่น ความต่างของประสิทธิภาพระหว่างหอคอยฮานอยกับโจทย์ข้ามแม่น้ำ) ซึ่งบ่งชี้ถึงความเป็นไปได้ของข้อจำกัดในการให้เหตุผลที่อิงข้อมูล
ในการออกแบบระบบ AI จำเป็นอย่างยิ่งที่จะต้องมีการตรวจสอบเชิงละเอียดที่รวมถึง ลำดับการให้เหตุผลระหว่างทางและความสอดคล้องทางตรรกะ

การวิเคราะห์นี้ให้ข้อคิดสำคัญไม่เพียงต่อการใช้งานจริง แต่ยังรวมถึงการออกแบบและระบบการประเมิน AI สำหรับการให้เหตุผลรุ่นถัดไปด้วย

1 ความคิดเห็น

GN⁺ 2025-06-07

ความเห็นจาก Hacker News

ผมคิดว่านี่เป็นหนึ่งในเหตุผลที่ทำให้เรารู้สึกสับสน เพราะ LLM ใช้ภาษา และเมื่อดู ‘Biology of Large Language Models’ กับ ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’ จะเห็นว่ากระบวนการที่เกิดขึ้นข้างในนั้นต่างจากมนุษย์โดยสิ้นเชิง จึงมีหลายส่วนที่ทำให้ผลลัพธ์ดูแปลกและไม่คุ้นเคย
แม้จะคิดเรื่องการออกแบบระบบด้วยเทคโนโลยี หรือโครงสร้างที่ทำให้ทั้งระบบให้ผลลัพธ์มากกว่าผลรวมของแต่ละส่วน ก็ยังยากมากที่จะเข้าใจขีดความสามารถของสิ่งเหล่านี้อย่างชัดเจน
ต่อให้รู้หลักการทำงานอยู่บ้าง ก็ยังมีความประหลาดแบบที่ทำให้รู้สึกราวกับเป็นเวทมนตร์ เมื่อเห็นมันจัดการกับภาษา
เลยเขียนบทความนี้ขึ้นมาเพื่อจัดระเบียบความคิด
ผมคิดว่างานวิจัยแบบนี้ยอดเยี่ยมมาก และต่อจากนี้เราจำเป็นต้องพยายามทำความเข้าใจให้มากขึ้นอีกมาก ว่าจะใช้โทเคนให้ดีและสร้างระบบให้ถูกต้องได้อย่างไร
[ลิงก์อ้างอิง]
- Biology of Large Language Models
- Safety Alignment Should Be Made More Than Just a Few Tokens Deep
- ผมเข้าใจความคิดที่อยากสร้างโครงสร้างซึ่งทั้งระบบมีค่ามากกว่าผลรวมของแต่ละส่วน และส่วนตัวมองว่าการเขียนโปรแกรมเองก็ทำหน้าที่แบบนั้น
  ถ้าแยกงานหรือปัญหาออกเป็นหน่วยเล็ก ๆ ที่มีปฏิสัมพันธ์กันน้อยที่สุด ก็จะเกิดโครงสร้างที่การรวมกันของมันสร้างผลลัพธ์ที่ใหญ่กว่าเดิม
  และผมเชื่อว่าถ้าหลอมแนวคิดนี้เข้าไปใน workflow ของการเขียนโปรแกรมได้ดี แม้แต่ LLM ที่ประสิทธิภาพไม่สูงนักก็สามารถถูกใช้เป็นส่วนหนึ่งของทางแก้ได้อย่างเป็นธรรมชาติ
- ในทางกลับกัน ผมก็คิดได้เหมือนกันว่าทั้งระบบอาจแย่กว่าทุกส่วนประกอบของมันก็ได้
  แต่ละงานอาจทำได้ดีเมื่อแยกกัน แต่พอรวมกันแล้วกลับพันกันยุ่ง
  แม้จะเป็นสิ่งที่คงพัฒนาได้ในอนาคต แต่เพราะเราไม่อาจทำให้ทุกปัญหาถูก optimize ได้ทั้งหมด วิธีที่เฉพาะทางกว่าอาจมีประสิทธิภาพมากกว่าในท้ายที่สุด
ภาษามนุษย์เองก็ไม่ได้สมบูรณ์แบบในฐานะเครื่องมือทางการรับรู้ แต่ผมเชื่อว่ามันถูกใช้งานได้ดีในชั้นบน ไม่ใช่ในระดับรากฐาน เช่น การสื่อสารหรือการให้เหตุผลระดับสูง
ภาษามนุษย์นั้นกำกวมและไม่สมบูรณ์โดยธรรมชาติ จึงรู้สึกว่าไม่เพียงพอจะสร้างการรับรู้ที่แข็งแรงได้ เมื่อเทียบกับวิธีที่โต้ตอบกับสภาพแวดล้อมโดยตรง
ดังนั้นถ้าใช้เพียงความคล่องทางภาษาและความสามารถในการดึงความรู้ของโมเดล LLM/LRM มาเป็นมาตรวัดสติปัญญา ก็หลงเชื่อได้ง่ายมาก
ผมคิดว่าไอเดียการนำสภาพแวดล้อมแบบปริศนาที่ปรับระดับความยากได้อย่างเป็นระบบมาใช้ แทน benchmark แบบเดิม ๆ อย่างโจทย์คณิตศาสตร์นั้นเฉียบมาก
การวิเคราะห์ช่วงสมรรถนะสามระดับก็น่าสนใจ คือ โมเดลดั้งเดิมทำได้ดีในงานง่าย ๆ, LRM ทำได้ดีในความซับซ้อนระดับกลาง, และเมื่อความยากสูงมากทุกโมเดลก็พังหมด
ผมรู้สึกว่าเราจำเป็นต้องวาด ‘แผนที่(map)’ ของช่วงความซับซ้อนเหล่านี้ให้มากกว่านี้
และก็อยากรู้ว่ามูลค่าทางเศรษฐกิจกับช่วงความซับซ้อนนั้นเชื่อมโยงกันอย่างไร
เพื่อจะตอบคำถามนี้ ผมคิดว่าเราต้องมีวิธีประเมินที่ประณีตกว่าปริศนาทั่วไป และนำไปใช้กับงานเศรษฐกิจจริงได้ด้วย
ผมคิดว่าสัญชาตญาณหลักที่ผู้เขียนพยายามสื่อคือความเชื่อว่าโมเดลเป็นสิ่งที่ ‘รอบรู้แต่ขาดไหวพริบ’
ผมไม่เคยเห็นงานวิจัยที่จัดการกับคำถามนี้ในเชิงปริมาณได้ดีจริง ๆ ดังนั้นงานนี้เองก็คงยากที่จะทำให้ทุกคนเห็นตรงกัน
ฝ่ายมองบวกต่อ AI เชื่อว่าความโง่ของโมเดลลดลงแล้ว ขณะที่ฝ่ายสงสัยคิดว่าแค่มีความรู้มากขึ้นเท่านั้น จึงยากที่ช่องว่างของจุดยืนจะหดแคบลง
ถึงอย่างนั้นผมก็คิดว่าเราควรถกเรื่องนี้ต่อไป
เพราะถ้าโมเดลรอบรู้แต่โง่ มันก็ยากที่จะไปถึง superintelligence (ASI) ได้ และอาจทำได้แค่บทบาทผู้ช่วยระดับ SaaS แบบเดิม ซึ่งทำให้ผลกระทบทางเศรษฐกิจมีขอบเขตจำกัด
หวังว่าวันหนึ่งผู้เขียนจะสามารถแก้ปัญหานี้ได้อย่างยอดเยี่ยม
- เราชอบติดคำคุณศัพท์แบบมนุษย์ให้เทคโนโลยีนี้อยู่เรื่อย ๆ เช่น รอบรู้ โง่ ฯลฯ จนเผลอทำให้มันมีบุคลิก ทั้งที่จริงผมมองว่ามันเป็นเพียงเครื่องมือบริสุทธิ์ที่ไม่มีอะไรแบบนั้นเลย
  สิ่งที่ LRM ทำก็แค่ปรับแต่งข้อมูลบริบท (ข้อมูลที่มันสร้างขึ้นเอง) เพื่อให้ได้คำตอบสุดท้าย
  แม้กระบวนการนี้จะเป็นไอเดียที่ยอดเยี่ยม แต่ก็ยังไม่สามารถแก้ข้อจำกัดพื้นฐานอย่างปัญหา hallucination ได้
  ผมยังเคยเห็นระหว่างบทสนทนาว่าโมเดลเริ่มต้นด้วยเหตุผลที่เกือบถูกต้อง แต่พอมีการปฏิเสธตัวเองแบบ ‘เดี๋ยวก่อน!’ ต่อเนื่อง ผลลัพธ์กลับพังลง
  การยัดเยียดคุณลักษณะแบบมนุษย์มากเกินไปแบบนี้ มีแต่จะกลายเป็นการโหมตลาดเกินจริงและขัดขวางการพัฒนา
  ท้ายที่สุดเทคโนโลยีนี้ไม่ใช่ปัญญาประดิษฐ์ที่แท้จริง แต่เป็นเอนจินจับคู่รูปแบบขนาดใหญ่และสร้างข้อมูลเชิงความน่าจะเป็น
  มันยังใช้งานได้จริงอยู่มาก แต่ถ้าใส่ความเป็นมนุษย์ให้มันมากเกินไป การถกเถียงก็จะยิ่งขุ่นมัว
- ผมมีทั้งความคาดหวังและความกลัวต่อ AI พร้อมกัน เพราะในช่วงไม่กี่ปีที่ผ่านมา AI ไม่ได้ ‘ฉลาด’ ขึ้นมากนัก แต่ความสามารถเชิงใช้งานจริงพัฒนาขึ้นอย่างมหาศาล
  ความสามารถในการใช้ความรู้ เครื่องมือ และบริบทเพิ่มขึ้นมาก
  เพราะฉะนั้นสิ่งที่ผมกลัวที่สุดคือสถานะที่ ‘ความสามารถด้านการให้เหตุผล/agency’ กำลังรอการปลดล็อก
  กล่าวคือ จากการมีความรู้เกือบครอบจักรวาล อาจเหลือแค่หนึ่งหรือสอง breakthrough ที่จะทำให้มันสามารถตัดสินใจเชิงกลยุทธ์อย่างแม่นยำได้จริงแบบขนาน
  ถ้าสองอย่างนั้นมารวมกัน ผลลัพธ์จะน่ากลัวมาก
  เพราะอาจมี AI ที่ชี้นำกระแสความคิดของผมได้เลย เหมือนกำลังคุยกับอัจฉริยะที่มองเกมล่วงหน้ากว่ามนุษย์ 6 ตา
  นักวิจัย AI แนวหน้าตอนนี้ก็ยกให้ reasoning+agency เป็นโจทย์สำคัญที่สุด จึงอาจเห็นความคืบหน้าเร็วก็ได้
  ทุกวันนี้ LLM เก่งมากในเรื่องการตัดสินแบบฉับพลัน แต่
  1. การให้เหตุผล/วางกลยุทธ์แบบเป็นลำดับขั้นที่ยาวจริง ๆ
  2. การลงมือเชิงกลยุทธ์จากการให้เหตุผลอย่างฉับไว (ระดับเดียวกับที่ผู้เชี่ยวชาญนึกคำตอบออกได้ทันทีจากสัญชาตญาณ)
    ยังขาดอยู่ทั้งคู่
    การแก้ปัญหานี้อาจต้องการ reasoning แบบ system 2 อย่างแท้จริง (ส่วน ‘system 1’ คือ transformer ปัจจุบัน) หรืออาจเป็นแค่การทำให้มันเรียนรู้ ‘สัญชาตญาณเชิงกลยุทธ์’ ได้เร็วขึ้นด้วยข้อมูลและอัลกอริทึมที่ดีกว่า
    แน่นอนว่าก็อาจเป็นเพราะปัญหายากเกินไป ต้องผ่านอุปสรรคหลายขั้น หรืออาจต้องใช้พลังประมวลผลมากมหาศาล
    ดังนั้นผมไม่ได้มั่นใจ แต่ก็กลัวมากว่าสุดท้ายจะเกิดความก้าวหน้าที่ทรงพลังจริง ๆ
- ผมก็ไม่เห็นเหตุผลเหมือนกันว่าทำไมสิ่งมีชีวิตที่รอบรู้แต่โง่จะต้องหยุดอยู่แค่ระดับสติปัญญาของมนุษย์
ผมสงสัยว่า Apple กำลังล้มเหลวในเรื่อง AI จริง ๆ หรือแค่เปลี่ยนทิศทาง R&D ไปในทางที่เชื่อว่า AI ไม่ได้สำคัญขนาดนั้นสำหรับตัวเอง
- เมื่อมองปรากฏการณ์ที่ฟีเจอร์ AI ถูกยัดเข้าไปในสินค้า consumer จำนวนมากช่วงนี้ มันดูเหมือนต้องการอวดศักยภาพทางเทคโนโลยีให้กับนักลงทุนมากกว่าจะทำเพื่อผู้ใช้
  ในความเป็นจริง ทั้ง Apple, Google, Meta, Microsoft, Samsung ต่างก็โหมการตลาดฟีเจอร์ AI ที่ยังต่ำกว่าความคาดหวัง แต่ผลงานจริงกลับไม่ดีนัก
  ดังนั้นการที่ Apple กำลังคิดหาทิศทางใหม่ อาจเป็นสัญญาณเชิงบวกก็ได้
- ถ้ามองแบบประชดน้อยลงหน่อย มันอาจเป็นความพยายามลดความคาดหวังเพื่อไม่ให้มีการประเมินความเป็นไปได้จริงของ LLM สูงเกินไป
  ต่อให้เป็น ‘Siri ที่ฉลาดขึ้น’ บนผลิตภัณฑ์ Apple ก็ยังไปไม่ถึงผู้ช่วย AI แท้จริงแบบ Jarvis ของ Iron Man อยู่ดี
  ในทางกลับกัน บรรยากาศของนักลงทุนกลับดูคาดหวังเกินจริงกว่านั้นมาก
  แต่ถ้ามองแบบประชดมากขึ้น ผมคิดว่า Apple มีประวัติยาวนานในการกลบจุดอ่อนด้าน machine learning ของตัวเอง
  ตัวอย่างเช่น ตอนที่ Siri ตามหลัง Google มาก ก็มีการอธิบายย้อนหลังว่าเป็นเพราะปกป้องข้อมูลจึงฝึกโมเดลไม่ได้
  งานวิจัยที่เกี่ยวข้อง
- ผมคิดว่าทุกบริษัทต่างก็มีกรอบเล่าเรื่องของตัวเอง
  OpenAI กับ Anthropic เองก็มีแรงจูงใจที่จะโปรโมตความสามารถของ LLM เกินจริงเหมือนกัน ดังนั้นจะไปกล่าวหาว่า Apple ลำเอียงอยู่ฝ่ายเดียวก็คงไม่ได้
จากที่งานวิจัยทดลองกับสภาพแวดล้อมแบบปริศนาหลากหลายและซับซ้อน ผมรู้สึกเห็นด้วยมากกับข้อสรุปว่าเมื่อเกินระดับความยากหนึ่งไปแล้ว LRM จะล้มเหลวโดยสิ้นเชิง และยังมีข้อจำกัดประหลาดที่เมื่อความซับซ้อนของปัญหาเพิ่มขึ้น ความพยายามในการให้เหตุผลจะเพิ่มขึ้นช่วงสั้น ๆ ก่อนจะกลับลดลงเสียเอง
ผมเจอประสบการณ์เดียวกันตอนเขียนโค้ด คือช่วงแรกยังค่อย ๆ ทำให้ซับซ้อนขึ้นได้ แต่พอข้ามจุดหนึ่งไปแล้วมันจะพังทั้งระบบจนเหมือนไม่กล้าลองต่อด้วยซ้ำ
ถ้าอยากใช้ LLM อย่าง Claude หรือ aider ให้ได้ผลจริง การควบคุมความซับซ้อนของปัญหาที่ป้อนให้โมเดลรับมือจึงสำคัญมาก
มันทำให้นึกถึงช่วงหนึ่งที่บรรยากาศการถกเรื่อง AGI (ปัญญาประดิษฐ์ทั่วไป) เหมือนกำลังจะมาถึงในเร็ววันอย่างมาก
รู้สึกว่า Gartner hype cycle จับรูปแบบการไหลของเทคโนโลยีได้แม่นจริง ๆ
- เมื่อความก้าวหน้าทางเทคโนโลยีเดินเป็นเส้นโค้งรูปตัว S ช่วงก่อนจะหักหัวลงมักพุ่งขึ้นแรงมาก จึงคาดเดาได้ยากมากว่ามันจะเริ่มชะลอเมื่อไร
  ตอน Boeing 747 ลำแรกออกมาในปี 1968 คงไม่มีใครจินตนาการว่าหลังจากนั้นอุตสาหกรรมการบินจะนิ่งอยู่แบบไม่มีการเปลี่ยนแปลงใหญ่ไปอีกกว่าครึ่งศตวรรษ
- สถานการณ์เหมือนรถยนต์ขับเคลื่อนอัตโนมัติเป๊ะ
  เหมือนจะมาถึง ‘ตรงหน้า’ แล้ว แต่ก็ยังเลี้ยว ‘ผ่านมุม’ นั้นไปไม่ได้เสียที
- จริง ๆ แล้วบรรยากาศแบบ AGI ‘ใกล้แค่เอื้อม’ นี้ก็เป็นเรื่องเมื่อแค่ 2 ปีก่อนเอง
  ถ้าจะไปจาก GPT2 ถึง AGI ในเวลาเพียง 10 ปี มันก็ยังนับว่าเร็วอย่างมหาศาลอยู่ดี
- ผมรู้สึกว่าเทคโนโลยีคืบหน้าไปแล้วราว 80% แต่ส่วนที่ง่ายทำไปหมดแล้ว และ 20% ที่เหลือนี้ยากมากจนกินเวลาเป็นปี ๆ
- AGI นั้นตั้งแต่มีคอมพิวเตอร์มาก็ถูกพูดอยู่เรื่อย ๆ ว่า ‘ใกล้จะมาแล้ว’
  ปัญหาบางอย่าง (เช่น machine translation) ดูเหมือนแก้ได้ในทางปฏิบัติ ก็เพราะเราค่อย ๆ ลดมาตรฐานคำว่า ‘แก้ได้’ ลง ไม่ใช่เพราะเราเข้าใกล้ AGI อย่างแท้จริง
  ตัว AGI เองก็คล้ายความเชื่อวันสิ้นโลกแบบ世俗อย่างหนึ่ง
ผมคิดว่าสภาพแวดล้อมแบบปริศนาอย่าง Tower of Hanoi, Checkers Jumping, River Crossing, Block World ถ้าอนุญาตให้เขียนโค้ดได้จริง LLM ทุกตัวก็น่าจะแก้ได้สมบูรณ์แบบ
แม้มองในฝั่งมนุษย์เอง ถ้าให้คูณเลข 20 หลักด้วยมือก็ผิดพลาดกันได้ง่าย ดังนั้นผมไม่คิดว่าการที่ LLM ทำไม่ได้จะเป็นปัญหาอะไร
- มนุษย์สามารถออกแบบขีปนาวุธหรือวิศวกรรมความแม่นยำสูงได้แม้ไม่มีคอมพิวเตอร์ และถ้าลงเวลา กลยุทธ์ ความพยายามเพิ่ม หรือใช้เครื่องมืออย่างกระดาษ สุดท้ายก็แก้ปัญหาได้
  สมองมนุษย์ไม่ได้ถูกออกแบบมาเพื่อการคำนวณแบบนี้โดยตรง แต่จุดแข็งของสติปัญญาทั่วไปคือมันหาทางจัดการได้ด้วยวิธีของตัวเองไม่ทางใดก็ทางหนึ่ง
- ขอแนะนำงานวิจัย framework ใหม่ที่ให้ LLM ทำหน้าที่เป็น ‘ครูนโยบาย’ สำหรับการฝึก RL agent
  แนวคิดคือใช้คำแนะนำจากครู LLM เพื่อฝึก student RL agent ขนาดเล็กอย่างรวดเร็ว แล้วให้มันเรียนรู้เพิ่มเติมจาก feedback ของสภาพแวดล้อม จนท้ายที่สุดตัว student สามารถทำภารกิจได้ดีกว่าครูเสียอีก
  งานวิจัยที่เกี่ยวข้อง
- ผมคิดว่าที่ LLM ทุกตัวแก้ปัญหาแนวนี้ได้ดีก็อาจเป็นเพราะมีตัวอย่างคำตอบจำนวนมหาศาลถูกเก็บอยู่ใน codebase อยู่แล้ว
- เหตุผลที่มนุษย์ทำไม่ได้กับเหตุผลที่ LLM ทำไม่ได้ เป็นคนละเรื่องกันโดยสิ้นเชิง
  LLM มักจะทำการคูณเองได้ไม่ดีจริง ๆ ส่วนมนุษย์ส่วนใหญ่แค่ไม่อยากทำมากกว่า
ผมสนใจประโยคในงานวิจัยที่ว่า ‘การคำนวณที่แม่นยำนั้นยาก และการให้เหตุผลมีความไม่สม่ำเสมอไปตามปริศนาแต่ละประเภท’
ผมคิดว่า LLM/LRM ควรได้รับความช่วยเหลือจาก logic, optimization, constraint programming (IA) ซึ่งเป็นญาติใกล้ชิดของ automation ด้าน AI
สำหรับข้อมูลอ้างอิง ขอแนะนำ การบรรยายร่วมของ John Hooker จาก CMU, การบรรยายของ Gerald Sussman จาก MIT, Google OR-Tools, แพลตฟอร์ม MiniZinc
ผมรู้สึกว่าผลการวิจัยที่บอกว่า ในงานที่ง่ายที่สุด LLM ทำได้ดี, ในความซับซ้อนระดับกลาง LRM ทำได้ดี, และในระดับยากมากทุกตัวล้มเหลวนั้นน่าประทับใจมาก
- ให้ความรู้สึกเหมือนมีการเหน็บแนมนิด ๆ แต่ก็อธิบายให้ชัดเจนยากเหมือนกัน