ภาพลวงของการคิด: ทำความเข้าใจข้อจำกัดของ LLM สำหรับการให้เหตุผล
(ml-site.cdn-apple.com)- โมเดลการให้เหตุผลขนาดใหญ่ (Large Reasoning Models, LRMs) แสดงให้เห็นถึงการปรับปรุงประสิทธิภาพในระดับหนึ่งในการแก้ปัญหาที่ซับซ้อน แต่ก็เผยให้เห็นอย่างชัดเจนถึง ข้อจำกัดเชิงพื้นฐานและปัญหาด้านการขยายขนาด
- LRMs แสดงปรากฏการณ์ที่ กระบวนการให้เหตุผลพังทลายลงอย่างรวดเร็วเมื่อความยากของปัญหาเพิ่มขึ้น และจากการวิเคราะห์ยังพบปรากฏการณ์ย้อนแย้งที่เมื่อความพยายามในการให้เหตุผล (ปริมาณโทเค็นที่ใช้) เกินจุดวิกฤตกลับลดลงแทน
- เมื่อ เปรียบเทียบ LLM มาตรฐานกับ LRMs ภายใต้ทรัพยากรการประมวลผลเท่ากัน พบว่าในโจทย์ง่าย LLM มาตรฐานทำได้ดีกว่า, ในระดับความยากปานกลาง LRMs ได้เปรียบ, และในโจทย์ยากมากทั้งสองแบบล้มเหลวทั้งหมด
- LRMs มีข้อจำกัดอย่างชัดเจนในการให้เหตุผลเชิงอัลกอริทึมแบบชัดแจ้งและในกระบวนการคิดที่สม่ำเสมอ โดยแสดงพฤติกรรมที่แตกต่างหรือไม่สอดคล้องกันไปตามสภาพแวดล้อมของปริศนาแต่ละแบบ
- งานวิจัยนี้ยืนยันถึง ปัญหาความน่าเชื่อถือและข้อจำกัดด้านการขยายขนาดของโมเดลให้เหตุผลในปัจจุบัน และชี้ว่าการออกแบบ AI รุ่นถัดไปจำเป็นต้องมีการประเมินที่แม่นยำและการปรับปรุงสถาปัตยกรรม
- งานวิจัยของ Apple เรื่อง "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"
ภาพรวมและวัตถุประสงค์ของงานวิจัย
- การปรากฏขึ้นของ โมเดลเฉพาะทางด้านการให้เหตุผลบนฐาน LLM ขนาดใหญ่ (LRMs) ในช่วงหลัง ทำให้เกิดความจำเป็นในการศึกษาว่าโครงสร้างของ “การคิด” และข้อจำกัดของโมเดลเหล่านี้ในการแก้ปัญหาเป็นอย่างไร
- ปัจจุบันการประเมินส่วนใหญ่ยังอิงกับอัตราคำตอบถูกบนเบนช์มาร์กคณิตศาสตร์และโค้ดดิ้ง ซึ่งไม่สามารถวัดได้อย่างแม่นยำทั้งปัญหาการปนเปื้อนของข้อมูลและคุณภาพของกระบวนการ “คิด” ภายใน
- งานวิจัยนี้จึงออกแบบสภาพแวดล้อมแบบปริศนาที่ สามารถควบคุมระดับความซับซ้อนได้อย่างละเอียดโดยคงโครงสร้างเชิงตรรกะไว้ เพื่อให้วิเคราะห์ได้ไม่เพียงผลลัพธ์สุดท้าย แต่รวมถึง ลำดับการให้เหตุผลภายใน ด้วย
สภาพแวดล้อมการประเมินและวิธีการทดลอง
การออกแบบสภาพแวดล้อมแบบปริศนา
- ใช้สภาพแวดล้อมแบบปริศนา 4 แบบต่อไปนี้เพื่อควบคุมการทดลองและปรับระดับความซับซ้อนอย่างเป็นระบบ
- หอคอยฮานอย: ปรับความยากด้วยจำนวนแผ่น โดยไม่ประเมินว่าเป็นคำตอบที่เหมาะที่สุดหรือไม่ แต่ตัดสินจากการไปถึงสถานะเป้าหมาย
- หมากกระโดดสลับตำแหน่ง: ควบคุมความซับซ้อนด้วยจำนวนหมากสีแดง สีน้ำเงิน และช่องว่าง โดยมีเป้าหมายสุดท้ายคือสลับตำแหน่งกันให้สำเร็จ
- ข้ามแม่น้ำ: ปรับความยากด้วยจำนวนคู่ผู้กระทำ-เอเจนต์และความจุของเรือ โดยต้องย้ายทั้งหมดภายใต้เงื่อนไขข้อจำกัด
- โลกของบล็อก: ปรับด้วยจำนวนบล็อก โดยย้ายจากสถานะตั้งต้นไปยังสถานะการเรียงซ้อนตามเป้าหมาย
แต่ละสภาพแวดล้อมสามารถเพิ่มความซับซ้อนได้อย่างละเอียดผ่านการปรับจำนวนองค์ประกอบของปริศนา
ผลการทดลองสำคัญ
1. รูปแบบการให้เหตุผล 3 แบบตามระดับความซับซ้อน
- ความซับซ้อนต่ำ: LLM มาตรฐาน มีประสิทธิภาพมากกว่า (ประหยัดโทเค็นกว่า) LRMs และในหลายกรณีก็มีอัตราคำตอบถูกสูงกว่า
- ความซับซ้อนปานกลาง: กระบวนการคิดที่ยาวขึ้น (Chain-of-Thought) และการไตร่ตรองตนเองของ LRMs แสดงข้อได้เปรียบด้านประสิทธิภาพ
- ความซับซ้อนสูง: โมเดลทั้งสองแบบ เกิดการพังทลายของประสิทธิภาพทันที (อัตราคำตอบถูกเป็น 0) และยังพบว่าที่จุดนี้ LRMs ใช้โทเค็นเพื่อการให้เหตุผลลดลงด้วย ซึ่งเป็นความไร้ประสิทธิภาพอีกรูปแบบหนึ่ง
2. การวิเคราะห์เชิงลึกของร่องรอยการคิด (Reasoning Trace)
- “คิดมากเกินไป (overthinking)”: ในปัญหาความซับซ้อนต่ำ LRMs มักพบคำตอบที่ถูกตั้งแต่ช่วงต้น แต่หลังจากนั้นกลับทำการสำรวจที่ผิดซ้ำ ๆ ต่อไป แสดงรูปแบบของ การสิ้นเปลืองการประมวลผลโดยไม่จำเป็น
- ความยากปานกลาง: หลังตรวจพบคำตอบผิด โมเดลค่อย ๆ เข้าใกล้คำตอบที่ถูก แต่ต้องใช้กระบวนการสำรวจมากขึ้นกว่าก่อนหน้า
- ความยากสูง: ยืนยันการเกิด ภาวะพังทลาย ที่ไม่สามารถสร้างคำตอบที่ถูกต้องได้ตลอดทั้งกระบวนการให้เหตุผล
3. ข้อจำกัดในการรันอัลกอริทึม
- แม้จะ ให้ชุดอัลกอริทึมที่กำหนดไว้ผ่านพรอมป์ต์ โมเดลก็ยังไม่สามารถรันตามนั้นได้อย่างน่าเชื่อถือแม้แต่ในระดับพื้นฐาน
- สิ่งนี้ชี้ให้เห็นถึง การขาดความสามารถพื้นฐานในการจัดการสัญลักษณ์ ที่จำเป็นต่อการปฏิบัติตามโครงสร้างเชิงตรรกะอย่างถูกต้อง ไม่ใช่แค่การ “หาคำตอบ” เท่านั้น
4. ปัญหาเบนช์มาร์กและการปนเปื้อนของข้อมูล
- บนเบนช์มาร์กคณิตศาสตร์เดิม (MATH500, AIME24, AIME25) พบว่า ช่องว่างด้านประสิทธิภาพระหว่างโมเดลแบบคิดและไม่คิดไม่สม่ำเสมอ
- ในกรณีของ AIME25 ยังเผยให้เห็นข้อจำกัดที่ทำให้ประเมินความสามารถการให้เหตุผลที่แท้จริงของโมเดลได้ยาก เนื่องจากความเป็นไปได้ของการปนเปื้อนของข้อมูล
บทสรุปของงานวิจัยและนัยสำคัญ
- งานวิจัยนี้นำเสนอ สภาพแวดล้อมการประเมินเชิงละเอียดบนฐานปริศนา เพื่อวิเคราะห์เชิงประจักษ์อย่างลึกซึ้งว่า LLM สำหรับการให้เหตุผลมีความสามารถในการคิดจริงหรือไม่ และข้อจำกัดของมันปรากฏขึ้นตรงจุดใด
- โมเดลให้เหตุผลที่มีอยู่ในปัจจุบันมี ข้อจำกัดเชิงพื้นฐานที่พังทลายลงโดยสิ้นเชิงเมื่อเกินระดับความซับซ้อนบางจุด และปัญหานี้ไม่สามารถแก้ได้ด้วยงบประมาณโทเค็นหรือการเพิ่ม self-reflection แบบง่าย ๆ
- ตั้งคำถามต่อ ข้อจำกัดของวิธีประเมินแบบเดิม และเสนอแนวทางสภาพแวดล้อมการวัดผลแบบห้องปฏิบัติการ
- แม้แต่โมเดลให้เหตุผลระดับ SOTA ในปัจจุบันก็ยัง ไม่สามารถบรรลุความสามารถในการแก้ปัญหาแบบทั่วไปได้
- มี ข้อจำกัดด้านการสเกลของการใช้โทเค็นเพื่อการให้เหตุผลตามความซับซ้อน
- เสนอการประเมินแบบ อิงร่องรอยกระบวนการคิด (trace) เพื่อวิเคราะห์กลไกการแก้ไขตนเองและการค้นหาความผิดพลาด
- พบ ความล้มเหลวและความไม่สม่ำเสมอในการรันอัลกอริทึมแบบชัดแจ้ง
- ผลลัพธ์นี้ตอกย้ำความสำคัญของการออกแบบ AI รุ่นถัดไป การประเมินความน่าเชื่อถือ และการวัดสมรรถนะของโมเดลในสภาพแวดล้อมที่หลีกเลี่ยงปัญหาการปนเปื้อนของข้อมูล
แนวโน้มงานวิจัยที่เกี่ยวข้อง
- มีความพยายามหลากหลายในการเสริมความสามารถด้านการให้เหตุผล เช่น CoT (Chain-of-Thought), เทคนิคการตรวจสอบตนเอง, และการกระตุ้นการคิดด้วยการเรียนรู้เสริมกำลัง
- ความยากในการได้มาซึ่งข้อมูล CoT คุณภาพสูง และข้อจำกัดของแนวทาง supervised/RL เริ่มเด่นชัดขึ้น
- ตัวอย่างเด่น ได้แก่ DeepSeek-R1, Claude 3.7 Sonnet Thinking
- มีการตั้งคำถามต่อปัญหา “การคิดมากเกินไป” (overthinking) และความน่าเชื่อถือของตัวชี้วัดจากการปนเปื้อนของเบนช์มาร์ก
- ย้ำความจำเป็นของ การประเมินบนฐานสภาพแวดล้อมแบบปริศนาที่ควบคุมความซับซ้อนของปัญหาได้อย่างละเอียด
งานต่อไปและข้อจำกัด
- จำเป็นต้องมีการศึกษาต่อเกี่ยวกับ ข้อจำกัดเชิงพื้นฐานของโมเดลให้เหตุผลในการทำตามตรรกะอย่างชัดแจ้ง/การจัดการสัญลักษณ์
- แม้พิจารณาเป็นรายกรณีของ สภาพแวดล้อมแบบปริศนา ก็ยังพบว่าพฤติกรรมของโมเดลไม่สม่ำเสมอ (เช่น ความต่างของประสิทธิภาพระหว่างหอคอยฮานอยกับโจทย์ข้ามแม่น้ำ) ซึ่งบ่งชี้ถึงความเป็นไปได้ของข้อจำกัดในการให้เหตุผลที่อิงข้อมูล
- ในการออกแบบระบบ AI จำเป็นอย่างยิ่งที่จะต้องมีการตรวจสอบเชิงละเอียดที่รวมถึง ลำดับการให้เหตุผลระหว่างทางและความสอดคล้องทางตรรกะ
การวิเคราะห์นี้ให้ข้อคิดสำคัญไม่เพียงต่อการใช้งานจริง แต่ยังรวมถึงการออกแบบและระบบการประเมิน AI สำหรับการให้เหตุผลรุ่นถัดไปด้วย
1 ความคิดเห็น
ความเห็นจาก Hacker News
ผมคิดว่านี่เป็นหนึ่งในเหตุผลที่ทำให้เรารู้สึกสับสน เพราะ LLM ใช้ภาษา และเมื่อดู ‘Biology of Large Language Models’ กับ ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’ จะเห็นว่ากระบวนการที่เกิดขึ้นข้างในนั้นต่างจากมนุษย์โดยสิ้นเชิง จึงมีหลายส่วนที่ทำให้ผลลัพธ์ดูแปลกและไม่คุ้นเคย
แม้จะคิดเรื่องการออกแบบระบบด้วยเทคโนโลยี หรือโครงสร้างที่ทำให้ทั้งระบบให้ผลลัพธ์มากกว่าผลรวมของแต่ละส่วน ก็ยังยากมากที่จะเข้าใจขีดความสามารถของสิ่งเหล่านี้อย่างชัดเจน
ต่อให้รู้หลักการทำงานอยู่บ้าง ก็ยังมีความประหลาดแบบที่ทำให้รู้สึกราวกับเป็นเวทมนตร์ เมื่อเห็นมันจัดการกับภาษา
เลยเขียนบทความนี้ขึ้นมาเพื่อจัดระเบียบความคิด
ผมคิดว่างานวิจัยแบบนี้ยอดเยี่ยมมาก และต่อจากนี้เราจำเป็นต้องพยายามทำความเข้าใจให้มากขึ้นอีกมาก ว่าจะใช้โทเคนให้ดีและสร้างระบบให้ถูกต้องได้อย่างไร
[ลิงก์อ้างอิง]
Biology of Large Language Models
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
ผมเข้าใจความคิดที่อยากสร้างโครงสร้างซึ่งทั้งระบบมีค่ามากกว่าผลรวมของแต่ละส่วน และส่วนตัวมองว่าการเขียนโปรแกรมเองก็ทำหน้าที่แบบนั้น
ถ้าแยกงานหรือปัญหาออกเป็นหน่วยเล็ก ๆ ที่มีปฏิสัมพันธ์กันน้อยที่สุด ก็จะเกิดโครงสร้างที่การรวมกันของมันสร้างผลลัพธ์ที่ใหญ่กว่าเดิม
และผมเชื่อว่าถ้าหลอมแนวคิดนี้เข้าไปใน workflow ของการเขียนโปรแกรมได้ดี แม้แต่ LLM ที่ประสิทธิภาพไม่สูงนักก็สามารถถูกใช้เป็นส่วนหนึ่งของทางแก้ได้อย่างเป็นธรรมชาติ
ในทางกลับกัน ผมก็คิดได้เหมือนกันว่าทั้งระบบอาจแย่กว่าทุกส่วนประกอบของมันก็ได้
แต่ละงานอาจทำได้ดีเมื่อแยกกัน แต่พอรวมกันแล้วกลับพันกันยุ่ง
แม้จะเป็นสิ่งที่คงพัฒนาได้ในอนาคต แต่เพราะเราไม่อาจทำให้ทุกปัญหาถูก optimize ได้ทั้งหมด วิธีที่เฉพาะทางกว่าอาจมีประสิทธิภาพมากกว่าในท้ายที่สุด
ภาษามนุษย์เองก็ไม่ได้สมบูรณ์แบบในฐานะเครื่องมือทางการรับรู้ แต่ผมเชื่อว่ามันถูกใช้งานได้ดีในชั้นบน ไม่ใช่ในระดับรากฐาน เช่น การสื่อสารหรือการให้เหตุผลระดับสูง
ภาษามนุษย์นั้นกำกวมและไม่สมบูรณ์โดยธรรมชาติ จึงรู้สึกว่าไม่เพียงพอจะสร้างการรับรู้ที่แข็งแรงได้ เมื่อเทียบกับวิธีที่โต้ตอบกับสภาพแวดล้อมโดยตรง
ดังนั้นถ้าใช้เพียงความคล่องทางภาษาและความสามารถในการดึงความรู้ของโมเดล LLM/LRM มาเป็นมาตรวัดสติปัญญา ก็หลงเชื่อได้ง่ายมาก
ผมคิดว่าไอเดียการนำสภาพแวดล้อมแบบปริศนาที่ปรับระดับความยากได้อย่างเป็นระบบมาใช้ แทน benchmark แบบเดิม ๆ อย่างโจทย์คณิตศาสตร์นั้นเฉียบมาก
การวิเคราะห์ช่วงสมรรถนะสามระดับก็น่าสนใจ คือ โมเดลดั้งเดิมทำได้ดีในงานง่าย ๆ, LRM ทำได้ดีในความซับซ้อนระดับกลาง, และเมื่อความยากสูงมากทุกโมเดลก็พังหมด
ผมรู้สึกว่าเราจำเป็นต้องวาด ‘แผนที่(map)’ ของช่วงความซับซ้อนเหล่านี้ให้มากกว่านี้
และก็อยากรู้ว่ามูลค่าทางเศรษฐกิจกับช่วงความซับซ้อนนั้นเชื่อมโยงกันอย่างไร
เพื่อจะตอบคำถามนี้ ผมคิดว่าเราต้องมีวิธีประเมินที่ประณีตกว่าปริศนาทั่วไป และนำไปใช้กับงานเศรษฐกิจจริงได้ด้วย
ผมคิดว่าสัญชาตญาณหลักที่ผู้เขียนพยายามสื่อคือความเชื่อว่าโมเดลเป็นสิ่งที่ ‘รอบรู้แต่ขาดไหวพริบ’
ผมไม่เคยเห็นงานวิจัยที่จัดการกับคำถามนี้ในเชิงปริมาณได้ดีจริง ๆ ดังนั้นงานนี้เองก็คงยากที่จะทำให้ทุกคนเห็นตรงกัน
ฝ่ายมองบวกต่อ AI เชื่อว่าความโง่ของโมเดลลดลงแล้ว ขณะที่ฝ่ายสงสัยคิดว่าแค่มีความรู้มากขึ้นเท่านั้น จึงยากที่ช่องว่างของจุดยืนจะหดแคบลง
ถึงอย่างนั้นผมก็คิดว่าเราควรถกเรื่องนี้ต่อไป
เพราะถ้าโมเดลรอบรู้แต่โง่ มันก็ยากที่จะไปถึง superintelligence (ASI) ได้ และอาจทำได้แค่บทบาทผู้ช่วยระดับ SaaS แบบเดิม ซึ่งทำให้ผลกระทบทางเศรษฐกิจมีขอบเขตจำกัด
หวังว่าวันหนึ่งผู้เขียนจะสามารถแก้ปัญหานี้ได้อย่างยอดเยี่ยม
เราชอบติดคำคุณศัพท์แบบมนุษย์ให้เทคโนโลยีนี้อยู่เรื่อย ๆ เช่น รอบรู้ โง่ ฯลฯ จนเผลอทำให้มันมีบุคลิก ทั้งที่จริงผมมองว่ามันเป็นเพียงเครื่องมือบริสุทธิ์ที่ไม่มีอะไรแบบนั้นเลย
สิ่งที่ LRM ทำก็แค่ปรับแต่งข้อมูลบริบท (ข้อมูลที่มันสร้างขึ้นเอง) เพื่อให้ได้คำตอบสุดท้าย
แม้กระบวนการนี้จะเป็นไอเดียที่ยอดเยี่ยม แต่ก็ยังไม่สามารถแก้ข้อจำกัดพื้นฐานอย่างปัญหา hallucination ได้
ผมยังเคยเห็นระหว่างบทสนทนาว่าโมเดลเริ่มต้นด้วยเหตุผลที่เกือบถูกต้อง แต่พอมีการปฏิเสธตัวเองแบบ ‘เดี๋ยวก่อน!’ ต่อเนื่อง ผลลัพธ์กลับพังลง
การยัดเยียดคุณลักษณะแบบมนุษย์มากเกินไปแบบนี้ มีแต่จะกลายเป็นการโหมตลาดเกินจริงและขัดขวางการพัฒนา
ท้ายที่สุดเทคโนโลยีนี้ไม่ใช่ปัญญาประดิษฐ์ที่แท้จริง แต่เป็นเอนจินจับคู่รูปแบบขนาดใหญ่และสร้างข้อมูลเชิงความน่าจะเป็น
มันยังใช้งานได้จริงอยู่มาก แต่ถ้าใส่ความเป็นมนุษย์ให้มันมากเกินไป การถกเถียงก็จะยิ่งขุ่นมัว
ผมมีทั้งความคาดหวังและความกลัวต่อ AI พร้อมกัน เพราะในช่วงไม่กี่ปีที่ผ่านมา AI ไม่ได้ ‘ฉลาด’ ขึ้นมากนัก แต่ความสามารถเชิงใช้งานจริงพัฒนาขึ้นอย่างมหาศาล
ความสามารถในการใช้ความรู้ เครื่องมือ และบริบทเพิ่มขึ้นมาก
เพราะฉะนั้นสิ่งที่ผมกลัวที่สุดคือสถานะที่ ‘ความสามารถด้านการให้เหตุผล/agency’ กำลังรอการปลดล็อก
กล่าวคือ จากการมีความรู้เกือบครอบจักรวาล อาจเหลือแค่หนึ่งหรือสอง breakthrough ที่จะทำให้มันสามารถตัดสินใจเชิงกลยุทธ์อย่างแม่นยำได้จริงแบบขนาน
ถ้าสองอย่างนั้นมารวมกัน ผลลัพธ์จะน่ากลัวมาก
เพราะอาจมี AI ที่ชี้นำกระแสความคิดของผมได้เลย เหมือนกำลังคุยกับอัจฉริยะที่มองเกมล่วงหน้ากว่ามนุษย์ 6 ตา
นักวิจัย AI แนวหน้าตอนนี้ก็ยกให้ reasoning+agency เป็นโจทย์สำคัญที่สุด จึงอาจเห็นความคืบหน้าเร็วก็ได้
ทุกวันนี้ LLM เก่งมากในเรื่องการตัดสินแบบฉับพลัน แต่
ยังขาดอยู่ทั้งคู่
การแก้ปัญหานี้อาจต้องการ reasoning แบบ system 2 อย่างแท้จริง (ส่วน ‘system 1’ คือ transformer ปัจจุบัน) หรืออาจเป็นแค่การทำให้มันเรียนรู้ ‘สัญชาตญาณเชิงกลยุทธ์’ ได้เร็วขึ้นด้วยข้อมูลและอัลกอริทึมที่ดีกว่า
แน่นอนว่าก็อาจเป็นเพราะปัญหายากเกินไป ต้องผ่านอุปสรรคหลายขั้น หรืออาจต้องใช้พลังประมวลผลมากมหาศาล
ดังนั้นผมไม่ได้มั่นใจ แต่ก็กลัวมากว่าสุดท้ายจะเกิดความก้าวหน้าที่ทรงพลังจริง ๆ
ผมก็ไม่เห็นเหตุผลเหมือนกันว่าทำไมสิ่งมีชีวิตที่รอบรู้แต่โง่จะต้องหยุดอยู่แค่ระดับสติปัญญาของมนุษย์
ผมสงสัยว่า Apple กำลังล้มเหลวในเรื่อง AI จริง ๆ หรือแค่เปลี่ยนทิศทาง R&D ไปในทางที่เชื่อว่า AI ไม่ได้สำคัญขนาดนั้นสำหรับตัวเอง
เมื่อมองปรากฏการณ์ที่ฟีเจอร์ AI ถูกยัดเข้าไปในสินค้า consumer จำนวนมากช่วงนี้ มันดูเหมือนต้องการอวดศักยภาพทางเทคโนโลยีให้กับนักลงทุนมากกว่าจะทำเพื่อผู้ใช้
ในความเป็นจริง ทั้ง Apple, Google, Meta, Microsoft, Samsung ต่างก็โหมการตลาดฟีเจอร์ AI ที่ยังต่ำกว่าความคาดหวัง แต่ผลงานจริงกลับไม่ดีนัก
ดังนั้นการที่ Apple กำลังคิดหาทิศทางใหม่ อาจเป็นสัญญาณเชิงบวกก็ได้
ถ้ามองแบบประชดน้อยลงหน่อย มันอาจเป็นความพยายามลดความคาดหวังเพื่อไม่ให้มีการประเมินความเป็นไปได้จริงของ LLM สูงเกินไป
ต่อให้เป็น ‘Siri ที่ฉลาดขึ้น’ บนผลิตภัณฑ์ Apple ก็ยังไปไม่ถึงผู้ช่วย AI แท้จริงแบบ Jarvis ของ Iron Man อยู่ดี
ในทางกลับกัน บรรยากาศของนักลงทุนกลับดูคาดหวังเกินจริงกว่านั้นมาก
แต่ถ้ามองแบบประชดมากขึ้น ผมคิดว่า Apple มีประวัติยาวนานในการกลบจุดอ่อนด้าน machine learning ของตัวเอง
ตัวอย่างเช่น ตอนที่ Siri ตามหลัง Google มาก ก็มีการอธิบายย้อนหลังว่าเป็นเพราะปกป้องข้อมูลจึงฝึกโมเดลไม่ได้
งานวิจัยที่เกี่ยวข้อง
ผมคิดว่าทุกบริษัทต่างก็มีกรอบเล่าเรื่องของตัวเอง
OpenAI กับ Anthropic เองก็มีแรงจูงใจที่จะโปรโมตความสามารถของ LLM เกินจริงเหมือนกัน ดังนั้นจะไปกล่าวหาว่า Apple ลำเอียงอยู่ฝ่ายเดียวก็คงไม่ได้
จากที่งานวิจัยทดลองกับสภาพแวดล้อมแบบปริศนาหลากหลายและซับซ้อน ผมรู้สึกเห็นด้วยมากกับข้อสรุปว่าเมื่อเกินระดับความยากหนึ่งไปแล้ว LRM จะล้มเหลวโดยสิ้นเชิง และยังมีข้อจำกัดประหลาดที่เมื่อความซับซ้อนของปัญหาเพิ่มขึ้น ความพยายามในการให้เหตุผลจะเพิ่มขึ้นช่วงสั้น ๆ ก่อนจะกลับลดลงเสียเอง
ผมเจอประสบการณ์เดียวกันตอนเขียนโค้ด คือช่วงแรกยังค่อย ๆ ทำให้ซับซ้อนขึ้นได้ แต่พอข้ามจุดหนึ่งไปแล้วมันจะพังทั้งระบบจนเหมือนไม่กล้าลองต่อด้วยซ้ำ
ถ้าอยากใช้ LLM อย่าง Claude หรือ aider ให้ได้ผลจริง การควบคุมความซับซ้อนของปัญหาที่ป้อนให้โมเดลรับมือจึงสำคัญมาก
มันทำให้นึกถึงช่วงหนึ่งที่บรรยากาศการถกเรื่อง AGI (ปัญญาประดิษฐ์ทั่วไป) เหมือนกำลังจะมาถึงในเร็ววันอย่างมาก
รู้สึกว่า Gartner hype cycle จับรูปแบบการไหลของเทคโนโลยีได้แม่นจริง ๆ
เมื่อความก้าวหน้าทางเทคโนโลยีเดินเป็นเส้นโค้งรูปตัว S ช่วงก่อนจะหักหัวลงมักพุ่งขึ้นแรงมาก จึงคาดเดาได้ยากมากว่ามันจะเริ่มชะลอเมื่อไร
ตอน Boeing 747 ลำแรกออกมาในปี 1968 คงไม่มีใครจินตนาการว่าหลังจากนั้นอุตสาหกรรมการบินจะนิ่งอยู่แบบไม่มีการเปลี่ยนแปลงใหญ่ไปอีกกว่าครึ่งศตวรรษ
สถานการณ์เหมือนรถยนต์ขับเคลื่อนอัตโนมัติเป๊ะ
เหมือนจะมาถึง ‘ตรงหน้า’ แล้ว แต่ก็ยังเลี้ยว ‘ผ่านมุม’ นั้นไปไม่ได้เสียที
จริง ๆ แล้วบรรยากาศแบบ AGI ‘ใกล้แค่เอื้อม’ นี้ก็เป็นเรื่องเมื่อแค่ 2 ปีก่อนเอง
ถ้าจะไปจาก GPT2 ถึง AGI ในเวลาเพียง 10 ปี มันก็ยังนับว่าเร็วอย่างมหาศาลอยู่ดี
ผมรู้สึกว่าเทคโนโลยีคืบหน้าไปแล้วราว 80% แต่ส่วนที่ง่ายทำไปหมดแล้ว และ 20% ที่เหลือนี้ยากมากจนกินเวลาเป็นปี ๆ
AGI นั้นตั้งแต่มีคอมพิวเตอร์มาก็ถูกพูดอยู่เรื่อย ๆ ว่า ‘ใกล้จะมาแล้ว’
ปัญหาบางอย่าง (เช่น machine translation) ดูเหมือนแก้ได้ในทางปฏิบัติ ก็เพราะเราค่อย ๆ ลดมาตรฐานคำว่า ‘แก้ได้’ ลง ไม่ใช่เพราะเราเข้าใกล้ AGI อย่างแท้จริง
ตัว AGI เองก็คล้ายความเชื่อวันสิ้นโลกแบบ世俗อย่างหนึ่ง
ผมคิดว่าสภาพแวดล้อมแบบปริศนาอย่าง Tower of Hanoi, Checkers Jumping, River Crossing, Block World ถ้าอนุญาตให้เขียนโค้ดได้จริง LLM ทุกตัวก็น่าจะแก้ได้สมบูรณ์แบบ
แม้มองในฝั่งมนุษย์เอง ถ้าให้คูณเลข 20 หลักด้วยมือก็ผิดพลาดกันได้ง่าย ดังนั้นผมไม่คิดว่าการที่ LLM ทำไม่ได้จะเป็นปัญหาอะไร
มนุษย์สามารถออกแบบขีปนาวุธหรือวิศวกรรมความแม่นยำสูงได้แม้ไม่มีคอมพิวเตอร์ และถ้าลงเวลา กลยุทธ์ ความพยายามเพิ่ม หรือใช้เครื่องมืออย่างกระดาษ สุดท้ายก็แก้ปัญหาได้
สมองมนุษย์ไม่ได้ถูกออกแบบมาเพื่อการคำนวณแบบนี้โดยตรง แต่จุดแข็งของสติปัญญาทั่วไปคือมันหาทางจัดการได้ด้วยวิธีของตัวเองไม่ทางใดก็ทางหนึ่ง
ขอแนะนำงานวิจัย framework ใหม่ที่ให้ LLM ทำหน้าที่เป็น ‘ครูนโยบาย’ สำหรับการฝึก RL agent
แนวคิดคือใช้คำแนะนำจากครู LLM เพื่อฝึก student RL agent ขนาดเล็กอย่างรวดเร็ว แล้วให้มันเรียนรู้เพิ่มเติมจาก feedback ของสภาพแวดล้อม จนท้ายที่สุดตัว student สามารถทำภารกิจได้ดีกว่าครูเสียอีก
งานวิจัยที่เกี่ยวข้อง
ผมคิดว่าที่ LLM ทุกตัวแก้ปัญหาแนวนี้ได้ดีก็อาจเป็นเพราะมีตัวอย่างคำตอบจำนวนมหาศาลถูกเก็บอยู่ใน codebase อยู่แล้ว
เหตุผลที่มนุษย์ทำไม่ได้กับเหตุผลที่ LLM ทำไม่ได้ เป็นคนละเรื่องกันโดยสิ้นเชิง
LLM มักจะทำการคูณเองได้ไม่ดีจริง ๆ ส่วนมนุษย์ส่วนใหญ่แค่ไม่อยากทำมากกว่า
ผมสนใจประโยคในงานวิจัยที่ว่า ‘การคำนวณที่แม่นยำนั้นยาก และการให้เหตุผลมีความไม่สม่ำเสมอไปตามปริศนาแต่ละประเภท’
ผมคิดว่า LLM/LRM ควรได้รับความช่วยเหลือจาก logic, optimization, constraint programming (IA) ซึ่งเป็นญาติใกล้ชิดของ automation ด้าน AI
สำหรับข้อมูลอ้างอิง ขอแนะนำ การบรรยายร่วมของ John Hooker จาก CMU, การบรรยายของ Gerald Sussman จาก MIT, Google OR-Tools, แพลตฟอร์ม MiniZinc
ผมรู้สึกว่าผลการวิจัยที่บอกว่า ในงานที่ง่ายที่สุด LLM ทำได้ดี, ในความซับซ้อนระดับกลาง LRM ทำได้ดี, และในระดับยากมากทุกตัวล้มเหลวนั้นน่าประทับใจมาก