- LLM มีปัญหาในการทำงานเชิงประกอบ (Compositional Task) ซึ่งบ่งชี้ว่าความสามารถของมันยังมีขีดจำกัด
- ปัญหานี้แสดงให้เห็นว่า LLM ไม่สามารถให้เหตุผลได้เกินกว่าสิ่งที่เคยเห็นในข้อมูลฝึก
- เมื่อวันที่ 17 ธันวาคม 1962 นิตยสาร Life International ได้ตีพิมพ์ปริศนาเชิงตรรกะที่ประกอบด้วย 15 ประโยค
- แต่ละประโยคให้เบาะแส เช่น “ชาวอังกฤษอาศัยอยู่ในบ้านสีแดง” หรือ “ดื่มนมในบ้านตรงกลาง”
- คุณลักษณะอย่างสีของบ้านทั้งห้าหลัง สัญชาติของผู้อยู่อาศัย สัตว์เลี้ยง และเครื่องดื่ม ล้วนไม่ซ้ำกัน และคำถามหลักคือ “ใครเป็นเจ้าของม้าลาย”
- ปัญหานี้เรียกว่า Einstein’s puzzle (หรือ riddle) และปัจจุบันถูกใช้เป็นตัวชี้วัดความสามารถในการให้เหตุผลหลายขั้นตอนของโมเดลแมชชีนเลิร์นนิง โดยเฉพาะโมเดลภาษาขนาดใหญ่ (LLM)
- Nouha Dziri นักวิจัยจาก Allen Institute for AI และเพื่อนร่วมงานนำ LLM อย่าง ChatGPT มาทดลองกับปริศนานี้เพื่อยืนยันข้อจำกัด
- ผลลัพธ์เผยให้เห็นว่า LLM แก้ปัญหาที่ซับซ้อนเกินกว่าสิ่งที่เคยพบในข้อมูลฝึกได้ยาก
- สิ่งนี้สะท้อนความยากของการให้เหตุผลเชิงประกอบ (compositional reasoning) ที่ต้อง “รวมผลจากการแก้ทีละขั้นเพื่อนำไปสู่คำตอบสุดท้าย”
- ทีมของ Dziri ระบุว่า LLM มีข้อจำกัดเชิงโครงสร้างเพราะถูกฝึกด้วยการทำนายคำถัดไปเพียงอย่างเดียว
- นักวิจัยกลุ่มอื่นก็พิสูจน์เช่นกันว่าสถาปัตยกรรม transformer ที่ใช้อย่างแพร่หลายในปัจจุบันมีข้อจำกัดทางคณิตศาสตร์ต่อการแก้ปัญหาซับซ้อนลักษณะนี้
- แม้จะมีโมเดลที่ทรงพลังมากขึ้นเรื่อย ๆ แต่ก็มีมุมมองว่าโมเดลเหล่านี้อาจไม่สามารถแก้ปัญหาการให้เหตุผลเชิงประกอบทั้งหมดได้ในระดับพื้นฐาน
- Andrew Wilson (NYU) กล่าวว่า งานวิจัยลักษณะนี้ทำให้ชุมชนวิจัย AI ต้องกลับมาทบทวนว่าจะเดินหน้ากับแนวทางที่ยึด transformer เป็นศูนย์กลางต่อไปหรือไม่
คำถามที่เกิดจากความสำเร็จอันน่าทึ่ง
- ตามคำกล่าวของ Dziri เมื่อ LLM เริ่มแสดงความสามารถด้านภาษาอย่างน่าทึ่ง ความสงสัยว่า “มันให้เหตุผลจริงได้หรือไม่” ก็เพิ่มขึ้น
- แม้ LLM จะเรียนรู้จากข้อความมหาศาลบนอินเทอร์เน็ตด้วยวิธีเรียบง่ายอย่างการทำนายการเติมประโยค แต่ก็ยังทำงานซับซ้อนอย่างการประมวลผลภาษาธรรมชาติ การสรุปเอกสาร และการสร้างโค้ดได้
- โมเดลขนาดใหญ่ที่เป็นตัวแทน ได้แก่ o1 ของ OpenAI, GPT-4, Gemini ของ Google และ Claude ของ Anthropic
- อย่างไรก็ตาม โมเดลเหล่านี้บางครั้งกลับทำผิดพลาดอย่างคาดไม่ถึงในปัญหาที่มนุษย์มองว่าง่าย
- ตัวอย่างเช่น มีรายงานว่ามันมักคำนวณการคูณแบบง่ายผิดอยู่บ่อยครั้ง
- ตามงานวิจัยของ Dziri เมื่อให้ GPT-4 คูณเลขสามหลัก มันตอบถูกเพียง 59% และเมื่อเป็นเลขสี่หลัก ความแม่นยำลดลงอย่างมากเหลือ 4%
- ใน Einstein’s puzzle เวอร์ชันดัดแปลงเช่นกัน เมื่อบ้านมีคุณลักษณะน้อย (2-3 อย่าง) โมเดลทำได้แม่นยำสูง แต่เมื่อเพิ่มเป็น 4-5 อย่าง อัตราความสำเร็จลดลงอย่างรุนแรง
- เมื่อทำ fine-tuning ให้ GPT-3 ด้วยข้อมูลการคูณ 1.8 ล้านชุด โมเดลทำได้ดีในช่วงที่รวมอยู่ในการฝึก แต่เมื่อถามในรูปแบบที่ต่างจากตัวอย่างฝึก ความแม่นยำกลับลดฮวบ
- ข้อสรุปคือ โมเดลไม่ได้เข้าใจอัลกอริทึมจริง ๆ แต่ใกล้เคียงกับการเลียนแบบจากตัวอย่างฝึกมากกว่า
ข้อจำกัดที่ชัดเจน
- ปัญหาที่ Dziri และนักวิจัยคนอื่นชี้ตรงกันคือการขาด “ความสามารถในการให้เหตุผลเชิงประกอบ”
- Binghui Peng (Stanford University) สังเกตตั้งแต่สมัยเรียนปริญญาเอกที่ Columbia ว่า LLM มักตอบผิดในคำถามที่ต้องประกอบข้อเท็จจริง เช่น “พ่อของพ่อคือใคร”
- เขาคำนวณว่า transformer แบบชั้นเดียวต้องใช้พารามิเตอร์มากเพียงใดในการแก้ปัญหานี้ และได้ข้อสรุปว่าหากขนาดของโดเมนใหญ่กว่าจำนวนพารามิเตอร์ของโมเดล ปัญหานั้นจะไม่สามารถแก้ได้
- ต่อมาแม้จะขยายไปเป็น transformer หลายชั้น ก็ยังพิสูจน์ได้ว่าเมื่อเจอกับปัญหาการให้เหตุผลเชิงประกอบที่ซับซ้อน ก็เป็นไปไม่ได้ในทางคณิตศาสตร์
- กล่าวคือ เมื่อขนาดโมเดลใหญ่ขึ้น มันอาจแก้ปัญหาที่ยากขึ้นได้ แต่หากระดับความยากของปัญหาขยายตามไปพร้อมกัน ข้อจำกัดก็จะปรากฏชัด
- นักวิจัยบางส่วนได้ลองใช้โครงข่ายประสาทแบบอื่นนอกเหนือจาก transformer เช่น state-space models แต่ก็พบข้อจำกัดคล้ายกัน
ความพยายามเพื่อก้าวข้ามข้อจำกัด
- มีการเสนอวิธีเสริมหลายแบบเพื่อเอาชนะข้อจำกัดของ LLM
- ตัวอย่างเช่น ทีมของ Tom Goldstein (University of Maryland) เพิ่มข้อมูลตำแหน่งเข้าไปเมื่อนำตัวเลขป้อนเข้าสู่ transformer เพื่อให้สามารถคำนวณตัวเลขที่มีจำนวนหลักมากขึ้นได้
- จากงานนี้ โมเดลที่ฝึกด้วยตัวเลข 20 หลักสามารถบวกเลข 100 หลักได้ด้วยความแม่นยำ 98%
- อีกแนวทางหนึ่งคือเทคนิค chain-of-thought ที่ค่อย ๆ แสดงขั้นตอนการแก้ปัญหาไว้ในพรอมป์ต์
- มีการสังเกตว่าโมเดลอย่าง GPT-4 แสดงศักยภาพในการแก้ปัญหาที่ซับซ้อนขึ้นได้ด้วยวิธีนี้
- แนวทางนี้ตั้งอยู่บนหลักการ “แยกปัญหาใหญ่ให้เป็นลำดับของปัญหาเล็ก” และมีคำอธิบายเชิงทฤษฎีว่าวิธีนี้ช่วยขยายขอบเขตการคำนวณที่ transformer สามารถจัดการได้
- อย่างไรก็ตาม โมเดลจริงไม่ได้แสดงความสามารถนี้กับทุกปัญหาเสมอไป และผลลัพธ์ก็ขึ้นอยู่กับวิธีฝึกและโครงสร้างของโมเดล
- ท้ายที่สุดแล้ว LLM ยังคงอาศัยการจับคู่รูปแบบเป็นหลัก ดังนั้นสำหรับปัญหาการให้เหตุผลเชิงประกอบที่มีขนาดใหญ่หรือซับซ้อน ก็ยังมีข้อจำกัดอยู่เสมอ
- ถึงกระนั้น ในมุมของผู้ใช้ทั่วไป ข้อจำกัดเหล่านี้อาจไม่ได้สำคัญมากนัก
- แต่สำหรับนักวิจัยที่สร้างโมเดล การทำความเข้าใจและปรับแก้ข้อจำกัดเชิงโครงสร้างยังคงเป็นภารกิจสำคัญ
- Dziri เน้นว่า “หากเราเข้าใจกลไกการทำงานภายในของ LLM ได้อย่างแม่นยำ โอกาสในการแก้ปัญหาเชิงพื้นฐานก็จะสูงขึ้น”
5 ความคิดเห็น
นั่นเป็นเรื่องก่อนยุคของการให้เหตุผล
มีปัญหาที่เครื่องหมาย
~ถูกตีความว่าเป็นสัญลักษณ์จัดพิมพ์ขีดฆ่าใน Markdown ครับ/ค่ะ หากช่วยแก้ไขจะดีมากครับ/ค่ะดังนั้นเวลาใช้ LLM ระหว่างเขียนโค้ด ยิ่งลดการพึ่งพากันและแยกความรับผิดชอบได้ดีเท่าไร ก็ยิ่งทำงานได้ดีขึ้นเท่านั้น จริง ๆ แล้วก็อดคิดไม่ได้ว่านี่อาจจะเป็นแบบเดียวกับมนุษย์เหมือนกัน ;)
ตัวบทความเองค่อนข้างใหม่ แต่ดูเหมือนว่าพื้นฐานของบทความจะเป็นช่วงก่อน o1
เขาลองถามอะไรประมาณว่า "ลูกสาวของพี่สาวน้องสาวของแม่ของน้องชายพ่อ มีความสัมพันธ์ทางเครือญาติกับฉันกี่ชั้น?"
สำหรับ 4o เห็นได้ชัดว่ามีข้อจำกัดอยู่พอสมควร แต่ o1 หลบแม้กระทั่งคำถามหลอกได้หมดเลยครับ
ความเห็นจาก Hacker News
LLM มีลักษณะเหมือนโมเดลแมชชีนเลิร์นนิงอื่น ๆ คือจับคู่รูปแบบจากข้อมูลนำเข้าแล้วให้ผลลัพธ์ที่มีความเป็นไปได้สูงในเชิงสถิติ
LLM เป็นสิ่งมหัศจรรย์ของ AI และกำลังพัฒนาสิ่งที่เคยถูกมองว่าเป็นไปไม่ได้ให้ก้าวหน้าไปทุก ๆ สองเดือน
มีข้อมูลที่ผิดพลาดเกี่ยวกับงานวิจัย LLM อยู่มาก
o3-mini-highสามารถสร้างโค้ด Prolog ได้อย่างรวดเร็วผลการวิจัยล่าสุดครอบคลุม GPT-3, 3.5 และ 4 รุ่นแรก
ChatGPT ให้ความรู้สึกเหมือนเสิร์ชเอนจินแบบรวดเร็ว มีอาการหลอนจำนวนมากและบริบทที่จำกัด
ต้องแยกให้ออกว่างานวิจัยกำลังวิเคราะห์ LLM แบบล้วน ๆ หรือกำลังวิเคราะห์เอนจินสังเคราะห์ที่ใช้ LLM
LLM อาจล้มเหลวกับคำถามง่าย ๆ ที่ต้องใช้การคิดแบบ 2D หรือ 3D
เมื่อข้อจำกัดของ LLM ถูกกล่าวถึงในบทความ ไม่กี่เดือนต่อมาก็มักจะมีแชตบอตที่ไม่มีข้อจำกัดนั้นออกมา
กว่างานวิจัยเชิงวิชาการจะได้รับการตีพิมพ์ ก็มักผ่านไปแล้วหลายเดือน