ผลการวิจัยล่าสุดชี้ว่า LLM ยังมีปัญหากับงานเชิงประกอบ

(quantamagazine.org)

11 คะแนน โดย GN⁺ 2025-02-03 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

LLM มีปัญหาในการทำงานเชิงประกอบ (Compositional Task) ซึ่งบ่งชี้ว่าความสามารถของมันยังมีขีดจำกัด
- ปัญหานี้แสดงให้เห็นว่า LLM ไม่สามารถให้เหตุผลได้เกินกว่าสิ่งที่เคยเห็นในข้อมูลฝึก
เมื่อวันที่ 17 ธันวาคม 1962 นิตยสาร Life International ได้ตีพิมพ์ปริศนาเชิงตรรกะที่ประกอบด้วย 15 ประโยค
แต่ละประโยคให้เบาะแส เช่น “ชาวอังกฤษอาศัยอยู่ในบ้านสีแดง” หรือ “ดื่มนมในบ้านตรงกลาง”
คุณลักษณะอย่างสีของบ้านทั้งห้าหลัง สัญชาติของผู้อยู่อาศัย สัตว์เลี้ยง และเครื่องดื่ม ล้วนไม่ซ้ำกัน และคำถามหลักคือ “ใครเป็นเจ้าของม้าลาย”
ปัญหานี้เรียกว่า Einstein’s puzzle (หรือ riddle) และปัจจุบันถูกใช้เป็นตัวชี้วัดความสามารถในการให้เหตุผลหลายขั้นตอนของโมเดลแมชชีนเลิร์นนิง โดยเฉพาะโมเดลภาษาขนาดใหญ่ (LLM)
Nouha Dziri นักวิจัยจาก Allen Institute for AI และเพื่อนร่วมงานนำ LLM อย่าง ChatGPT มาทดลองกับปริศนานี้เพื่อยืนยันข้อจำกัด
ผลลัพธ์เผยให้เห็นว่า LLM แก้ปัญหาที่ซับซ้อนเกินกว่าสิ่งที่เคยพบในข้อมูลฝึกได้ยาก
สิ่งนี้สะท้อนความยากของการให้เหตุผลเชิงประกอบ (compositional reasoning) ที่ต้อง “รวมผลจากการแก้ทีละขั้นเพื่อนำไปสู่คำตอบสุดท้าย”
ทีมของ Dziri ระบุว่า LLM มีข้อจำกัดเชิงโครงสร้างเพราะถูกฝึกด้วยการทำนายคำถัดไปเพียงอย่างเดียว
นักวิจัยกลุ่มอื่นก็พิสูจน์เช่นกันว่าสถาปัตยกรรม transformer ที่ใช้อย่างแพร่หลายในปัจจุบันมีข้อจำกัดทางคณิตศาสตร์ต่อการแก้ปัญหาซับซ้อนลักษณะนี้
แม้จะมีโมเดลที่ทรงพลังมากขึ้นเรื่อย ๆ แต่ก็มีมุมมองว่าโมเดลเหล่านี้อาจไม่สามารถแก้ปัญหาการให้เหตุผลเชิงประกอบทั้งหมดได้ในระดับพื้นฐาน
Andrew Wilson (NYU) กล่าวว่า งานวิจัยลักษณะนี้ทำให้ชุมชนวิจัย AI ต้องกลับมาทบทวนว่าจะเดินหน้ากับแนวทางที่ยึด transformer เป็นศูนย์กลางต่อไปหรือไม่

คำถามที่เกิดจากความสำเร็จอันน่าทึ่ง

ตามคำกล่าวของ Dziri เมื่อ LLM เริ่มแสดงความสามารถด้านภาษาอย่างน่าทึ่ง ความสงสัยว่า “มันให้เหตุผลจริงได้หรือไม่” ก็เพิ่มขึ้น
แม้ LLM จะเรียนรู้จากข้อความมหาศาลบนอินเทอร์เน็ตด้วยวิธีเรียบง่ายอย่างการทำนายการเติมประโยค แต่ก็ยังทำงานซับซ้อนอย่างการประมวลผลภาษาธรรมชาติ การสรุปเอกสาร และการสร้างโค้ดได้
โมเดลขนาดใหญ่ที่เป็นตัวแทน ได้แก่ o1 ของ OpenAI, GPT-4, Gemini ของ Google และ Claude ของ Anthropic
อย่างไรก็ตาม โมเดลเหล่านี้บางครั้งกลับทำผิดพลาดอย่างคาดไม่ถึงในปัญหาที่มนุษย์มองว่าง่าย
ตัวอย่างเช่น มีรายงานว่ามันมักคำนวณการคูณแบบง่ายผิดอยู่บ่อยครั้ง
ตามงานวิจัยของ Dziri เมื่อให้ GPT-4 คูณเลขสามหลัก มันตอบถูกเพียง 59% และเมื่อเป็นเลขสี่หลัก ความแม่นยำลดลงอย่างมากเหลือ 4%
ใน Einstein’s puzzle เวอร์ชันดัดแปลงเช่นกัน เมื่อบ้านมีคุณลักษณะน้อย (2-3 อย่าง) โมเดลทำได้แม่นยำสูง แต่เมื่อเพิ่มเป็น 4-5 อย่าง อัตราความสำเร็จลดลงอย่างรุนแรง
เมื่อทำ fine-tuning ให้ GPT-3 ด้วยข้อมูลการคูณ 1.8 ล้านชุด โมเดลทำได้ดีในช่วงที่รวมอยู่ในการฝึก แต่เมื่อถามในรูปแบบที่ต่างจากตัวอย่างฝึก ความแม่นยำกลับลดฮวบ
ข้อสรุปคือ โมเดลไม่ได้เข้าใจอัลกอริทึมจริง ๆ แต่ใกล้เคียงกับการเลียนแบบจากตัวอย่างฝึกมากกว่า

ข้อจำกัดที่ชัดเจน

ปัญหาที่ Dziri และนักวิจัยคนอื่นชี้ตรงกันคือการขาด “ความสามารถในการให้เหตุผลเชิงประกอบ”
Binghui Peng (Stanford University) สังเกตตั้งแต่สมัยเรียนปริญญาเอกที่ Columbia ว่า LLM มักตอบผิดในคำถามที่ต้องประกอบข้อเท็จจริง เช่น “พ่อของพ่อคือใคร”
เขาคำนวณว่า transformer แบบชั้นเดียวต้องใช้พารามิเตอร์มากเพียงใดในการแก้ปัญหานี้ และได้ข้อสรุปว่าหากขนาดของโดเมนใหญ่กว่าจำนวนพารามิเตอร์ของโมเดล ปัญหานั้นจะไม่สามารถแก้ได้
ต่อมาแม้จะขยายไปเป็น transformer หลายชั้น ก็ยังพิสูจน์ได้ว่าเมื่อเจอกับปัญหาการให้เหตุผลเชิงประกอบที่ซับซ้อน ก็เป็นไปไม่ได้ในทางคณิตศาสตร์
กล่าวคือ เมื่อขนาดโมเดลใหญ่ขึ้น มันอาจแก้ปัญหาที่ยากขึ้นได้ แต่หากระดับความยากของปัญหาขยายตามไปพร้อมกัน ข้อจำกัดก็จะปรากฏชัด
นักวิจัยบางส่วนได้ลองใช้โครงข่ายประสาทแบบอื่นนอกเหนือจาก transformer เช่น state-space models แต่ก็พบข้อจำกัดคล้ายกัน

ความพยายามเพื่อก้าวข้ามข้อจำกัด

มีการเสนอวิธีเสริมหลายแบบเพื่อเอาชนะข้อจำกัดของ LLM
ตัวอย่างเช่น ทีมของ Tom Goldstein (University of Maryland) เพิ่มข้อมูลตำแหน่งเข้าไปเมื่อนำตัวเลขป้อนเข้าสู่ transformer เพื่อให้สามารถคำนวณตัวเลขที่มีจำนวนหลักมากขึ้นได้
จากงานนี้ โมเดลที่ฝึกด้วยตัวเลข 20 หลักสามารถบวกเลข 100 หลักได้ด้วยความแม่นยำ 98%
อีกแนวทางหนึ่งคือเทคนิค chain-of-thought ที่ค่อย ๆ แสดงขั้นตอนการแก้ปัญหาไว้ในพรอมป์ต์
มีการสังเกตว่าโมเดลอย่าง GPT-4 แสดงศักยภาพในการแก้ปัญหาที่ซับซ้อนขึ้นได้ด้วยวิธีนี้
แนวทางนี้ตั้งอยู่บนหลักการ “แยกปัญหาใหญ่ให้เป็นลำดับของปัญหาเล็ก” และมีคำอธิบายเชิงทฤษฎีว่าวิธีนี้ช่วยขยายขอบเขตการคำนวณที่ transformer สามารถจัดการได้
อย่างไรก็ตาม โมเดลจริงไม่ได้แสดงความสามารถนี้กับทุกปัญหาเสมอไป และผลลัพธ์ก็ขึ้นอยู่กับวิธีฝึกและโครงสร้างของโมเดล
ท้ายที่สุดแล้ว LLM ยังคงอาศัยการจับคู่รูปแบบเป็นหลัก ดังนั้นสำหรับปัญหาการให้เหตุผลเชิงประกอบที่มีขนาดใหญ่หรือซับซ้อน ก็ยังมีข้อจำกัดอยู่เสมอ
ถึงกระนั้น ในมุมของผู้ใช้ทั่วไป ข้อจำกัดเหล่านี้อาจไม่ได้สำคัญมากนัก
แต่สำหรับนักวิจัยที่สร้างโมเดล การทำความเข้าใจและปรับแก้ข้อจำกัดเชิงโครงสร้างยังคงเป็นภารกิจสำคัญ
Dziri เน้นว่า “หากเราเข้าใจกลไกการทำงานภายในของ LLM ได้อย่างแม่นยำ โอกาสในการแก้ปัญหาเชิงพื้นฐานก็จะสูงขึ้น”

5 ความคิดเห็น

ned0909 2025-02-05

นั่นเป็นเรื่องก่อนยุคของการให้เหตุผล

bakyeono0 2025-02-04

มีปัญหาที่เครื่องหมาย ~ ถูกตีความว่าเป็นสัญลักษณ์จัดพิมพ์ขีดฆ่าใน Markdown ครับ/ค่ะ หากช่วยแก้ไขจะดีมากครับ/ค่ะ

rabolution 2025-02-04

ดังนั้นเวลาใช้ LLM ระหว่างเขียนโค้ด ยิ่งลดการพึ่งพากันและแยกความรับผิดชอบได้ดีเท่าไร ก็ยิ่งทำงานได้ดีขึ้นเท่านั้น จริง ๆ แล้วก็อดคิดไม่ได้ว่านี่อาจจะเป็นแบบเดียวกับมนุษย์เหมือนกัน ;)

hided62 2025-02-03

ตัวบทความเองค่อนข้างใหม่ แต่ดูเหมือนว่าพื้นฐานของบทความจะเป็นช่วงก่อน o1

เขาลองถามอะไรประมาณว่า "ลูกสาวของพี่สาวน้องสาวของแม่ของน้องชายพ่อ มีความสัมพันธ์ทางเครือญาติกับฉันกี่ชั้น?"
สำหรับ 4o เห็นได้ชัดว่ามีข้อจำกัดอยู่พอสมควร แต่ o1 หลบแม้กระทั่งคำถามหลอกได้หมดเลยครับ

GN⁺ 2025-02-03

ความเห็นจาก Hacker News

LLM มีลักษณะเหมือนโมเดลแมชชีนเลิร์นนิงอื่น ๆ คือจับคู่รูปแบบจากข้อมูลนำเข้าแล้วให้ผลลัพธ์ที่มีความเป็นไปได้สูงในเชิงสถิติ
- "Chain of thought" เมื่อผสานกับการเรียนรู้แบบเสริมกำลัง จะช่วยให้แก้ปัญหาที่ยากได้
- จำเป็นต้องมีนิยามความสำเร็จที่ชัดเจนและโมเดลรางวัล
- ความสามารถในการแก้ปัญหาของมนุษย์ก็อาศัยการจับคู่รูปแบบเช่นกัน และมนุษย์สามารถบูรณาการข้อมูลจำนวนมากได้อย่างมีประสิทธิภาพ
LLM เป็นสิ่งมหัศจรรย์ของ AI และกำลังพัฒนาสิ่งที่เคยถูกมองว่าเป็นไปไม่ได้ให้ก้าวหน้าไปทุก ๆ สองเดือน
- นักวิทยาศาสตร์บางคนประเมินผลงานของ LLM ต่ำเกินไป
- LeCun เคยบอกว่า LLM เป็นทางตัน และชี้ทิศทางอื่นให้กับนักวิจัย
- ผลงานด้าน LLM ของ Meta ที่ตามหลังบริษัทอื่น อาจเกี่ยวข้องกับความสงสัยนี้
มีข้อมูลที่ผิดพลาดเกี่ยวกับงานวิจัย LLM อยู่มาก
- โมเดลที่มีอายุ 6-12 เดือนทำได้เพียงการคิดอย่างง่าย
- งานที่ซับซ้อนด้านตรรกะและอัลกอริทึมต้องการการคิดแบบระบบ 2
- LLM สามารถคิดผ่านการเขียนโปรแกรมได้
o3-mini-high สามารถสร้างโค้ด Prolog ได้อย่างรวดเร็ว
- โค้ด Prolog ที่ยกมาเป็นตัวอย่างสามารถแก้ปัญหาได้สำเร็จ
ผลการวิจัยล่าสุดครอบคลุม GPT-3, 3.5 และ 4 รุ่นแรก
ChatGPT ให้ความรู้สึกเหมือนเสิร์ชเอนจินแบบรวดเร็ว มีอาการหลอนจำนวนมากและบริบทที่จำกัด
- มีคำสัญญามากมายเกี่ยวกับความก้าวหน้าในอนาคต แต่ความคืบหน้าจริงยังมีน้อย
ต้องแยกให้ออกว่างานวิจัยกำลังวิเคราะห์ LLM แบบล้วน ๆ หรือกำลังวิเคราะห์เอนจินสังเคราะห์ที่ใช้ LLM
- ผลงานของ o3 บน ARC-AGI-1 แสดงให้เห็นความสามารถของเอนจินสังเคราะห์
LLM อาจล้มเหลวกับคำถามง่าย ๆ ที่ต้องใช้การคิดแบบ 2D หรือ 3D
- AI สามารถถูกฝึกให้แสดงโลก 2D/3D ได้ดี
เมื่อข้อจำกัดของ LLM ถูกกล่าวถึงในบทความ ไม่กี่เดือนต่อมาก็มักจะมีแชตบอตที่ไม่มีข้อจำกัดนั้นออกมา
- ข้อจำกัดเหล่านี้ไม่ใช่ข้อจำกัดเชิงพื้นฐาน
กว่างานวิจัยเชิงวิชาการจะได้รับการตีพิมพ์ ก็มักผ่านไปแล้วหลายเดือน
- หากอยากรู้ขีดจำกัดของเทคโนโลยีล่าสุด การดูโซเชียลมีเดียน่าจะดีกว่าการอ่านงานวิจัย