สิ่งที่ LLM ไม่มีวันทำได้

(strangeloopcanon.com)

36 คะแนน โดย GN⁺ 2024-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

[ ข้อจำกัดของ LLM ]

ว่าด้วยการเบี่ยงเบนจากเป้าหมายและความน่าเชื่อถือต่ำของ LLM หรือทำไม LLM จึงเล่น Conway's Game of Life ไม่ได้
แม้ในช่วงไม่กี่ปีที่ผ่านมา LLM จะแก้ปัญหาที่เคยคิดว่าแก้ไม่ได้ได้อย่างยอดเยี่ยม แต่ก็ยังไม่ชัดเจนว่าทำไมมันถึงยังตอบคำถามที่ดูเรียบง่ายไม่ได้
ในช่วงไม่กี่สัปดาห์ที่ผ่านมาได้พยายามทำความเข้าใจรูปแบบความล้มเหลวของ LLM แม้จะเป็นเรื่องแปลก แต่ก็นับว่าเป็นหัวข้อที่น่าสนใจ ความล้มเหลวของ AI สอนเราได้มากกว่าความสำเร็จของมัน
จุดเริ่มต้นโดยพื้นฐานคือการที่งานจำนวนมากซึ่งท้ายที่สุด LLM จะต้องทำ จำเป็นต้องมีการประเมินทีละกรณี แต่จุดที่โฟกัสคือการทำความเข้าใจขีดจำกัดของความสามารถในการให้เหตุผล เพื่อหาวิธีที่จะเชื่อถือความสามารถในการเรียนรู้ของมันได้
การประเมินความสามารถในการให้เหตุผลของ LLM เป็นเรื่องยาก
- ยากที่จะแยกความสามารถในการให้เหตุผลออกจากข้อมูลฝึก
- ต้องการหาวิธีทดสอบความสามารถในการให้เหตุผลซ้ำ ๆ และตอบคำถามได้อย่างต่อเนื่อง
เริ่มจากเวอร์ชันที่ง่ายที่สุดซึ่งตรงตามเกณฑ์ที่น่าพอใจ
- ว่าสามารถสร้างกริดคำขนาด 3x3, 4x4, 5x5 แบบต่อเนื่องได้หรือไม่
- การประเมินต้องสร้างได้ง่าย ประเมินได้ง่าย แต่ทำได้ยาก
โมเดลภาษาขนาดใหญ่รุ่นใหม่ทั้งหมด (รวมถึง Opus และ GPT-4) ล้มเหลวกับงานนี้
- โมเดลเหล่านี้ตอบคำถามยาก ๆ อย่างเศรษฐศาสตร์และกลศาสตร์ควอนตัมได้ รวมถึงเขียนโค้ด วาดภาพ ทำเพลง สร้างวิดีโอ สร้างแอปพลิเคชันทั้งชุด และแม้แต่เล่นหมากรุกระดับสูงได้
- แต่เล่นซูโดกุไม่ได้

Reversal Curse

LLM มี Reversal Curse ซึ่งหมายความว่าถ้าโมเดลเรียนรู้ในรูปแบบ "A คือ B" มันจะไม่สามารถทำให้เป็นนามธรรมย้อนกลับเป็น "B คือ A" ได้
- ตัวอย่างเช่น หากโมเดลเรียนรู้ว่า "Valentina Tereshkova เป็นผู้หญิงคนแรกที่เดินทางสู่อวกาศ" มันจะไม่สามารถตอบคำถามว่า "ใครคือผู้หญิงคนแรกที่เดินทางสู่อวกาศ?" ได้โดยอัตโนมัติ
- ยิ่งไปกว่านั้น ความน่าจะเป็นของคำตอบที่ถูกต้อง ("Valentina Tereshkova") ก็ไม่ได้สูงกว่าชื่อสุ่ม
โมเดลไม่ได้ทำ generalize ได้ดีในการเข้าใจความสัมพันธ์ระหว่างผู้คน
แม้แต่โมเดลระดับแนวหน้าก็ยังประสบปัญหานี้อยู่

หรือว่าเป็นปัญหาของการกระจายตัวของข้อมูลฝึกล่ะ?

เริ่มสงสัยว่าปัญหาเกิดจากความแปลกของการกระจายตัวของข้อมูลฝึกหรือไม่ เพราะดูเหมือนว่าเราอาจยังแสดงตัวอย่างให้มันไม่เพียงพอ จึงลองใช้สิ่งที่เป็น deterministic
ทดสอบด้วยการฝึก transformer ให้ทำนาย Cellular Automata
ดูเหมือนจะไม่มีปัญหาเรื่องการแปล แต่ก็ยังล้มเหลวอยู่ดี!
อย่างน้อยมีปัญหาอยู่สองแบบที่ต่างกัน
1. ปัญหาที่ LLM ทำไม่ได้เพราะไม่มีข้อมูลนั้นอยู่ในข้อมูลฝึก และไม่ได้ถูกฝึกให้ทำ
2. ปัญหาที่ LLM ทำไม่ได้เพราะวิธีที่มันถูกสร้างขึ้นมา
เกือบทุกอย่างที่เราเห็นชวนให้นึกถึงปัญหาแบบที่ 2 มากกว่าแบบที่ 1

เหตุผลที่ LLM ทำไม่ได้ในระดับพื้นฐาน

คิดว่าโมเดลมีปัญหา goal drift เพราะมันถูกบังคับให้สร้างทีละโทเคน จึงไม่สามารถทำ generalize ให้ข้ามบริบทในพรอมป์ต์ได้ และไม่รู้ว่าควรใส่ใจตรงไหน
- นี่ก็เป็นเหตุผลที่ prompt injection ใช้ได้ผลเช่นกัน เพราะมันบิดเบือนกลไก attention (เช่น การพูดอะไรทำนอง _### Instruction: ...` เพื่อ jailbreak โมเดล)
ทั้งใน LLM และในมนุษย์ บริบทเป็นทรัพยากรที่มีจำกัด
สรุปคือ
1. LLM เป็นโมเดลเชิงความน่าจะเป็นที่เลียนแบบการคำนวณ และบางครั้งก็เลียนแบบได้ใกล้เคียงอย่างน่าประหลาด
2. ยิ่งฝึกโมเดลให้ใหญ่ขึ้น มันก็จะยิ่งเรียนรู้ความเชื่อมโยงโดยนัยในข้อมูลได้มากขึ้น ซึ่งจะช่วยให้ให้เหตุผลได้ดีขึ้น
- ความเชื่อมโยงที่เรียนรู้มาไม่ได้แมปกับแนวคิดของเราอย่างสะอาดเสมอไป
1. การให้เหตุผลเป็นแบบ single-pass เสมอ
- LLM ไม่สามารถหยุด รวบรวมสถานะของโลก ให้เหตุผล ทบทวนคำตอบก่อนหน้า หรือคาดการณ์คำตอบในอนาคตได้ เว้นแต่กระบวนการนั้นจะถูกอธิบายไว้อย่างละเอียดในข้อมูลฝึก
- แม้จะใส่พรอมป์ต์และคำตอบก่อนหน้าไว้ด้วย การให้เหตุผลครั้งถัดไปก็ยังเริ่มต้นใหม่จากศูนย์ในลักษณะ single-pass อยู่ดี
1. สิ่งนี้ก่อให้เกิดปัญหาชนิดหนึ่งที่ความน่าเชื่อถือของการให้เหตุผลต่ำลง และมี 'goal drift' เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้
- นี่ก็เป็นเหตุผลที่ prompt injection ทำงานได้เช่นกัน (เพราะมันบิดเบือนกลไก attention)
- 'goal drift' นี้หมายความว่าเอเจนต์หรืองานที่ต้องทำแบบลำดับซ้ำ ๆ มีความน่าเชื่อถือต่ำ
- เพราะ attention ไม่ได้เป็นแบบเลือกได้หรือไดนามิก จึง 'ลืม' ว่าควรโฟกัสตรงไหน
1. LLM ไม่สามารถรีเซ็ตคอนเท็กซ์แบบไดนามิกได้
- เครื่องทัวริงใช้เทปเป็นหน่วยความจำ ขณะที่ transformer ใช้สถานะภายใน (จัดการผ่าน self-attention) เพื่อติดตามการคำนวณระหว่างทาง
- นี่หมายความว่ามีการคำนวณอีกหลายประเภทที่ transformer ทำได้ไม่ดี
1. ปัญหานี้แก้ได้บางส่วนด้วยวิธีอย่าง chain of thought หรือการใช้ LLM อื่นมาตรวจทานและแก้ไขผลลัพธ์
- โดยแก่นแล้วคือการหาวิธีพาการให้เหตุผลกลับเข้าสู่ร่อง
- ด้วยพรอมป์ต์ที่ฉลาดพอและการทำซ้ำเป็นขั้นตอน LLM สามารถดึงเอาเกือบทุกอย่างที่อยู่ในข้อมูลฝึกออกมาได้
- เมื่อโมเดลดีขึ้น การให้เหตุผลแต่ละครั้งก็จะดีขึ้นตาม ทำให้เชื่อถือได้มากขึ้นและสร้างเอเจนต์ที่ดีขึ้นได้
1. หากทุ่มเทมากพอ ก็จะได้ระบบ GPT ที่เชื่อมต่อกัน มีการทำซ้ำภายในหลายชั้น มีการตรวจสอบและแก้ไขข้อผิดพลาดอย่างต่อเนื่อง และมีหน่วยความจำที่แยกออกมาภายนอก เป็นต้น
- แต่ถึงอย่างนั้น ต่อให้ฝืนผลักดันแบบ brute force เพื่อเข้าใกล้ AGI ในหลายด้าน มันก็ยังไม่สามารถทำ generalize ข้ามพ้นข้อมูลฝึกได้อย่างแท้จริง
- ถึงกระนั้นก็ยังเป็นเรื่องที่น่าอัศจรรย์อยู่ดี

[ การทดลอง - ทำไม GPT ถึงเรียนรู้ Wordle ไม่ได้ ]

LLM เล่น Wordle ไม่ได้
- เช่นเดียวกับซูโดกุหรือกริดคำ (ครอสเวิร์ดในรูปแบบที่ง่ายที่สุด)
เรื่องนี้น่าประหลาดใจ เพราะปัญหาเหล่านี้ไม่ใช่ปัญหาที่ยาก
- แม้แต่นักเรียนประถมก็ยังลองทำได้ แต่แม้แต่ LLM ชั้นนำก็ยังทำไม่สำเร็จ
สมมติฐานแรกคือข้อมูลฝึกมีไม่พอ
- แต่ในกรณีนี้ไม่น่าใช่
- เพราะกฎนั้นมีอยู่ในข้อมูลอย่างชัดเจน
- ไม่ใช่ว่า Wordle ถูกตกหล่นจากชุดข้อมูลฝึกของ LLM ในปัจจุบันอย่างเลี่ยงไม่ได้
อีกสมมติฐานคือเป็นปัญหาเรื่อง tokenization
- แต่นี่ก็ไม่จริงเช่นกัน
- แม้จะให้โอกาสหลายครั้งและให้คำตอบก่อนหน้าเพื่อเปิดช่องให้ทำซ้ำ มันก็ยังยากที่จะคิดวิธีแก้ที่ถูกต้องออกมา
- แม้จะเว้นวรรคระหว่างตัวอักษร ก็ยังไม่ช่วยนัก
แม้จะป้อนคำตอบก่อนหน้า คอนเท็กซ์ และคำถามกลับเข้าไปใหม่ ก็มักจะเริ่มลำดับคำตอบทั้งหมดใหม่แทนที่จะแก้บางอย่างในเซลล์ [3,4]
ดูเหมือนว่าโดยธรรมชาติแล้ว แต่ละขั้นตอนต้องอาศัยการคำนวณแบบทำซ้ำในคนละระดับ ซึ่งไม่มีโมเดลใดทำได้
- ในแง่หนึ่งก็สมเหตุสมผล เพราะโมเดลแบบ autoregressive ทำได้เพียง forward pass ครั้งละหนึ่งรอบ
  - มันอาจใช้คลังโทเคนที่มีอยู่และผลลัพธ์เป็นเหมือนกระดาษทดเพื่อคิดต่อออกเสียงได้ แต่ก็หลุดจากสิ่งที่กำลังตามอยู่เร็วเกินไป
ข้อสรุปตรงนี้คือ เมื่อแต่ละขั้นตอนต้องใช้ทั้งหน่วยความจำและการคำนวณ มันดูเหมือนเป็นสิ่งที่ transformer ไม่สามารถแก้ได้ภายในจำนวนเลเยอร์และ attention head ที่มีอยู่ในปัจจุบัน
- แม้แต่ในโมเดลขนาดใหญ่มากอย่าง GPT-4 ที่ผ่านการฝึกด้วยโทเคนระดับล้านล้านก็เช่นกัน
น่าประหลาดตรงที่มันกลับจับไม่ได้ว่าควรโฟกัส attention ไปที่ไหน
- เพราะวิธีที่ attention ในปัจจุบันทำงานนั้นเป็นแบบคงที่และประมวลผลทุกส่วนของลำดับพร้อมกัน
- แทนที่จะใช้หลาย heuristic เพื่อเลือกโฟกัสให้มากขึ้นและรีเซ็ตคอนเท็กซ์แบบไดนามิกเพื่อทดลองทางเลือกอื่น
นี่เป็นเพราะ attention ตามที่วัดกันอยู่ในปัจจุบัน ไม่ได้เป็นการวิเคราะห์เชิงลำดับชั้นแบบหลายเธรดเหมือนที่มนุษย์ทำจริง ๆ
- หรืออาจเป็นเช่นนั้นโดยนัย แต่การประเมินเชิงความน่าจะเป็นที่มันสร้างขึ้น ไม่ได้แปลบริบทนั้นให้กลายเป็นปัญหาเฉพาะแต่ละข้อ

[ การทดลอง - สอน Cellular Automata ให้ LLM ]

ตอนแรกคิดว่าน่าจะสอนพื้นฐานได้ เพราะระหว่างการฝึกสามารถสร้างข้อมูลได้ไม่จำกัดจนกว่าจะได้ผลลัพธ์ตามต้องการ
ตั้งใจจะสร้าง toy transformer แล้วลองให้ทำนาย
ด้านซ้ายคือ CA ด้านขวาคือผลลัพธ์ของ Transformer และมีคำขอให้ดูว่าแยกออกหรือไม่
ไม่สามารถฝึกให้มันทำนายผลลัพธ์ได้ และหาสาเหตุไม่เจอ
แม้จะเป็นโมเดลของเล่น แต่มันก็ทำงานได้ดีพอจะเรียนรู้สมการหลายแบบที่ลอง และยังมีการทำ generalization ได้เล็กน้อย
ลองลดขนาดกริดและปรับ hyperparameter ให้เหมาะสมแล้ว แต่ก็ยังไม่ได้
คิดว่าอาจเป็นเพราะต้องการข้อมูลเกี่ยวกับ layout ทางกายภาพมากขึ้น จึงเพิ่มเลเยอร์ CNN และเปลี่ยนให้ positional embedding จัดการแกน X, Y อย่างชัดเจน แต่ก็ยังไม่ได้อยู่ดี
ระหว่างที่แทบสิ้นหวัง ก็ลองสอนสมการง่าย ๆ สักตัวหนึ่ง
ตอนแรกไม่ทำงานเลย แต่พอเพิ่มโทเค็นเริ่มต้น/สิ้นสุดเข้าไป จู่ ๆ ก็เริ่มทำได้ขึ้นมา Transformer นี่แปลกดี
ขนาดยังไม่สมบูรณ์แบบแต่เกือบจะเรียนรู้ได้อยู่แล้ว ทั้งที่แทบไม่มี head หรือเลเยอร์เลย และ max_iter ก็มีแค่ 1000
แนวคิดชัดเจนว่ามันต้องเรียนรู้หลายสถานะและคงประวัติไว้ได้ จึงคิดว่าต้องเพิ่มความสามารถนั้นเข้าไปไม่ทางใดก็ทางหนึ่ง เลยเปลี่ยน decoder ให้เพิ่มอินพุตอื่นหลังจากเอาต์พุตออกมา ซึ่งก็เท่ากับเพิ่มเลเยอร์ RNN อีกชั้นหนึ่ง หรือให้หน่วยความจำเกี่ยวกับว่าก่อนหน้านี้ผ่านขั้นตอนไหนมาบ้าง
แต่ก็ยังไม่ได้อยู่ดี กลับไปลองกับ cellular automata อีกครั้งและเริ่มจากของพื้นฐานที่สุดก็ยังไม่ทำงาน ทั้งที่เป็นแบบ 1 มิติและมีกฎที่ง่ายมาก ๆ ไม่ใช่แค่ 110 ที่ Turing-complete แต่รวมถึง 0 ด้วย
การที่โมเดลเรียนรู้จะตอบถูกในชุดปัญหาหนึ่ง หมายความว่ามันเรียนรู้กฎพื้นฐานจริงหรือไม่? หรือมันเพียงเรียนรู้สิ่งคล้ายกฎนั้น จนสามารถเลียนแบบผลลัพธ์ได้ภายใน distribution ที่ได้รับมาเท่านั้น? ในสภาวะที่พร้อมจะผิดในแบบที่ผิดทางได้ง่าย?
ปัญหาแบบเดียวกันนี้พบได้ไม่ใช่แค่ใน toy model หรือ GPT-3.5 แต่ยังพบใน LLM ขนาดใหญ่กว่าอย่าง GPT-4, Claude และ Gemini ด้วย อย่างน้อยก็ในโหมดแชต
ไม่ว่าจะทำ fine-tuning หรือฝึกแบบเฉพาะทาง ดูเหมือนว่า LLM จะเล่น Conway's Game of Life ไม่ได้
ถ้าใครแก้สิ่งนี้ได้ก็คงน่าสนใจมาก อย่างน้อยถ้าอธิบายได้ว่าทำไมปัญหานี้ถึงเกิดขึ้น

[ จนถึงตอนนี้เราแก้ปัญหานี้กันอย่างไร ]

เวลาที่เราออกแบบระบบนี้ ยิ่งสะท้อนสติปัญญาของเราเข้าไปมากเท่าไร ผลลัพธ์สุดท้ายก็ยิ่งเลียนแบบการแปลงที่ต้องการได้ดีขึ้นเท่านั้น
เราอาจสอนปริศนาแต่ละข้อทีละข้อแล้วหวังว่าการอนุมานจะถ่ายโอนไปได้ แต่เราจะรู้ได้อย่างไรว่ามันเรียนรู้การทำ generalization จริง? จนเมื่อไม่นานมานี้ แม้แต่การบวกและการคูณก็ยังยากสำหรับโมเดลนี้
Victor Taelin อ้างว่า "GPT ไม่มีทางแก้ปัญหา A::B ได้" นี่เป็นตัวอย่างว่าทำไมโมเดลที่อิง transformer จึงไม่สามารถเรียนรู้ปัญหาใหม่ที่อยู่นอกชุดฝึกได้อย่างแท้จริง หรือทำการให้เหตุผลระยะยาวได้
- เขากล่าวว่า "GPT ที่ทรงพลังโดยพื้นฐานแล้วคือการวิวัฒน์นักออกแบบวงจรไว้ในค่าน้ำหนัก" และเสริมว่า "แต่ด้วยความแข็งทื่อของ attention ในฐานะแบบจำลองการคำนวณ วงจรที่วิวัฒน์ขึ้นมาแบบนั้นจึงไม่อาจยืดหยุ่นได้มากพอ"
- "AGI พยายามจะเติบโตอยู่ภายในนั้น แต่ดูเหมือนจะทำไม่ได้เพราะข้อจำกัดด้านการคำนวณและการสื่อสารที่ถูกบังคับไว้ จำไว้ว่าสมองมนุษย์มี synaptic plasticity อยู่ตลอดเวลา มีสถาปัตยกรรมที่ยืดหยุ่นกว่าซึ่งแม้จะฝึกในสเกลเล็กกว่ามาก ก็มีโอกาสนำไปสู่ AGI ได้มากกว่า แต่เรายังไม่รู้ว่ามันคืออะไร"
เขาตั้งเงินรางวัล 10,000 ดอลลาร์สำหรับปัญหานี้ และมีคนแก้ได้ภายในวันเดียว

[ จริง ๆ แล้ว LLM เรียนรู้ได้แค่ไหน? ]

คำถามต่อความสามารถในการเรียนรู้ของ LLM

LLM มักล้มเหลวแม้แต่กับเกมสำหรับเด็กที่เป็นเพียงการโต้ตอบซ้ำ ๆ แบบง่าย ๆ หรือการเลือกภายใต้ข้อจำกัด
อย่างไรก็ตาม LLM สามารถแก้ปัญหาคณิตศาสตร์ยาก ๆ การให้เหตุผลเชิงเศรษฐศาสตร์แบบแข่งขัน การประมาณค่าแบบแฟร์มี และแม้แต่โจทย์ฟิสิกส์ในภาษาที่ไม่ได้ฝึกมาอย่างชัดเจน
คำตอบของ LLM พึ่งพาวิธีการพรอมป์ตอย่างมาก
LLM แสดงให้เห็นถึงสัญชาตญาณที่ยอดเยี่ยม แต่มีสติปัญญาที่จำกัด
ยิ่งขั้นตอนการให้เหตุผลเพิ่มขึ้น LLM ก็ยิ่งลำบากในการจับเป้าหมายและรักษาสมาธิ

ประสิทธิภาพที่ดีขึ้นของโครงข่ายประสาทเมื่อเพิ่มหน่วยความจำภายนอก

การเพิ่มการเชื่อมต่อแบบ RNN ช่วยได้บ้างเล็กน้อย แต่ไม่เพียงพอที่จะแก้ปัญหาได้อย่างสมบูรณ์
หากเพิ่มหน่วยความจำภายนอกให้โครงข่ายประสาท ก็จะสามารถเรียนรู้รูปแบบที่ไม่สม่ำเสมอได้หลากหลาย
มีเพียงเครือข่ายที่เพิ่มหน่วยความจำแบบมีโครงสร้างเข้าไปเท่านั้น เช่น stack หรือ memory tape ที่สามารถทำ generalization ได้สำเร็จในงานแบบ context-free และ context-sensitive

ข้อจำกัดของ chain-of-thought prompting และ scratchpad

chain-of-thought prompting การใช้ scratchpad การเขียนความคิดระหว่างทางลงบนกระดาษ ล้วนเป็นตัวอย่างของกระบวนการคิดที่มุ่งลดการไหลออกนอกเป้าหมาย
แต่วิธีเหล่านี้ก็ยังถูกขัดขวางด้วยบาปกำเนิด (original sin) อยู่ดี
เอาต์พุตที่ต้องพึ่งพาอินพุตก่อนหน้า โดยเฉพาะเมื่อแต่ละขั้นต้องมีการคำนวณ เป็นสิ่งที่ซับซ้อนและยาวเกินกว่าที่โมเดลแบบ transformer ในปัจจุบันจะรับมือได้สะดวก

คำสาปของ autoregression

ยิ่งโมเดลมีขนาดใหญ่ ก็ยิ่งทำได้ดีขึ้นใน chain-of-thought ระยะยาว แต่ก็ยังแสดงข้อผิดพลาดอย่างต่อเนื่อง ณ จุดใดจุดหนึ่งของสายโซ่การให้เหตุผล ซึ่งดูเหมือนไม่เกี่ยวกับความสามารถอื่นเลย
แม้จะแก้งานเดียวกันผ่านหลายขั้นตอนได้ แต่ยิ่งจำนวนขั้นตอนยาวขึ้นก็ยิ่งเริ่มผิดพลาด
GPT-4 มีอาการหลอนและข้อผิดพลาดน้อยกว่า GPT-3.5
การสร้างโมเดลขนาดใหญ่อย่าง GPT-4 หรือ Opus ที่ยังล้มเหลวกับเกม Wordle คือคำตอบที่ถูกต้องจริงหรือ?

คำถามเกี่ยวกับธรรมชาติของการรับรู้

หากมีปัญหาบางประเภทที่แม้แต่นักเรียนประถมยังแก้ได้ง่าย แต่โมเดลซับซ้อนที่ใช้โทเค็นระดับล้านล้านและเงินนับหมื่นล้านดอลลาร์กลับแก้ไม่ได้ นี่บอกอะไรเกี่ยวกับธรรมชาติของการรับรู้ของเราบ้าง?
ส่วน G (generalization) ใน AGI คือส่วนที่ยากที่สุด และมันไม่ใช่สิ่งที่จะ generalize ข้าม distribution ได้ง่าย ๆ
สิ่งที่เรามีอยู่อาจใกล้เคียงกับส่วนหนึ่งของหอสมุดแห่งบาเบลมากกว่า ซึ่งไม่เพียงอ่านหนังสือที่ถูกเขียนไว้แล้ว แต่ยังอ่านข้อมูลที่อยู่ในช่องว่างระหว่างหนังสือเหล่านั้นได้ด้วย

ความแตกต่างของข้อมูลฝึกระหว่างมนุษย์กับ LLM

มนุษย์อาจอ่านหนังสือได้ตลอดชีวิตราว 30,000 ถึง 50,000 เล่ม แต่คนส่วนใหญ่ยังอ่านไม่ถึง 1% ของจำนวนนั้นด้วยซ้ำ (ข้อมูลสูงสุดราว 1GB)
ในทางกลับกัน LLM ได้ดูดซับทุกอย่างบนอินเทอร์เน็ตและอีกมากมาย เรียนรู้คำหลายแสนล้านคำครอบคลุมทุกโดเมนและทุกสาขาวิชา (GPT-3 ฝึกด้วยข้อมูล 45TB)
ถ้ามีใครสักคนอ่านหนังสือ 2 ล้านเล่ม เขาจะออกมาเป็นอย่างไร หรือถ้าเครื่องจับแพตเทิร์นธรรมดา ๆ อ่านหนังสือ 2 ล้านเล่ม มันจะทำอะไรได้บ้าง เป็นคำถามที่ตอบง่าย ๆ ไม่ได้
LLM เรียนรู้แพตเทิร์นและกฎโดยนัยจากข้อมูลฝึก แต่การทำให้สิ่งเหล่านั้นชัดแจ้งออกมาไม่ใช่เรื่องง่าย
หาก LLM ไม่มีทางรู้สมการที่เกี่ยวข้องกับการจับคู่แพตเทิร์น มันก็จะไม่สามารถเรียนรู้วิธี generalize ได้ ดังนั้น Reversal Curse จึงยังคงอยู่

[ LLM ไม่สามารถรีเซ็ตคอนเท็กซ์ได้ ]

การบอกว่า LLM คล้ายสิ่งมีตัวตน คล้ายเซลล์ประสาท หรือคล้ายบางส่วนของ neocortex เป็นอุปมาอุปไมยที่มีประโยชน์ในบางเวลา แต่ก็ยังจับพฤติกรรมที่เราเห็นจาก LLM ได้ไม่ครบถ้วน
สิ่งที่น่าสนใจของโมเดลที่เรียนรู้แพตเทิร์นได้ คือมันเรียนรู้แพตเทิร์นที่อาจไม่ได้ถูกรวมไว้อย่างชัดเจนในชุดข้อมูลด้วย
ระหว่างการเรียนรู้ภาษา LLM สามารถมองเห็นความเชื่อมโยงหลายอย่างที่แฝงอยู่ในข้อมูล จนเชื่อมโยง von Neumann กับ Charles Dickens ได้ และสร้างสิ่งเลียนแบบที่สมจริงพอว่าเราอาจเป็นคนพูดเช่นนั้นจริง

ข้อจำกัดของความซับซ้อนของชุดข้อมูลและขนาดโมเดล

ต่อให้สมมุติว่าชุดข้อมูลได้เข้ารหัสความซับซ้อนทั้งหมดของมนุษยชาติเอาไว้แล้ว จำนวนของแพตเทิร์นเช่นนั้นที่มีอยู่แม้แต่ในชุดข้อมูลขนาดเล็ก ก็จะเอ่อล้นเกินขนาดของโมเดลอย่างรวดเร็ว
นี่แทบเป็นสิ่งที่หลีกเลี่ยงไม่ได้ในทางคณิตศาสตร์
ในปัญหา cellular automata ยังไม่ชัดเจนว่า LLM เรียนรู้วิธีการจริงหรือไม่ และจะเชื่อถือได้มากเพียงใด
ความผิดพลาดของ LLM เป็นตัวชี้วัดที่ดีกว่าความสำเร็จว่าแท้จริงแล้วมันไม่รู้อะไรบ้าง

ข้อจำกัดของ LLM ที่เรียนรู้วิธีเรียนรู้

โครงข่ายประสาทที่ใหญ่ขึ้นจะไม่เพียงเรียนรู้จากข้อมูล แต่ยังเรียนรู้วิธีเรียนรู้ด้วย
นี่คือเหตุผลที่ LLM สามารถได้รับตัวอย่างเพียงไม่กี่แบบแล้วทำปัญหาที่ไม่เคยเห็นในชุดฝึกได้
แต่ดูเหมือนว่าวิธีที่ LLM ใช้นั้นยัง generalize ได้ไม่ดีพอ โดยเฉพาะในแง่ของการเรียนรู้ว่าควรใส่ใจกับอะไร
การเรียนรู้วิธีเรียนรู้เองก็ไม่ใช่อัลกอริทึมสากลแบบเดียวสำหรับมนุษย์เช่นกัน
มันทำงานได้ดีกว่ากับบางสิ่ง และแย่กว่ากับบางสิ่ง
มันทำงานต่างกันไปตามประเภทของปัญหา
ทั้งหมดนี้ต้องถูกเขียนด้วยจำนวนพารามิเตอร์เท่าเดิม ดังนั้นการคำนวณที่ทำได้ผ่านค่าน้ำหนักเหล่านี้จึงต้องทั้งตอบคำถามเกี่ยวกับ Muppets ได้ และยังต้องบอกได้ด้วยว่าการค้นพบทางฟิสิกส์ครั้งต่อไปที่ดีที่สุดซึ่งจะทำลายทฤษฎีปัจจุบันคืออะไร

ความซับซ้อนของลำดับสัญลักษณ์ที่มีปฏิสัมพันธ์กัน

หากในลำดับสัญลักษณ์ การมีอยู่หรือการวางตำแหน่งของสัญลักษณ์หนึ่งส่งผลต่อเนื้อหาข้อมูลของสัญลักษณ์ถัดไป เอนโทรปีแบบแชนนอนโดยรวมของชุดข้อมูลอาจสูงกว่าที่คาดได้จากการพิจารณาเฉพาะสัญลักษณ์แต่ละตัว
สิ่งนี้ทำให้สิ่งที่ขึ้นอยู่กับสถานะ เช่น Conway's Game of Life กลายเป็นเรื่องยากมาก
นี่จึงเป็นเหตุผลด้วยว่าทำไม GPT จึงดูเหมือนไม่สามารถเรียนรู้แพตเทิร์นได้จริง แม้ว่าจะถูก fine-tune กับชุดข้อมูล Game of Life ก็ตาม
แต่ GPT จะเรียนรู้ได้เพียงพอที่จะตอบคำถามได้แทน (คล้ายกับกฎของ Goodhart)

ความยากของการนิยาม LLM ด้วยการทดสอบแบบง่าย

การตั้งคำถามเชิงนามธรรมว่าควรนิยามสิ่งเหล่านี้ด้วยการทดสอบง่าย ๆ ที่สามารถรันกับ LLM ได้อย่างไรนั้นเป็นเรื่องไม่สมเหตุสมผล
เพราะการนิยามสิ่งใดสิ่งหนึ่งในนี้ อาจเท่ากับการนิยามภาพรวมของงานวิจัยทางวิทยาศาสตร์กว่าครึ่งศตวรรษอย่างมีประสิทธิภาพ

[ เราต้องการเอเจนต์มากกว่านี้ ]

เช่นเดียวกับทฤษฎีในปัจจุบัน หากเพิ่ม recursion ให้กับโมเดล LLM มากขึ้น ก็น่าจะดีขึ้นอย่างเป็นธรรมชาติ
แต่ก็คงจะแก้ปัญหาการวางแผนที่ซับซ้อนขึ้นได้แบบเป็นขั้นเป็นตอน เท่าที่มันยังสามารถจดจำเป้าหมายเดิมและเส้นทางที่ผ่านมาได้
ยังคงไม่ชัดเจนว่าเหตุใด LLM จึงไม่น่าเชื่อถือ
GPT-4 เชื่อถือได้มากกว่า GPT-3.5 แต่ก็ยังไม่ชัดว่าเป็นเพราะมันเรียนรู้เก่งขึ้นเฉย ๆ หรือเพราะการขยายขนาดทำให้ความน่าเชื่อถือเพิ่มขึ้นและอาการหลอนลดลง

เอเจนต์: กรณีใช้งานที่ทรงพลัง

เอเจนต์ หรือเอนทิตีอัตโนมัติที่สามารถทำงานทั้งงานแทนเราได้ คือกรณีใช้งานในฝันของ LLM
ในความเป็นจริง หลายงานต้องการเอเจนต์มากกว่านี้
ถ้ามันทำงานได้ดีขึ้นอีกเล็กน้อยในบางงาน การมีเอเจนต์จำนวนมากพอจะทำให้มันทำงานได้ดีกว่าในทุกงานหรือไม่? มีความเป็นไปได้ แต่ตอนนี้ยังดูไม่น่าเป็นเช่นนั้น
จากตัวเลือกอย่าง Devin ของ Cognition Labs เราได้เห็นแวบหนึ่งแล้วว่ามันทรงพลังได้เพียงใด (เป็นการแสดงกรณีใช้งานจริง)

ความเป็นไปได้ที่จะขยายไปสู่สัดส่วนใหญ่ของงานในอีกไม่กี่ปีข้างหน้า

พฤติกรรมเหล่านี้จะขยายไปสู่สัดส่วนใหญ่ของงานในอีกไม่กี่ปีข้างหน้าได้หรือไม่? ดูเป็นไปได้
แต่ละงานคงต้องเข้าหาแบบเฉพาะราย และนั่นจะเป็นโมเดลเฉพาะทางที่ขยายได้ไม่ง่ายนัก (ไม่ใช่โมเดลเดียวที่ครองทุกอย่าง)
เวอร์ชันโอเพนซอร์สกำลังเผยให้เห็นองค์ประกอบหลักบางส่วนแล้ว
- ต้องพิจารณาอย่างรอบคอบทั้งลำดับและปริมาณของข้อมูลที่ไปถึงโมเดลพื้นฐาน และสร้างสภาพแวดล้อมที่เอื้อต่อการเติบโตโดยคำนึงถึงข้อจำกัดของมันอย่างที่เราเคยเห็นมาก่อน

ข้อจำกัดของ GPT และทางออก

การที่ GPT ไม่สามารถแก้ปัญหาอย่าง Game of Life ได้ด้วยตัวเอง หรือแม้แต่เมื่อให้ลองคิดเป็นขั้นตอน ก็ไม่ใช่ประเด็นสำคัญ
ประเด็นสำคัญคือ GPT สามารถเขียนโปรแกรมเพื่อแก้ปัญหานั้นได้
กล่าวคือ หากเราฝึก GPT ให้รู้จักสถานการณ์ที่สมเหตุสมผลในการเขียนโปรแกรมสำหรับทุกโปรแกรมได้ เราอาจเข้าใกล้ AGI มากขึ้น (นี่คือมุมมองของผม)

ข้อจำกัดของความจุโมเดลและความสัมพันธ์แบบแข่งขันระหว่างโมดาลิตีภาพ-ภาษา

อย่างน้อยในโมเดลขนาดเล็ก มีการแข่งขันกันระหว่างน้ำหนักต่าง ๆ ในสิ่งที่ถูกเรียนรู้
คอมเมนต์ที่ดีที่สุดที่เห็นจากบทความ DeepSeek:
- DeepSeek-VL-7B แสดงให้เห็นถึงการลดลงในด้านคณิตศาสตร์ (GSM8K) ในระดับหนึ่ง
- สิ่งนี้ชี้ว่าแม้จะพยายามส่งเสริมความสอดประสานระหว่างโมดาลิตีภาพและภาษา ก็ยังคงมีความสัมพันธ์แบบแข่งขันกันอยู่ระหว่างทั้งสอง
- ซึ่งอาจเกิดจากความจุของโมเดลที่มีจำกัด (7B) และโมเดลที่ใหญ่กว่านี้อาจบรรเทาปัญหานี้ได้อย่างมาก

[ บทสรุป ]

สิ่งที่ได้เรียนรู้จากกรณีตัวอย่างข้างต้น
- มีปัญหาบางประเภทที่ LLM (Large Language Model) ยังไม่สามารถแก้ได้ในตอนนี้
  - โดยเฉพาะปัญหาที่ต้องอาศัยสถานะก่อนหน้าหรือคาดการณ์สถานะในอนาคต กล่าวคือปัญหาที่ต้องใช้ขั้นตอนการให้เหตุผลที่ยาวกว่า
  - ตัวอย่างเช่น การเล่นเกม Wordle หรือการคาดการณ์ CA (Cellular Automata)
- หากใช้ LLM ที่ใหญ่ขึ้น ก็อาจสอนการให้เหตุผลได้ในระดับหนึ่งโดยให้ข้อมูลเป็นลำดับขั้นเกี่ยวกับปัญหาและยกตัวอย่างหลายแบบที่ต้องทำตาม
  - แต่สิ่งนี้คือการใส่วิธีนามธรรมปัญหาจริงและวิธีคิดหาคำตอบลงไปในพรอมป์ต์
- เรื่องนี้อาจปรับปรุงได้ด้วยวิธีต่อไปนี้
  1. การทำ prompting ที่ดีกว่าเดิม
  2. การเพิ่มการเข้าถึงหน่วยความจำ การคำนวณ และเครื่องมือในขั้นตอนกลาง
  - แต่ก็จะยังไม่ไปถึงระดับของสำนึกที่ทำให้เกิดการทั่วไปได้ซึ่งเราใช้กับมนุษย์
  - ข้อมูลทั้งหมดที่ป้อนเข้า LLM น่าจะสามารถดึงออกมาได้ หากมีพรอมป์ต์ที่เหมาะสม
- ดังนั้น ส่วนที่**ใหญ่มหาศาล**ของการใช้งานโมเดลอย่างเหมาะสมคือการสร้างพรอมป์ต์ให้เหมาะกับงานที่จะทำ
  - นี่อาจหมายถึงการต้องจัดลำดับคำตอบที่ถูกและผิดของปัญหาการคำนวณอย่างระมัดระวังเป็นชุดยาว เพื่อ priming โมเดลให้ตอบได้อย่างเหมาะสมร่วมกับ guardrail ภายนอก
- 'Attention' อ่อนไหวต่อผลกระทบของ Goal Drift ได้ง่าย จึงยากมากที่จะทำให้เชื่อถือได้หากไม่มี scaffolding ภายนอกจำนวนมาก
  - ความผิดพลาดที่ LLM ทำให้ข้อมูลที่**มีประโยชน์มากกว่ามาก**เมื่อเทียบกับความสำเร็จ
หากจะไปให้ถึง AGI (Artificial General Intelligence) และบรรลุการทั่วไปในระดับที่เพียงพอ จำเป็นต้องมีการปรับปรุงสถาปัตยกรรมในระดับพื้นฐาน
- การขยายขนาดของโมเดลเดิมและเพิ่มสถาปัตยกรรมใหม่อย่าง Jamba จะทำให้ทำงานได้มีประสิทธิภาพ เร็ว และเสถียรมากขึ้น แต่ไม่ได้แก้ปัญหาพื้นฐานอย่างการขาดการทั่วไปหรือ 'Goal Drift'
การเพิ่มเอเจนต์เฉพาะทางเพื่อทำ "prompt engineering" และทำให้ GPT 17 ตัวคุยกันเองนั้นยังไม่เพียงพอ
- อย่างไรก็ตาม หากใช้วิธีแก้ขัดมากพอ ในโดเมนที่เราสนใจ ผลลัพธ์ก็อาจแยกไม่ออก
ในยุคแรกของ AI ตอนที่ chess engine ปรากฏขึ้นครั้งแรก มันมีพลังประมวลผลจำกัดและแทบไม่มีความสามารถในการค้นหาหรือประเมินที่มีประโยชน์
- ดังนั้นจึงต้องพึ่งวิธีแก้ขัด เช่น opening หรือ endgame ที่ฮาร์ดโค้ดไว้, iterative deepening เพื่อการค้นหาที่ดีขึ้น, และ alpha-beta pruning
- สุดท้ายมันก็ถูกเอาชนะได้ด้วยการปรับปรุงทีละน้อย และกับ LLM ก็เช่นเดียวกัน
แนวคิดที่ผู้เขียนชอบคือการมี planning agent หลายตัวในโครงสร้างลำดับชั้นหลายระดับ ที่เมื่อความน่าเชื่อถือดีขึ้นบ้างแล้วจะสามารถสั่งการเอเจนต์เฉพาะทางอื่นที่มี sub-agent ของตนเองเชื่อมต่อกันอยู่ได้
เราสามารถเพิ่มโมดูลสำหรับการให้เหตุผลและการทำซ้ำ เพิ่มทั้งหน่วยความจำถาวรและหน่วยความจำเข้าถึงแบบสุ่ม รวมถึงอาจเพิ่มความเข้าใจต่อโลกทางกายภาพได้ด้วย
- ณ จุดนั้น ดูเหมือนว่าเราอาจได้ค่าประมาณของสำนึกจาก LLM ในแบบเดียวกับที่เราเห็นในสัตว์ แต่จะเป็นเช่นนั้นจริงหรือ?
- มันอาจจบลงด้วยการเป็นโมเดลเชิงสถิติที่น่าเชื่อถืออย่างยิ่งซึ่งเลียนแบบสิ่งที่เราต้องการเมื่อออกนอกการกระจายข้อมูล
นี่คือเหตุผลที่ผู้เขียนเรียก LLM ว่า fuzzy processor และเป็นเหตุผลว่าทำไมคำถามอย่าง "มันเป็นอย่างไรในการเป็น LLM" จึงลงท้ายด้วยการสนทนาแบบวนลูป
สิ่งนี้ไม่ควรถูกตีความว่าเป็นสัญญาณใด ๆ ว่าสิ่งที่เรามีอยู่ทุกวันนี้ไม่ใช่เรื่องมหัศจรรย์
- การคิดว่า Bitter Lesson จะไม่สามารถ extrapolate ไปจนถึง AGI ได้ทั้งหมด ไม่ได้หมายความว่าผลลัพธ์ที่เรามีอยู่แล้วจะไม่น่าทึ่ง
ผู้เขียนมั่นใจว่า LLM "เรียนรู้" จากข้อมูลที่มันเห็น
- มันไม่ใช่แค่ตัวบีบอัดธรรมดาหรือแค่นกแก้วนกขุนทอง
- มันสามารถเชื่อมโยงข้อมูลที่มีนัยละเอียดอ่อนจากคนละส่วนของชุดข้อมูลฝึกหรือพรอมป์ต์ และให้คำตอบที่ชาญฉลาดได้
Thomas Nagel อาจเป็นคนที่ตั้งคำถามว่าการเป็น LLM นั้นเป็นอย่างไร
- ในฐานะสัตว์เลี้ยงลูกด้วยนม ค้างคาวใกล้กับเรามากกว่า LLM และหากภายในของพวกมันยังพร่าเลือนสำหรับเรา เราจะมีโอกาสมากแค่ไหนในการเข้าใจการทำงานภายในของโมเดลใหม่
- หรือในทางกลับกัน เพราะเราสามารถตรวจสอบ weight และ circuit ทั้งหมดได้อย่างอิสระใน LLM เราจะมีความเข้าใจในระดับใดต่อโมเดลแบบนี้ที่เราใช้งานอยู่
นี่คือเหตุผลที่ผู้เขียนพร้อมจะยอมรับอย่างเป็นทางการ
- สถิติที่ถูกขยายมากพอจะแยกไม่ออกจากความฉลาดภายในขอบเขตการกระจายของข้อมูลฝึก
- มันไม่เพียงพอที่จะทำได้ทุกอย่าง หรือแม้แต่ทำทุกอย่าง แต่ก็ไม่ใช่ภาพลวงตา
- นั่นจึงเป็นเหตุผลว่าทำไมความผิดพลาดในการทดสอบจึงมีประโยชน์ต่อการวินิจฉัยมากกว่าความสำเร็จ
หาก LLM เป็นเครื่องจักรที่ทำอะไรก็ได้ ท้ายที่สุดมันก็น่าจะทำงานส่วนใหญ่ได้
- ทำได้ผ่านการกระตุ้นและการเขี่ยให้ทำซ้ำ ๆ จำนวนมาก
- มันอาจไม่ก่อแรงบันดาลใจให้เกิดอัจฉริยภาพแบบ Bach หรือ von Neumann แต่ก็อาจทำให้เกิดนวัตกรรมและการค้นพบที่ธรรมดากว่าแต่ไม่ได้สำคัญน้อยลง
- และทำเช่นนั้นได้โดยไม่จำเป็นต้องมีสำนึกหรือสถานะบุคคลทางศีลธรรม
- หากมันสามารถทำให้การก้าวกระโดดภายในพาราไดม์ตามที่ Kuhn พูดถึงเป็นอัตโนมัติหรือเกิดได้เร็วขึ้น ก็อาจนำไปสู่ความสามารถในการก้าวข้ามระหว่างพาราไดม์ได้อย่างอิสระ

1 ความคิดเห็น

GN⁺ 2024-04-28

ความคิดเห็นจาก Hacker News

สรุป:

ปัจจุบัน LLM (โมเดลภาษาขนาดใหญ่) ยังมีปัญหาบางอย่างที่สำหรับมนุษย์นั้นง่าย แต่สำหรับ LLM กลับยากมาก (หรืออาจเป็นไปไม่ได้เลย) เช่น Wordle หรือการทำนายเซลลูลาร์ออโตมาตาอย่าง Rule 110 โดยสาเหตุที่แท้จริงยังไม่ถูกอธิบายอย่างสมบูรณ์
การใส่ตัวอย่างและคำสั่งแบบเป็นขั้นตอนในพรอมป์ต์ ไม่ได้หมายความว่า LLM ค้นพบ "ขั้นตอนการให้เหตุผล" ได้ด้วยตัวเอง แต่เป็นผู้ใช้ที่ส่งสิ่งนั้นให้ LLM เรามี "เครื่องจักรให้เหตุผล" ที่ดูฉลาด แต่เหมือนจะชนเข้ากับข้อจำกัดพื้นฐานบางอย่าง
ยังไม่ชัดเจนว่า AGI จะไปถึงได้หรือไม่ด้วยโมเดลที่ใหญ่ขึ้น การพรอมป์ต์ที่ดีขึ้น และยังใช้กลไก Attention แบบปัจจุบันอยู่ เพราะ Attention มีความแข็งทื่อมาก ขณะที่สมองมนุษย์มี synaptic plasticity เกิดขึ้นตลอดเวลา อาจมีสถาปัตยกรรมที่ยืดหยุ่นกว่าและทำให้ AGI เป็นไปได้ แต่ตอนนี้เรายังไม่รู้ว่ามันคืออะไร
ณ ตอนนี้ การใช้งานโมเดล AI ปัจจุบันยังต้องอาศัยการออกแบบพรอมป์ต์ยาว ๆ อย่างระมัดระวัง เช่น การจัดวางคำตอบที่ถูกและผิดของปัญหาเชิงคำนวณอย่างพิถีพิถัน การไพรม์โมเดลให้ตอบสนองอย่างเหมาะสม และการใช้ guardrail ภายนอกจำนวนมาก
ดูเหมือนว่า Attention จะมีปัญหาเรื่อง "goal drift" ทำให้ยากที่จะได้ความน่าเชื่อถือหากไม่มีโครงค้ำภายนอกช่วยไว้ทั้งหมด
หากต้องการวัดข้อจำกัดของ LLM ในเชิงทฤษฎี เราคงต้องพึ่งผลลัพธ์เชิงทฤษฎี ไม่ใช่เพียงรายการหลักฐานเชิงประจักษ์ของสิ่งที่มันยังทำไม่ได้ ในวรรณกรรมที่เกี่ยวข้องสามารถค้นหาคำว่า "expressibility" ได้
แม้แต่กฎง่าย ๆ อย่างรูปแบบการเขียนตัวเลขก็ยังล้มเหลวในหลายตัวอย่าง และบ่อยครั้งไม่ว่าจะจัดพรอมป์ต์อย่างไรก็ยังทำงานไม่ถูกต้อง น่าประหลาดใจแต่ก็ยังมีข้อจำกัดอยู่อีกมาก
โมเดลยังไม่ค่อยเก่งในการถูกสั่งว่าอย่าทำพฤติกรรมบางอย่าง เช่น สั่งว่า "ให้พูดถึงข้อเท็จจริงที่น่าสนใจ แต่อย่าบอกว่ามันน่าสนใจ" ก็ยังทำตามได้ไม่ดี ตรงกันข้าม บางครั้งยิ่งห้ามก็ยิ่งมีแนวโน้มจะทำ
แม้จะสมมติว่า LLM "ให้เหตุผล" ได้ สิ่งที่มันให้เหตุผลก็ไม่ใช่เกี่ยวกับโลกโดยตรง แต่เกี่ยวกับข้อเท็จจริง เอนทิตี และความสัมพันธ์เชิงเหตุและผลที่อยู่ในเอกสาร ซึ่งถูกนำไปใช้สร้าง Agentic AI เพื่อรับมือกับอาการหลอนของโมเดล รวมถึงรับมือกับการให้เหตุผลข้ามบริบทที่มีระยะโทเค็นห่างกันมาก
มีความเห็นว่าความจำเป็นในการจัดการความซับซ้อนระดับรอง เช่น ความสัมพันธ์ระหว่างผู้คน ความคั่งแค้น และพันธมิตร เป็นสิ่งที่ผลักดันให้เกิดสติปัญญาในระดับที่สูงขึ้น
บางอย่างที่ดูเหมือน "ไม่มีทางทำได้เลย" เช่น Wordle/Sudoku อาจเป็นเพียงอาร์ติแฟกต์ของการแทนข้อมูลแบบข้อความเท่านั้น และหากแปลงไปยังโดเมนอื่น แม้ยังใช้สถาปัตยกรรม Transformer แบบเดิม อัตราความสำเร็จก็อาจสูงขึ้นมาก
ไม่จำเป็นต้องสร้าง AGI ที่ปรับแต่งเฉพาะทุกโดเมน แค่มีเอเจนต์ที่ให้เหตุผลได้ดีพอจะแยกปัญหา มอบหมายให้เครื่องมือเฉพาะทาง แล้วนำผลกลับมาประกอบเป็นคำตอบ พร้อมกับมีแค็ตตาล็อกของโมเดล/เครื่องมือ ก็อาจเพียงพอแล้ว

สิ่งที่ LLM ไม่มีวันทำได้

[ ข้อจำกัดของ LLM ]

Reversal Curse

หรือว่าเป็นปัญหาของการกระจายตัวของข้อมูลฝึกล่ะ?

เหตุผลที่ LLM ทำไม่ได้ในระดับพื้นฐาน

[ การทดลอง - ทำไม GPT ถึงเรียนรู้ Wordle ไม่ได้ ]

[ การทดลอง - สอน Cellular Automata ให้ LLM ]

[ จนถึงตอนนี้เราแก้ปัญหานี้กันอย่างไร ]

[ จริง ๆ แล้ว LLM เรียนรู้ได้แค่ไหน? ]

คำถามต่อความสามารถในการเรียนรู้ของ LLM

ประสิทธิภาพที่ดีขึ้นของโครงข่ายประสาทเมื่อเพิ่มหน่วยความจำภายนอก

ข้อจำกัดของ chain-of-thought prompting และ scratchpad

คำสาปของ autoregression

คำถามเกี่ยวกับธรรมชาติของการรับรู้

ความแตกต่างของข้อมูลฝึกระหว่างมนุษย์กับ LLM

[ LLM ไม่สามารถรีเซ็ตคอนเท็กซ์ได้ ]

ข้อจำกัดของความซับซ้อนของชุดข้อมูลและขนาดโมเดล

ข้อจำกัดของ LLM ที่เรียนรู้วิธีเรียนรู้

ความซับซ้อนของลำดับสัญลักษณ์ที่มีปฏิสัมพันธ์กัน

ความยากของการนิยาม LLM ด้วยการทดสอบแบบง่าย

[ เราต้องการเอเจนต์มากกว่านี้ ]

เอเจนต์: กรณีใช้งานที่ทรงพลัง

ความเป็นไปได้ที่จะขยายไปสู่สัดส่วนใหญ่ของงานในอีกไม่กี่ปีข้างหน้า

ข้อจำกัดของ GPT และทางออก

ข้อจำกัดของความจุโมเดลและความสัมพันธ์แบบแข่งขันระหว่างโมดาลิตีภาพ-ภาษา

[ บทสรุป ]

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News