[ ข้อจำกัดของ LLM ]
- ว่าด้วยการเบี่ยงเบนจากเป้าหมายและความน่าเชื่อถือต่ำของ LLM หรือทำไม LLM จึงเล่น Conway's Game of Life ไม่ได้
- แม้ในช่วงไม่กี่ปีที่ผ่านมา LLM จะแก้ปัญหาที่เคยคิดว่าแก้ไม่ได้ได้อย่างยอดเยี่ยม แต่ก็ยังไม่ชัดเจนว่าทำไมมันถึงยังตอบคำถามที่ดูเรียบง่ายไม่ได้
- ในช่วงไม่กี่สัปดาห์ที่ผ่านมาได้พยายามทำความเข้าใจรูปแบบความล้มเหลวของ LLM แม้จะเป็นเรื่องแปลก แต่ก็นับว่าเป็นหัวข้อที่น่าสนใจ ความล้มเหลวของ AI สอนเราได้มากกว่าความสำเร็จของมัน
- จุดเริ่มต้นโดยพื้นฐานคือการที่งานจำนวนมากซึ่งท้ายที่สุด LLM จะต้องทำ จำเป็นต้องมีการประเมินทีละกรณี แต่จุดที่โฟกัสคือการทำความเข้าใจขีดจำกัดของความสามารถในการให้เหตุผล เพื่อหาวิธีที่จะเชื่อถือความสามารถในการเรียนรู้ของมันได้
- การประเมินความสามารถในการให้เหตุผลของ LLM เป็นเรื่องยาก
- ยากที่จะแยกความสามารถในการให้เหตุผลออกจากข้อมูลฝึก
- ต้องการหาวิธีทดสอบความสามารถในการให้เหตุผลซ้ำ ๆ และตอบคำถามได้อย่างต่อเนื่อง
- เริ่มจากเวอร์ชันที่ง่ายที่สุดซึ่งตรงตามเกณฑ์ที่น่าพอใจ
- ว่าสามารถสร้างกริดคำขนาด 3x3, 4x4, 5x5 แบบต่อเนื่องได้หรือไม่
- การประเมินต้องสร้างได้ง่าย ประเมินได้ง่าย แต่ทำได้ยาก
- โมเดลภาษาขนาดใหญ่รุ่นใหม่ทั้งหมด (รวมถึง Opus และ GPT-4) ล้มเหลวกับงานนี้
- โมเดลเหล่านี้ตอบคำถามยาก ๆ อย่างเศรษฐศาสตร์และกลศาสตร์ควอนตัมได้ รวมถึงเขียนโค้ด วาดภาพ ทำเพลง สร้างวิดีโอ สร้างแอปพลิเคชันทั้งชุด และแม้แต่เล่นหมากรุกระดับสูงได้
- แต่เล่นซูโดกุไม่ได้
Reversal Curse
- LLM มี
Reversal Curse ซึ่งหมายความว่าถ้าโมเดลเรียนรู้ในรูปแบบ "A คือ B" มันจะไม่สามารถทำให้เป็นนามธรรมย้อนกลับเป็น "B คือ A" ได้
- ตัวอย่างเช่น หากโมเดลเรียนรู้ว่า "Valentina Tereshkova เป็นผู้หญิงคนแรกที่เดินทางสู่อวกาศ" มันจะไม่สามารถตอบคำถามว่า "ใครคือผู้หญิงคนแรกที่เดินทางสู่อวกาศ?" ได้โดยอัตโนมัติ
- ยิ่งไปกว่านั้น ความน่าจะเป็นของคำตอบที่ถูกต้อง ("Valentina Tereshkova") ก็ไม่ได้สูงกว่าชื่อสุ่ม
- โมเดลไม่ได้ทำ generalize ได้ดีในการเข้าใจความสัมพันธ์ระหว่างผู้คน
- แม้แต่โมเดลระดับแนวหน้าก็ยังประสบปัญหานี้อยู่
หรือว่าเป็นปัญหาของการกระจายตัวของข้อมูลฝึกล่ะ?
- เริ่มสงสัยว่าปัญหาเกิดจากความแปลกของการกระจายตัวของข้อมูลฝึกหรือไม่ เพราะดูเหมือนว่าเราอาจยังแสดงตัวอย่างให้มันไม่เพียงพอ จึงลองใช้สิ่งที่เป็น deterministic
- ทดสอบด้วยการฝึก transformer ให้ทำนาย Cellular Automata
- ดูเหมือนจะไม่มีปัญหาเรื่องการแปล แต่ก็ยังล้มเหลวอยู่ดี!
- อย่างน้อยมีปัญหาอยู่สองแบบที่ต่างกัน
- ปัญหาที่ LLM ทำไม่ได้เพราะไม่มีข้อมูลนั้นอยู่ในข้อมูลฝึก และไม่ได้ถูกฝึกให้ทำ
- ปัญหาที่ LLM ทำไม่ได้เพราะวิธีที่มันถูกสร้างขึ้นมา
- เกือบทุกอย่างที่เราเห็นชวนให้นึกถึงปัญหาแบบที่ 2 มากกว่าแบบที่ 1
เหตุผลที่ LLM ทำไม่ได้ในระดับพื้นฐาน
- คิดว่าโมเดลมีปัญหา goal drift เพราะมันถูกบังคับให้สร้างทีละโทเคน จึงไม่สามารถทำ generalize ให้ข้ามบริบทในพรอมป์ต์ได้ และไม่รู้ว่าควรใส่ใจตรงไหน
- นี่ก็เป็นเหตุผลที่ prompt injection ใช้ได้ผลเช่นกัน เพราะมันบิดเบือนกลไก attention (เช่น การพูดอะไรทำนอง _### Instruction: ...` เพื่อ jailbreak โมเดล)
- ทั้งใน LLM และในมนุษย์ บริบทเป็นทรัพยากรที่มีจำกัด
- สรุปคือ
- LLM เป็นโมเดลเชิงความน่าจะเป็นที่เลียนแบบการคำนวณ และบางครั้งก็เลียนแบบได้ใกล้เคียงอย่างน่าประหลาด
- ยิ่งฝึกโมเดลให้ใหญ่ขึ้น มันก็จะยิ่งเรียนรู้ความเชื่อมโยงโดยนัยในข้อมูลได้มากขึ้น ซึ่งจะช่วยให้ให้เหตุผลได้ดีขึ้น
- ความเชื่อมโยงที่เรียนรู้มาไม่ได้แมปกับแนวคิดของเราอย่างสะอาดเสมอไป
- การให้เหตุผลเป็นแบบ single-pass เสมอ
- LLM ไม่สามารถหยุด รวบรวมสถานะของโลก ให้เหตุผล ทบทวนคำตอบก่อนหน้า หรือคาดการณ์คำตอบในอนาคตได้ เว้นแต่กระบวนการนั้นจะถูกอธิบายไว้อย่างละเอียดในข้อมูลฝึก
- แม้จะใส่พรอมป์ต์และคำตอบก่อนหน้าไว้ด้วย การให้เหตุผลครั้งถัดไปก็ยังเริ่มต้นใหม่จากศูนย์ในลักษณะ single-pass อยู่ดี
- สิ่งนี้ก่อให้เกิดปัญหาชนิดหนึ่งที่ความน่าเชื่อถือของการให้เหตุผลต่ำลง และมี 'goal drift' เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้
- นี่ก็เป็นเหตุผลที่ prompt injection ทำงานได้เช่นกัน (เพราะมันบิดเบือนกลไก attention)
- 'goal drift' นี้หมายความว่าเอเจนต์หรืองานที่ต้องทำแบบลำดับซ้ำ ๆ มีความน่าเชื่อถือต่ำ
- เพราะ attention ไม่ได้เป็นแบบเลือกได้หรือไดนามิก จึง 'ลืม' ว่าควรโฟกัสตรงไหน
- LLM ไม่สามารถรีเซ็ตคอนเท็กซ์แบบไดนามิกได้
- เครื่องทัวริงใช้เทปเป็นหน่วยความจำ ขณะที่ transformer ใช้สถานะภายใน (จัดการผ่าน self-attention) เพื่อติดตามการคำนวณระหว่างทาง
- นี่หมายความว่ามีการคำนวณอีกหลายประเภทที่ transformer ทำได้ไม่ดี
- ปัญหานี้แก้ได้บางส่วนด้วยวิธีอย่าง chain of thought หรือการใช้ LLM อื่นมาตรวจทานและแก้ไขผลลัพธ์
- โดยแก่นแล้วคือการหาวิธีพาการให้เหตุผลกลับเข้าสู่ร่อง
- ด้วยพรอมป์ต์ที่ฉลาดพอและการทำซ้ำเป็นขั้นตอน LLM สามารถดึงเอาเกือบทุกอย่างที่อยู่ในข้อมูลฝึกออกมาได้
- เมื่อโมเดลดีขึ้น การให้เหตุผลแต่ละครั้งก็จะดีขึ้นตาม ทำให้เชื่อถือได้มากขึ้นและสร้างเอเจนต์ที่ดีขึ้นได้
- หากทุ่มเทมากพอ ก็จะได้ระบบ GPT ที่เชื่อมต่อกัน มีการทำซ้ำภายในหลายชั้น มีการตรวจสอบและแก้ไขข้อผิดพลาดอย่างต่อเนื่อง และมีหน่วยความจำที่แยกออกมาภายนอก เป็นต้น
- แต่ถึงอย่างนั้น ต่อให้ฝืนผลักดันแบบ brute force เพื่อเข้าใกล้ AGI ในหลายด้าน มันก็ยังไม่สามารถทำ generalize ข้ามพ้นข้อมูลฝึกได้อย่างแท้จริง
- ถึงกระนั้นก็ยังเป็นเรื่องที่น่าอัศจรรย์อยู่ดี
[ การทดลอง - ทำไม GPT ถึงเรียนรู้ Wordle ไม่ได้ ]
- LLM เล่น Wordle ไม่ได้
- เช่นเดียวกับซูโดกุหรือกริดคำ (ครอสเวิร์ดในรูปแบบที่ง่ายที่สุด)
- เรื่องนี้น่าประหลาดใจ เพราะปัญหาเหล่านี้ไม่ใช่ปัญหาที่ยาก
- แม้แต่นักเรียนประถมก็ยังลองทำได้ แต่แม้แต่ LLM ชั้นนำก็ยังทำไม่สำเร็จ
- สมมติฐานแรกคือข้อมูลฝึกมีไม่พอ
- แต่ในกรณีนี้ไม่น่าใช่
- เพราะกฎนั้นมีอยู่ในข้อมูลอย่างชัดเจน
- ไม่ใช่ว่า Wordle ถูกตกหล่นจากชุดข้อมูลฝึกของ LLM ในปัจจุบันอย่างเลี่ยงไม่ได้
- อีกสมมติฐานคือเป็นปัญหาเรื่อง tokenization
- แต่นี่ก็ไม่จริงเช่นกัน
- แม้จะให้โอกาสหลายครั้งและให้คำตอบก่อนหน้าเพื่อเปิดช่องให้ทำซ้ำ มันก็ยังยากที่จะคิดวิธีแก้ที่ถูกต้องออกมา
- แม้จะเว้นวรรคระหว่างตัวอักษร ก็ยังไม่ช่วยนัก
- แม้จะป้อนคำตอบก่อนหน้า คอนเท็กซ์ และคำถามกลับเข้าไปใหม่ ก็มักจะเริ่มลำดับคำตอบทั้งหมดใหม่แทนที่จะแก้บางอย่างในเซลล์ [3,4]
- ดูเหมือนว่าโดยธรรมชาติแล้ว แต่ละขั้นตอนต้องอาศัยการคำนวณแบบทำซ้ำในคนละระดับ ซึ่งไม่มีโมเดลใดทำได้
- ในแง่หนึ่งก็สมเหตุสมผล เพราะโมเดลแบบ autoregressive ทำได้เพียง forward pass ครั้งละหนึ่งรอบ
- มันอาจใช้คลังโทเคนที่มีอยู่และผลลัพธ์เป็นเหมือนกระดาษทดเพื่อคิดต่อออกเสียงได้ แต่ก็หลุดจากสิ่งที่กำลังตามอยู่เร็วเกินไป
- ข้อสรุปตรงนี้คือ เมื่อแต่ละขั้นตอนต้องใช้ทั้งหน่วยความจำและการคำนวณ มันดูเหมือนเป็นสิ่งที่ transformer ไม่สามารถแก้ได้ภายในจำนวนเลเยอร์และ attention head ที่มีอยู่ในปัจจุบัน
- แม้แต่ในโมเดลขนาดใหญ่มากอย่าง GPT-4 ที่ผ่านการฝึกด้วยโทเคนระดับล้านล้านก็เช่นกัน
- น่าประหลาดตรงที่มันกลับจับไม่ได้ว่าควรโฟกัส attention ไปที่ไหน
- เพราะวิธีที่ attention ในปัจจุบันทำงานนั้นเป็นแบบคงที่และประมวลผลทุกส่วนของลำดับพร้อมกัน
- แทนที่จะใช้หลาย heuristic เพื่อเลือกโฟกัสให้มากขึ้นและรีเซ็ตคอนเท็กซ์แบบไดนามิกเพื่อทดลองทางเลือกอื่น
- นี่เป็นเพราะ attention ตามที่วัดกันอยู่ในปัจจุบัน ไม่ได้เป็นการวิเคราะห์เชิงลำดับชั้นแบบหลายเธรดเหมือนที่มนุษย์ทำจริง ๆ
- หรืออาจเป็นเช่นนั้นโดยนัย แต่การประเมินเชิงความน่าจะเป็นที่มันสร้างขึ้น ไม่ได้แปลบริบทนั้นให้กลายเป็นปัญหาเฉพาะแต่ละข้อ
[ การทดลอง - สอน Cellular Automata ให้ LLM ]
- ตอนแรกคิดว่าน่าจะสอนพื้นฐานได้ เพราะระหว่างการฝึกสามารถสร้างข้อมูลได้ไม่จำกัดจนกว่าจะได้ผลลัพธ์ตามต้องการ
- ตั้งใจจะสร้าง toy transformer แล้วลองให้ทำนาย
- ด้านซ้ายคือ CA ด้านขวาคือผลลัพธ์ของ Transformer และมีคำขอให้ดูว่าแยกออกหรือไม่
- ไม่สามารถฝึกให้มันทำนายผลลัพธ์ได้ และหาสาเหตุไม่เจอ
- แม้จะเป็นโมเดลของเล่น แต่มันก็ทำงานได้ดีพอจะเรียนรู้สมการหลายแบบที่ลอง และยังมีการทำ generalization ได้เล็กน้อย
- ลองลดขนาดกริดและปรับ hyperparameter ให้เหมาะสมแล้ว แต่ก็ยังไม่ได้
- คิดว่าอาจเป็นเพราะต้องการข้อมูลเกี่ยวกับ layout ทางกายภาพมากขึ้น จึงเพิ่มเลเยอร์ CNN และเปลี่ยนให้ positional embedding จัดการแกน X, Y อย่างชัดเจน แต่ก็ยังไม่ได้อยู่ดี
- ระหว่างที่แทบสิ้นหวัง ก็ลองสอนสมการง่าย ๆ สักตัวหนึ่ง
- ตอนแรกไม่ทำงานเลย แต่พอเพิ่มโทเค็นเริ่มต้น/สิ้นสุดเข้าไป จู่ ๆ ก็เริ่มทำได้ขึ้นมา Transformer นี่แปลกดี
- ขนาดยังไม่สมบูรณ์แบบแต่เกือบจะเรียนรู้ได้อยู่แล้ว ทั้งที่แทบไม่มี head หรือเลเยอร์เลย และ
max_iter ก็มีแค่ 1000
- แนวคิดชัดเจนว่ามันต้องเรียนรู้หลายสถานะและคงประวัติไว้ได้ จึงคิดว่าต้องเพิ่มความสามารถนั้นเข้าไปไม่ทางใดก็ทางหนึ่ง เลยเปลี่ยน decoder ให้เพิ่มอินพุตอื่นหลังจากเอาต์พุตออกมา ซึ่งก็เท่ากับเพิ่มเลเยอร์ RNN อีกชั้นหนึ่ง หรือให้หน่วยความจำเกี่ยวกับว่าก่อนหน้านี้ผ่านขั้นตอนไหนมาบ้าง
- แต่ก็ยังไม่ได้อยู่ดี กลับไปลองกับ cellular automata อีกครั้งและเริ่มจากของพื้นฐานที่สุดก็ยังไม่ทำงาน ทั้งที่เป็นแบบ 1 มิติและมีกฎที่ง่ายมาก ๆ ไม่ใช่แค่ 110 ที่ Turing-complete แต่รวมถึง 0 ด้วย
- การที่โมเดลเรียนรู้จะตอบถูกในชุดปัญหาหนึ่ง หมายความว่ามันเรียนรู้กฎพื้นฐานจริงหรือไม่? หรือมันเพียงเรียนรู้สิ่งคล้ายกฎนั้น จนสามารถเลียนแบบผลลัพธ์ได้ภายใน distribution ที่ได้รับมาเท่านั้น? ในสภาวะที่พร้อมจะผิดในแบบที่ผิดทางได้ง่าย?
- ปัญหาแบบเดียวกันนี้พบได้ไม่ใช่แค่ใน toy model หรือ GPT-3.5 แต่ยังพบใน LLM ขนาดใหญ่กว่าอย่าง GPT-4, Claude และ Gemini ด้วย อย่างน้อยก็ในโหมดแชต
- ไม่ว่าจะทำ fine-tuning หรือฝึกแบบเฉพาะทาง ดูเหมือนว่า LLM จะเล่น Conway's Game of Life ไม่ได้
- ถ้าใครแก้สิ่งนี้ได้ก็คงน่าสนใจมาก อย่างน้อยถ้าอธิบายได้ว่าทำไมปัญหานี้ถึงเกิดขึ้น
[ จนถึงตอนนี้เราแก้ปัญหานี้กันอย่างไร ]
- เวลาที่เราออกแบบระบบนี้ ยิ่งสะท้อนสติปัญญาของเราเข้าไปมากเท่าไร ผลลัพธ์สุดท้ายก็ยิ่งเลียนแบบการแปลงที่ต้องการได้ดีขึ้นเท่านั้น
- เราอาจสอนปริศนาแต่ละข้อทีละข้อแล้วหวังว่าการอนุมานจะถ่ายโอนไปได้ แต่เราจะรู้ได้อย่างไรว่ามันเรียนรู้การทำ generalization จริง? จนเมื่อไม่นานมานี้ แม้แต่การบวกและการคูณก็ยังยากสำหรับโมเดลนี้
- Victor Taelin อ้างว่า "GPT ไม่มีทางแก้ปัญหา A::B ได้" นี่เป็นตัวอย่างว่าทำไมโมเดลที่อิง transformer จึงไม่สามารถเรียนรู้ปัญหาใหม่ที่อยู่นอกชุดฝึกได้อย่างแท้จริง หรือทำการให้เหตุผลระยะยาวได้
- เขากล่าวว่า "GPT ที่ทรงพลังโดยพื้นฐานแล้วคือการวิวัฒน์นักออกแบบวงจรไว้ในค่าน้ำหนัก" และเสริมว่า "แต่ด้วยความแข็งทื่อของ attention ในฐานะแบบจำลองการคำนวณ วงจรที่วิวัฒน์ขึ้นมาแบบนั้นจึงไม่อาจยืดหยุ่นได้มากพอ"
- "AGI พยายามจะเติบโตอยู่ภายในนั้น แต่ดูเหมือนจะทำไม่ได้เพราะข้อจำกัดด้านการคำนวณและการสื่อสารที่ถูกบังคับไว้ จำไว้ว่าสมองมนุษย์มี synaptic plasticity อยู่ตลอดเวลา มีสถาปัตยกรรมที่ยืดหยุ่นกว่าซึ่งแม้จะฝึกในสเกลเล็กกว่ามาก ก็มีโอกาสนำไปสู่ AGI ได้มากกว่า แต่เรายังไม่รู้ว่ามันคืออะไร"
- เขาตั้งเงินรางวัล 10,000 ดอลลาร์สำหรับปัญหานี้ และมีคนแก้ได้ภายในวันเดียว
[ จริง ๆ แล้ว LLM เรียนรู้ได้แค่ไหน? ]
คำถามต่อความสามารถในการเรียนรู้ของ LLM
- LLM มักล้มเหลวแม้แต่กับเกมสำหรับเด็กที่เป็นเพียงการโต้ตอบซ้ำ ๆ แบบง่าย ๆ หรือการเลือกภายใต้ข้อจำกัด
- อย่างไรก็ตาม LLM สามารถแก้ปัญหาคณิตศาสตร์ยาก ๆ การให้เหตุผลเชิงเศรษฐศาสตร์แบบแข่งขัน การประมาณค่าแบบแฟร์มี และแม้แต่โจทย์ฟิสิกส์ในภาษาที่ไม่ได้ฝึกมาอย่างชัดเจน
- คำตอบของ LLM พึ่งพาวิธีการพรอมป์ตอย่างมาก
- LLM แสดงให้เห็นถึงสัญชาตญาณที่ยอดเยี่ยม แต่มีสติปัญญาที่จำกัด
- ยิ่งขั้นตอนการให้เหตุผลเพิ่มขึ้น LLM ก็ยิ่งลำบากในการจับเป้าหมายและรักษาสมาธิ
ประสิทธิภาพที่ดีขึ้นของโครงข่ายประสาทเมื่อเพิ่มหน่วยความจำภายนอก
- การเพิ่มการเชื่อมต่อแบบ RNN ช่วยได้บ้างเล็กน้อย แต่ไม่เพียงพอที่จะแก้ปัญหาได้อย่างสมบูรณ์
- หากเพิ่มหน่วยความจำภายนอกให้โครงข่ายประสาท ก็จะสามารถเรียนรู้รูปแบบที่ไม่สม่ำเสมอได้หลากหลาย
- มีเพียงเครือข่ายที่เพิ่มหน่วยความจำแบบมีโครงสร้างเข้าไปเท่านั้น เช่น stack หรือ memory tape ที่สามารถทำ generalization ได้สำเร็จในงานแบบ context-free และ context-sensitive
ข้อจำกัดของ chain-of-thought prompting และ scratchpad
- chain-of-thought prompting การใช้ scratchpad การเขียนความคิดระหว่างทางลงบนกระดาษ ล้วนเป็นตัวอย่างของกระบวนการคิดที่มุ่งลดการไหลออกนอกเป้าหมาย
- แต่วิธีเหล่านี้ก็ยังถูกขัดขวางด้วยบาปกำเนิด (original sin) อยู่ดี
- เอาต์พุตที่ต้องพึ่งพาอินพุตก่อนหน้า โดยเฉพาะเมื่อแต่ละขั้นต้องมีการคำนวณ เป็นสิ่งที่ซับซ้อนและยาวเกินกว่าที่โมเดลแบบ transformer ในปัจจุบันจะรับมือได้สะดวก
คำสาปของ autoregression
- ยิ่งโมเดลมีขนาดใหญ่ ก็ยิ่งทำได้ดีขึ้นใน chain-of-thought ระยะยาว แต่ก็ยังแสดงข้อผิดพลาดอย่างต่อเนื่อง ณ จุดใดจุดหนึ่งของสายโซ่การให้เหตุผล ซึ่งดูเหมือนไม่เกี่ยวกับความสามารถอื่นเลย
- แม้จะแก้งานเดียวกันผ่านหลายขั้นตอนได้ แต่ยิ่งจำนวนขั้นตอนยาวขึ้นก็ยิ่งเริ่มผิดพลาด
- GPT-4 มีอาการหลอนและข้อผิดพลาดน้อยกว่า GPT-3.5
- การสร้างโมเดลขนาดใหญ่อย่าง GPT-4 หรือ Opus ที่ยังล้มเหลวกับเกม Wordle คือคำตอบที่ถูกต้องจริงหรือ?
คำถามเกี่ยวกับธรรมชาติของการรับรู้
- หากมีปัญหาบางประเภทที่แม้แต่นักเรียนประถมยังแก้ได้ง่าย แต่โมเดลซับซ้อนที่ใช้โทเค็นระดับล้านล้านและเงินนับหมื่นล้านดอลลาร์กลับแก้ไม่ได้ นี่บอกอะไรเกี่ยวกับธรรมชาติของการรับรู้ของเราบ้าง?
- ส่วน G (generalization) ใน AGI คือส่วนที่ยากที่สุด และมันไม่ใช่สิ่งที่จะ generalize ข้าม distribution ได้ง่าย ๆ
- สิ่งที่เรามีอยู่อาจใกล้เคียงกับส่วนหนึ่งของหอสมุดแห่งบาเบลมากกว่า ซึ่งไม่เพียงอ่านหนังสือที่ถูกเขียนไว้แล้ว แต่ยังอ่านข้อมูลที่อยู่ในช่องว่างระหว่างหนังสือเหล่านั้นได้ด้วย
ความแตกต่างของข้อมูลฝึกระหว่างมนุษย์กับ LLM
- มนุษย์อาจอ่านหนังสือได้ตลอดชีวิตราว 30,000 ถึง 50,000 เล่ม แต่คนส่วนใหญ่ยังอ่านไม่ถึง 1% ของจำนวนนั้นด้วยซ้ำ (ข้อมูลสูงสุดราว 1GB)
- ในทางกลับกัน LLM ได้ดูดซับทุกอย่างบนอินเทอร์เน็ตและอีกมากมาย เรียนรู้คำหลายแสนล้านคำครอบคลุมทุกโดเมนและทุกสาขาวิชา (GPT-3 ฝึกด้วยข้อมูล 45TB)
- ถ้ามีใครสักคนอ่านหนังสือ 2 ล้านเล่ม เขาจะออกมาเป็นอย่างไร หรือถ้าเครื่องจับแพตเทิร์นธรรมดา ๆ อ่านหนังสือ 2 ล้านเล่ม มันจะทำอะไรได้บ้าง เป็นคำถามที่ตอบง่าย ๆ ไม่ได้
- LLM เรียนรู้แพตเทิร์นและกฎโดยนัยจากข้อมูลฝึก แต่การทำให้สิ่งเหล่านั้นชัดแจ้งออกมาไม่ใช่เรื่องง่าย
- หาก LLM ไม่มีทางรู้สมการที่เกี่ยวข้องกับการจับคู่แพตเทิร์น มันก็จะไม่สามารถเรียนรู้วิธี generalize ได้ ดังนั้น Reversal Curse จึงยังคงอยู่
[ LLM ไม่สามารถรีเซ็ตคอนเท็กซ์ได้ ]
- การบอกว่า LLM คล้ายสิ่งมีตัวตน คล้ายเซลล์ประสาท หรือคล้ายบางส่วนของ neocortex เป็นอุปมาอุปไมยที่มีประโยชน์ในบางเวลา แต่ก็ยังจับพฤติกรรมที่เราเห็นจาก LLM ได้ไม่ครบถ้วน
- สิ่งที่น่าสนใจของโมเดลที่เรียนรู้แพตเทิร์นได้ คือมันเรียนรู้แพตเทิร์นที่อาจไม่ได้ถูกรวมไว้อย่างชัดเจนในชุดข้อมูลด้วย
- ระหว่างการเรียนรู้ภาษา LLM สามารถมองเห็นความเชื่อมโยงหลายอย่างที่แฝงอยู่ในข้อมูล จนเชื่อมโยง von Neumann กับ Charles Dickens ได้ และสร้างสิ่งเลียนแบบที่สมจริงพอว่าเราอาจเป็นคนพูดเช่นนั้นจริง
ข้อจำกัดของความซับซ้อนของชุดข้อมูลและขนาดโมเดล
- ต่อให้สมมุติว่าชุดข้อมูลได้เข้ารหัสความซับซ้อนทั้งหมดของมนุษยชาติเอาไว้แล้ว จำนวนของแพตเทิร์นเช่นนั้นที่มีอยู่แม้แต่ในชุดข้อมูลขนาดเล็ก ก็จะเอ่อล้นเกินขนาดของโมเดลอย่างรวดเร็ว
- นี่แทบเป็นสิ่งที่หลีกเลี่ยงไม่ได้ในทางคณิตศาสตร์
- ในปัญหา cellular automata ยังไม่ชัดเจนว่า LLM เรียนรู้วิธีการจริงหรือไม่ และจะเชื่อถือได้มากเพียงใด
- ความผิดพลาดของ LLM เป็นตัวชี้วัดที่ดีกว่าความสำเร็จว่าแท้จริงแล้วมันไม่รู้อะไรบ้าง
ข้อจำกัดของ LLM ที่เรียนรู้วิธีเรียนรู้
- โครงข่ายประสาทที่ใหญ่ขึ้นจะไม่เพียงเรียนรู้จากข้อมูล แต่ยังเรียนรู้วิธีเรียนรู้ด้วย
- นี่คือเหตุผลที่ LLM สามารถได้รับตัวอย่างเพียงไม่กี่แบบแล้วทำปัญหาที่ไม่เคยเห็นในชุดฝึกได้
- แต่ดูเหมือนว่าวิธีที่ LLM ใช้นั้นยัง generalize ได้ไม่ดีพอ โดยเฉพาะในแง่ของการเรียนรู้ว่าควรใส่ใจกับอะไร
- การเรียนรู้วิธีเรียนรู้เองก็ไม่ใช่อัลกอริทึมสากลแบบเดียวสำหรับมนุษย์เช่นกัน
- มันทำงานได้ดีกว่ากับบางสิ่ง และแย่กว่ากับบางสิ่ง
- มันทำงานต่างกันไปตามประเภทของปัญหา
- ทั้งหมดนี้ต้องถูกเขียนด้วยจำนวนพารามิเตอร์เท่าเดิม ดังนั้นการคำนวณที่ทำได้ผ่านค่าน้ำหนักเหล่านี้จึงต้องทั้งตอบคำถามเกี่ยวกับ Muppets ได้ และยังต้องบอกได้ด้วยว่าการค้นพบทางฟิสิกส์ครั้งต่อไปที่ดีที่สุดซึ่งจะทำลายทฤษฎีปัจจุบันคืออะไร
ความซับซ้อนของลำดับสัญลักษณ์ที่มีปฏิสัมพันธ์กัน
- หากในลำดับสัญลักษณ์ การมีอยู่หรือการวางตำแหน่งของสัญลักษณ์หนึ่งส่งผลต่อเนื้อหาข้อมูลของสัญลักษณ์ถัดไป เอนโทรปีแบบแชนนอนโดยรวมของชุดข้อมูลอาจสูงกว่าที่คาดได้จากการพิจารณาเฉพาะสัญลักษณ์แต่ละตัว
- สิ่งนี้ทำให้สิ่งที่ขึ้นอยู่กับสถานะ เช่น Conway's Game of Life กลายเป็นเรื่องยากมาก
- นี่จึงเป็นเหตุผลด้วยว่าทำไม GPT จึงดูเหมือนไม่สามารถเรียนรู้แพตเทิร์นได้จริง แม้ว่าจะถูก fine-tune กับชุดข้อมูล Game of Life ก็ตาม
- แต่ GPT จะเรียนรู้ได้เพียงพอที่จะตอบคำถามได้แทน (คล้ายกับกฎของ Goodhart)
ความยากของการนิยาม LLM ด้วยการทดสอบแบบง่าย
- การตั้งคำถามเชิงนามธรรมว่าควรนิยามสิ่งเหล่านี้ด้วยการทดสอบง่าย ๆ ที่สามารถรันกับ LLM ได้อย่างไรนั้นเป็นเรื่องไม่สมเหตุสมผล
- เพราะการนิยามสิ่งใดสิ่งหนึ่งในนี้ อาจเท่ากับการนิยามภาพรวมของงานวิจัยทางวิทยาศาสตร์กว่าครึ่งศตวรรษอย่างมีประสิทธิภาพ
[ เราต้องการเอเจนต์มากกว่านี้ ]
- เช่นเดียวกับทฤษฎีในปัจจุบัน หากเพิ่ม recursion ให้กับโมเดล LLM มากขึ้น ก็น่าจะดีขึ้นอย่างเป็นธรรมชาติ
- แต่ก็คงจะแก้ปัญหาการวางแผนที่ซับซ้อนขึ้นได้แบบเป็นขั้นเป็นตอน เท่าที่มันยังสามารถจดจำเป้าหมายเดิมและเส้นทางที่ผ่านมาได้
- ยังคงไม่ชัดเจนว่าเหตุใด LLM จึงไม่น่าเชื่อถือ
- GPT-4 เชื่อถือได้มากกว่า GPT-3.5 แต่ก็ยังไม่ชัดว่าเป็นเพราะมันเรียนรู้เก่งขึ้นเฉย ๆ หรือเพราะการขยายขนาดทำให้ความน่าเชื่อถือเพิ่มขึ้นและอาการหลอนลดลง
เอเจนต์: กรณีใช้งานที่ทรงพลัง
- เอเจนต์ หรือเอนทิตีอัตโนมัติที่สามารถทำงานทั้งงานแทนเราได้ คือกรณีใช้งานในฝันของ LLM
- ในความเป็นจริง หลายงานต้องการเอเจนต์มากกว่านี้
- ถ้ามันทำงานได้ดีขึ้นอีกเล็กน้อยในบางงาน การมีเอเจนต์จำนวนมากพอจะทำให้มันทำงานได้ดีกว่าในทุกงานหรือไม่? มีความเป็นไปได้ แต่ตอนนี้ยังดูไม่น่าเป็นเช่นนั้น
- จากตัวเลือกอย่าง Devin ของ Cognition Labs เราได้เห็นแวบหนึ่งแล้วว่ามันทรงพลังได้เพียงใด (เป็นการแสดงกรณีใช้งานจริง)
ความเป็นไปได้ที่จะขยายไปสู่สัดส่วนใหญ่ของงานในอีกไม่กี่ปีข้างหน้า
- พฤติกรรมเหล่านี้จะขยายไปสู่สัดส่วนใหญ่ของงานในอีกไม่กี่ปีข้างหน้าได้หรือไม่? ดูเป็นไปได้
- แต่ละงานคงต้องเข้าหาแบบเฉพาะราย และนั่นจะเป็นโมเดลเฉพาะทางที่ขยายได้ไม่ง่ายนัก (ไม่ใช่โมเดลเดียวที่ครองทุกอย่าง)
- เวอร์ชันโอเพนซอร์สกำลังเผยให้เห็นองค์ประกอบหลักบางส่วนแล้ว
- ต้องพิจารณาอย่างรอบคอบทั้งลำดับและปริมาณของข้อมูลที่ไปถึงโมเดลพื้นฐาน และสร้างสภาพแวดล้อมที่เอื้อต่อการเติบโตโดยคำนึงถึงข้อจำกัดของมันอย่างที่เราเคยเห็นมาก่อน
ข้อจำกัดของ GPT และทางออก
- การที่ GPT ไม่สามารถแก้ปัญหาอย่าง Game of Life ได้ด้วยตัวเอง หรือแม้แต่เมื่อให้ลองคิดเป็นขั้นตอน ก็ไม่ใช่ประเด็นสำคัญ
- ประเด็นสำคัญคือ GPT สามารถเขียนโปรแกรมเพื่อแก้ปัญหานั้นได้
- กล่าวคือ หากเราฝึก GPT ให้รู้จักสถานการณ์ที่สมเหตุสมผลในการเขียนโปรแกรมสำหรับทุกโปรแกรมได้ เราอาจเข้าใกล้ AGI มากขึ้น (นี่คือมุมมองของผม)
ข้อจำกัดของความจุโมเดลและความสัมพันธ์แบบแข่งขันระหว่างโมดาลิตีภาพ-ภาษา
- อย่างน้อยในโมเดลขนาดเล็ก มีการแข่งขันกันระหว่างน้ำหนักต่าง ๆ ในสิ่งที่ถูกเรียนรู้
- คอมเมนต์ที่ดีที่สุดที่เห็นจากบทความ DeepSeek:
- DeepSeek-VL-7B แสดงให้เห็นถึงการลดลงในด้านคณิตศาสตร์ (GSM8K) ในระดับหนึ่ง
- สิ่งนี้ชี้ว่าแม้จะพยายามส่งเสริมความสอดประสานระหว่างโมดาลิตีภาพและภาษา ก็ยังคงมีความสัมพันธ์แบบแข่งขันกันอยู่ระหว่างทั้งสอง
- ซึ่งอาจเกิดจากความจุของโมเดลที่มีจำกัด (7B) และโมเดลที่ใหญ่กว่านี้อาจบรรเทาปัญหานี้ได้อย่างมาก
[ บทสรุป ]
- สิ่งที่ได้เรียนรู้จากกรณีตัวอย่างข้างต้น
- มีปัญหาบางประเภทที่ LLM (Large Language Model) ยังไม่สามารถแก้ได้ในตอนนี้
- โดยเฉพาะปัญหาที่ต้องอาศัยสถานะก่อนหน้าหรือคาดการณ์สถานะในอนาคต กล่าวคือปัญหาที่ต้องใช้ขั้นตอนการให้เหตุผลที่ยาวกว่า
- ตัวอย่างเช่น การเล่นเกม Wordle หรือการคาดการณ์ CA (Cellular Automata)
- หากใช้ LLM ที่ใหญ่ขึ้น ก็อาจสอนการให้เหตุผลได้ในระดับหนึ่งโดยให้ข้อมูลเป็นลำดับขั้นเกี่ยวกับปัญหาและยกตัวอย่างหลายแบบที่ต้องทำตาม
- แต่สิ่งนี้คือการใส่วิธีนามธรรมปัญหาจริงและวิธีคิดหาคำตอบลงไปในพรอมป์ต์
- เรื่องนี้อาจปรับปรุงได้ด้วยวิธีต่อไปนี้
- การทำ prompting ที่ดีกว่าเดิม
- การเพิ่มการเข้าถึงหน่วยความจำ การคำนวณ และเครื่องมือในขั้นตอนกลาง
- แต่ก็จะยังไม่ไปถึงระดับของสำนึกที่ทำให้เกิดการทั่วไปได้ซึ่งเราใช้กับมนุษย์
- ข้อมูลทั้งหมดที่ป้อนเข้า LLM น่าจะสามารถดึงออกมาได้ หากมีพรอมป์ต์ที่เหมาะสม
- ดังนั้น ส่วนที่**ใหญ่มหาศาล**ของการใช้งานโมเดลอย่างเหมาะสมคือการสร้างพรอมป์ต์ให้เหมาะกับงานที่จะทำ
- นี่อาจหมายถึงการต้องจัดลำดับคำตอบที่ถูกและผิดของปัญหาการคำนวณอย่างระมัดระวังเป็นชุดยาว เพื่อ priming โมเดลให้ตอบได้อย่างเหมาะสมร่วมกับ guardrail ภายนอก
- 'Attention' อ่อนไหวต่อผลกระทบของ Goal Drift ได้ง่าย จึงยากมากที่จะทำให้เชื่อถือได้หากไม่มี scaffolding ภายนอกจำนวนมาก
- ความผิดพลาดที่ LLM ทำให้ข้อมูลที่**มีประโยชน์มากกว่ามาก**เมื่อเทียบกับความสำเร็จ
- หากจะไปให้ถึง AGI (Artificial General Intelligence) และบรรลุการทั่วไปในระดับที่เพียงพอ จำเป็นต้องมีการปรับปรุงสถาปัตยกรรมในระดับพื้นฐาน
- การขยายขนาดของโมเดลเดิมและเพิ่มสถาปัตยกรรมใหม่อย่าง Jamba จะทำให้ทำงานได้มีประสิทธิภาพ เร็ว และเสถียรมากขึ้น แต่ไม่ได้แก้ปัญหาพื้นฐานอย่างการขาดการทั่วไปหรือ 'Goal Drift'
- การเพิ่มเอเจนต์เฉพาะทางเพื่อทำ "prompt engineering" และทำให้ GPT 17 ตัวคุยกันเองนั้นยังไม่เพียงพอ
- อย่างไรก็ตาม หากใช้วิธีแก้ขัดมากพอ ในโดเมนที่เราสนใจ ผลลัพธ์ก็อาจแยกไม่ออก
- ในยุคแรกของ AI ตอนที่ chess engine ปรากฏขึ้นครั้งแรก มันมีพลังประมวลผลจำกัดและแทบไม่มีความสามารถในการค้นหาหรือประเมินที่มีประโยชน์
- ดังนั้นจึงต้องพึ่งวิธีแก้ขัด เช่น opening หรือ endgame ที่ฮาร์ดโค้ดไว้, iterative deepening เพื่อการค้นหาที่ดีขึ้น, และ alpha-beta pruning
- สุดท้ายมันก็ถูกเอาชนะได้ด้วยการปรับปรุงทีละน้อย และกับ LLM ก็เช่นเดียวกัน
- แนวคิดที่ผู้เขียนชอบคือการมี planning agent หลายตัวในโครงสร้างลำดับชั้นหลายระดับ ที่เมื่อความน่าเชื่อถือดีขึ้นบ้างแล้วจะสามารถสั่งการเอเจนต์เฉพาะทางอื่นที่มี sub-agent ของตนเองเชื่อมต่อกันอยู่ได้
- เราสามารถเพิ่มโมดูลสำหรับการให้เหตุผลและการทำซ้ำ เพิ่มทั้งหน่วยความจำถาวรและหน่วยความจำเข้าถึงแบบสุ่ม รวมถึงอาจเพิ่มความเข้าใจต่อโลกทางกายภาพได้ด้วย
- ณ จุดนั้น ดูเหมือนว่าเราอาจได้ค่าประมาณของสำนึกจาก LLM ในแบบเดียวกับที่เราเห็นในสัตว์ แต่จะเป็นเช่นนั้นจริงหรือ?
- มันอาจจบลงด้วยการเป็นโมเดลเชิงสถิติที่น่าเชื่อถืออย่างยิ่งซึ่งเลียนแบบสิ่งที่เราต้องการเมื่อออกนอกการกระจายข้อมูล
- นี่คือเหตุผลที่ผู้เขียนเรียก LLM ว่า fuzzy processor และเป็นเหตุผลว่าทำไมคำถามอย่าง "มันเป็นอย่างไรในการเป็น LLM" จึงลงท้ายด้วยการสนทนาแบบวนลูป
- สิ่งนี้ไม่ควรถูกตีความว่าเป็นสัญญาณใด ๆ ว่าสิ่งที่เรามีอยู่ทุกวันนี้ไม่ใช่เรื่องมหัศจรรย์
- การคิดว่า Bitter Lesson จะไม่สามารถ extrapolate ไปจนถึง AGI ได้ทั้งหมด ไม่ได้หมายความว่าผลลัพธ์ที่เรามีอยู่แล้วจะไม่น่าทึ่ง
- ผู้เขียนมั่นใจว่า LLM "เรียนรู้" จากข้อมูลที่มันเห็น
- มันไม่ใช่แค่ตัวบีบอัดธรรมดาหรือแค่นกแก้วนกขุนทอง
- มันสามารถเชื่อมโยงข้อมูลที่มีนัยละเอียดอ่อนจากคนละส่วนของชุดข้อมูลฝึกหรือพรอมป์ต์ และให้คำตอบที่ชาญฉลาดได้
- Thomas Nagel อาจเป็นคนที่ตั้งคำถามว่าการเป็น LLM นั้นเป็นอย่างไร
- ในฐานะสัตว์เลี้ยงลูกด้วยนม ค้างคาวใกล้กับเรามากกว่า LLM และหากภายในของพวกมันยังพร่าเลือนสำหรับเรา เราจะมีโอกาสมากแค่ไหนในการเข้าใจการทำงานภายในของโมเดลใหม่
- หรือในทางกลับกัน เพราะเราสามารถตรวจสอบ weight และ circuit ทั้งหมดได้อย่างอิสระใน LLM เราจะมีความเข้าใจในระดับใดต่อโมเดลแบบนี้ที่เราใช้งานอยู่
- นี่คือเหตุผลที่ผู้เขียนพร้อมจะยอมรับอย่างเป็นทางการ
- สถิติที่ถูกขยายมากพอจะแยกไม่ออกจากความฉลาดภายในขอบเขตการกระจายของข้อมูลฝึก
- มันไม่เพียงพอที่จะทำได้ทุกอย่าง หรือแม้แต่ทำทุกอย่าง แต่ก็ไม่ใช่ภาพลวงตา
- นั่นจึงเป็นเหตุผลว่าทำไมความผิดพลาดในการทดสอบจึงมีประโยชน์ต่อการวินิจฉัยมากกว่าความสำเร็จ
- หาก LLM เป็นเครื่องจักรที่ทำอะไรก็ได้ ท้ายที่สุดมันก็น่าจะทำงานส่วนใหญ่ได้
- ทำได้ผ่านการกระตุ้นและการเขี่ยให้ทำซ้ำ ๆ จำนวนมาก
- มันอาจไม่ก่อแรงบันดาลใจให้เกิดอัจฉริยภาพแบบ Bach หรือ von Neumann แต่ก็อาจทำให้เกิดนวัตกรรมและการค้นพบที่ธรรมดากว่าแต่ไม่ได้สำคัญน้อยลง
- และทำเช่นนั้นได้โดยไม่จำเป็นต้องมีสำนึกหรือสถานะบุคคลทางศีลธรรม
- หากมันสามารถทำให้การก้าวกระโดดภายในพาราไดม์ตามที่ Kuhn พูดถึงเป็นอัตโนมัติหรือเกิดได้เร็วขึ้น ก็อาจนำไปสู่ความสามารถในการก้าวข้ามระหว่างพาราไดม์ได้อย่างอิสระ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สรุป: