36 คะแนน โดย GN⁺ 2024-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

[ ข้อจำกัดของ LLM ]

  • ว่าด้วยการเบี่ยงเบนจากเป้าหมายและความน่าเชื่อถือต่ำของ LLM หรือทำไม LLM จึงเล่น Conway's Game of Life ไม่ได้
  • แม้ในช่วงไม่กี่ปีที่ผ่านมา LLM จะแก้ปัญหาที่เคยคิดว่าแก้ไม่ได้ได้อย่างยอดเยี่ยม แต่ก็ยังไม่ชัดเจนว่าทำไมมันถึงยังตอบคำถามที่ดูเรียบง่ายไม่ได้
  • ในช่วงไม่กี่สัปดาห์ที่ผ่านมาได้พยายามทำความเข้าใจรูปแบบความล้มเหลวของ LLM แม้จะเป็นเรื่องแปลก แต่ก็นับว่าเป็นหัวข้อที่น่าสนใจ ความล้มเหลวของ AI สอนเราได้มากกว่าความสำเร็จของมัน
  • จุดเริ่มต้นโดยพื้นฐานคือการที่งานจำนวนมากซึ่งท้ายที่สุด LLM จะต้องทำ จำเป็นต้องมีการประเมินทีละกรณี แต่จุดที่โฟกัสคือการทำความเข้าใจขีดจำกัดของความสามารถในการให้เหตุผล เพื่อหาวิธีที่จะเชื่อถือความสามารถในการเรียนรู้ของมันได้
  • การประเมินความสามารถในการให้เหตุผลของ LLM เป็นเรื่องยาก
    • ยากที่จะแยกความสามารถในการให้เหตุผลออกจากข้อมูลฝึก
    • ต้องการหาวิธีทดสอบความสามารถในการให้เหตุผลซ้ำ ๆ และตอบคำถามได้อย่างต่อเนื่อง
  • เริ่มจากเวอร์ชันที่ง่ายที่สุดซึ่งตรงตามเกณฑ์ที่น่าพอใจ
    • ว่าสามารถสร้างกริดคำขนาด 3x3, 4x4, 5x5 แบบต่อเนื่องได้หรือไม่
    • การประเมินต้องสร้างได้ง่าย ประเมินได้ง่าย แต่ทำได้ยาก
  • โมเดลภาษาขนาดใหญ่รุ่นใหม่ทั้งหมด (รวมถึง Opus และ GPT-4) ล้มเหลวกับงานนี้
    • โมเดลเหล่านี้ตอบคำถามยาก ๆ อย่างเศรษฐศาสตร์และกลศาสตร์ควอนตัมได้ รวมถึงเขียนโค้ด วาดภาพ ทำเพลง สร้างวิดีโอ สร้างแอปพลิเคชันทั้งชุด และแม้แต่เล่นหมากรุกระดับสูงได้
    • แต่เล่นซูโดกุไม่ได้

Reversal Curse

  • LLM มี Reversal Curse ซึ่งหมายความว่าถ้าโมเดลเรียนรู้ในรูปแบบ "A คือ B" มันจะไม่สามารถทำให้เป็นนามธรรมย้อนกลับเป็น "B คือ A" ได้
    • ตัวอย่างเช่น หากโมเดลเรียนรู้ว่า "Valentina Tereshkova เป็นผู้หญิงคนแรกที่เดินทางสู่อวกาศ" มันจะไม่สามารถตอบคำถามว่า "ใครคือผู้หญิงคนแรกที่เดินทางสู่อวกาศ?" ได้โดยอัตโนมัติ
    • ยิ่งไปกว่านั้น ความน่าจะเป็นของคำตอบที่ถูกต้อง ("Valentina Tereshkova") ก็ไม่ได้สูงกว่าชื่อสุ่ม
  • โมเดลไม่ได้ทำ generalize ได้ดีในการเข้าใจความสัมพันธ์ระหว่างผู้คน
  • แม้แต่โมเดลระดับแนวหน้าก็ยังประสบปัญหานี้อยู่

หรือว่าเป็นปัญหาของการกระจายตัวของข้อมูลฝึกล่ะ?

  • เริ่มสงสัยว่าปัญหาเกิดจากความแปลกของการกระจายตัวของข้อมูลฝึกหรือไม่ เพราะดูเหมือนว่าเราอาจยังแสดงตัวอย่างให้มันไม่เพียงพอ จึงลองใช้สิ่งที่เป็น deterministic
  • ทดสอบด้วยการฝึก transformer ให้ทำนาย Cellular Automata
  • ดูเหมือนจะไม่มีปัญหาเรื่องการแปล แต่ก็ยังล้มเหลวอยู่ดี!
  • อย่างน้อยมีปัญหาอยู่สองแบบที่ต่างกัน
    1. ปัญหาที่ LLM ทำไม่ได้เพราะไม่มีข้อมูลนั้นอยู่ในข้อมูลฝึก และไม่ได้ถูกฝึกให้ทำ
    2. ปัญหาที่ LLM ทำไม่ได้เพราะวิธีที่มันถูกสร้างขึ้นมา
  • เกือบทุกอย่างที่เราเห็นชวนให้นึกถึงปัญหาแบบที่ 2 มากกว่าแบบที่ 1

เหตุผลที่ LLM ทำไม่ได้ในระดับพื้นฐาน

  • คิดว่าโมเดลมีปัญหา goal drift เพราะมันถูกบังคับให้สร้างทีละโทเคน จึงไม่สามารถทำ generalize ให้ข้ามบริบทในพรอมป์ต์ได้ และไม่รู้ว่าควรใส่ใจตรงไหน
    • นี่ก็เป็นเหตุผลที่ prompt injection ใช้ได้ผลเช่นกัน เพราะมันบิดเบือนกลไก attention (เช่น การพูดอะไรทำนอง _### Instruction: ...` เพื่อ jailbreak โมเดล)
  • ทั้งใน LLM และในมนุษย์ บริบทเป็นทรัพยากรที่มีจำกัด
  • สรุปคือ
    1. LLM เป็นโมเดลเชิงความน่าจะเป็นที่เลียนแบบการคำนวณ และบางครั้งก็เลียนแบบได้ใกล้เคียงอย่างน่าประหลาด
    2. ยิ่งฝึกโมเดลให้ใหญ่ขึ้น มันก็จะยิ่งเรียนรู้ความเชื่อมโยงโดยนัยในข้อมูลได้มากขึ้น ซึ่งจะช่วยให้ให้เหตุผลได้ดีขึ้น
    • ความเชื่อมโยงที่เรียนรู้มาไม่ได้แมปกับแนวคิดของเราอย่างสะอาดเสมอไป
    1. การให้เหตุผลเป็นแบบ single-pass เสมอ
    • LLM ไม่สามารถหยุด รวบรวมสถานะของโลก ให้เหตุผล ทบทวนคำตอบก่อนหน้า หรือคาดการณ์คำตอบในอนาคตได้ เว้นแต่กระบวนการนั้นจะถูกอธิบายไว้อย่างละเอียดในข้อมูลฝึก
    • แม้จะใส่พรอมป์ต์และคำตอบก่อนหน้าไว้ด้วย การให้เหตุผลครั้งถัดไปก็ยังเริ่มต้นใหม่จากศูนย์ในลักษณะ single-pass อยู่ดี
    1. สิ่งนี้ก่อให้เกิดปัญหาชนิดหนึ่งที่ความน่าเชื่อถือของการให้เหตุผลต่ำลง และมี 'goal drift' เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้
    • นี่ก็เป็นเหตุผลที่ prompt injection ทำงานได้เช่นกัน (เพราะมันบิดเบือนกลไก attention)
    • 'goal drift' นี้หมายความว่าเอเจนต์หรืองานที่ต้องทำแบบลำดับซ้ำ ๆ มีความน่าเชื่อถือต่ำ
    • เพราะ attention ไม่ได้เป็นแบบเลือกได้หรือไดนามิก จึง 'ลืม' ว่าควรโฟกัสตรงไหน
    1. LLM ไม่สามารถรีเซ็ตคอนเท็กซ์แบบไดนามิกได้
    • เครื่องทัวริงใช้เทปเป็นหน่วยความจำ ขณะที่ transformer ใช้สถานะภายใน (จัดการผ่าน self-attention) เพื่อติดตามการคำนวณระหว่างทาง
    • นี่หมายความว่ามีการคำนวณอีกหลายประเภทที่ transformer ทำได้ไม่ดี
    1. ปัญหานี้แก้ได้บางส่วนด้วยวิธีอย่าง chain of thought หรือการใช้ LLM อื่นมาตรวจทานและแก้ไขผลลัพธ์
    • โดยแก่นแล้วคือการหาวิธีพาการให้เหตุผลกลับเข้าสู่ร่อง
    • ด้วยพรอมป์ต์ที่ฉลาดพอและการทำซ้ำเป็นขั้นตอน LLM สามารถดึงเอาเกือบทุกอย่างที่อยู่ในข้อมูลฝึกออกมาได้
    • เมื่อโมเดลดีขึ้น การให้เหตุผลแต่ละครั้งก็จะดีขึ้นตาม ทำให้เชื่อถือได้มากขึ้นและสร้างเอเจนต์ที่ดีขึ้นได้
    1. หากทุ่มเทมากพอ ก็จะได้ระบบ GPT ที่เชื่อมต่อกัน มีการทำซ้ำภายในหลายชั้น มีการตรวจสอบและแก้ไขข้อผิดพลาดอย่างต่อเนื่อง และมีหน่วยความจำที่แยกออกมาภายนอก เป็นต้น
    • แต่ถึงอย่างนั้น ต่อให้ฝืนผลักดันแบบ brute force เพื่อเข้าใกล้ AGI ในหลายด้าน มันก็ยังไม่สามารถทำ generalize ข้ามพ้นข้อมูลฝึกได้อย่างแท้จริง
    • ถึงกระนั้นก็ยังเป็นเรื่องที่น่าอัศจรรย์อยู่ดี

[ การทดลอง - ทำไม GPT ถึงเรียนรู้ Wordle ไม่ได้ ]

  • LLM เล่น Wordle ไม่ได้
    • เช่นเดียวกับซูโดกุหรือกริดคำ (ครอสเวิร์ดในรูปแบบที่ง่ายที่สุด)
  • เรื่องนี้น่าประหลาดใจ เพราะปัญหาเหล่านี้ไม่ใช่ปัญหาที่ยาก
    • แม้แต่นักเรียนประถมก็ยังลองทำได้ แต่แม้แต่ LLM ชั้นนำก็ยังทำไม่สำเร็จ
  • สมมติฐานแรกคือข้อมูลฝึกมีไม่พอ
    • แต่ในกรณีนี้ไม่น่าใช่
    • เพราะกฎนั้นมีอยู่ในข้อมูลอย่างชัดเจน
    • ไม่ใช่ว่า Wordle ถูกตกหล่นจากชุดข้อมูลฝึกของ LLM ในปัจจุบันอย่างเลี่ยงไม่ได้
  • อีกสมมติฐานคือเป็นปัญหาเรื่อง tokenization
    • แต่นี่ก็ไม่จริงเช่นกัน
    • แม้จะให้โอกาสหลายครั้งและให้คำตอบก่อนหน้าเพื่อเปิดช่องให้ทำซ้ำ มันก็ยังยากที่จะคิดวิธีแก้ที่ถูกต้องออกมา
    • แม้จะเว้นวรรคระหว่างตัวอักษร ก็ยังไม่ช่วยนัก
  • แม้จะป้อนคำตอบก่อนหน้า คอนเท็กซ์ และคำถามกลับเข้าไปใหม่ ก็มักจะเริ่มลำดับคำตอบทั้งหมดใหม่แทนที่จะแก้บางอย่างในเซลล์ [3,4]
  • ดูเหมือนว่าโดยธรรมชาติแล้ว แต่ละขั้นตอนต้องอาศัยการคำนวณแบบทำซ้ำในคนละระดับ ซึ่งไม่มีโมเดลใดทำได้
    • ในแง่หนึ่งก็สมเหตุสมผล เพราะโมเดลแบบ autoregressive ทำได้เพียง forward pass ครั้งละหนึ่งรอบ
      • มันอาจใช้คลังโทเคนที่มีอยู่และผลลัพธ์เป็นเหมือนกระดาษทดเพื่อคิดต่อออกเสียงได้ แต่ก็หลุดจากสิ่งที่กำลังตามอยู่เร็วเกินไป
  • ข้อสรุปตรงนี้คือ เมื่อแต่ละขั้นตอนต้องใช้ทั้งหน่วยความจำและการคำนวณ มันดูเหมือนเป็นสิ่งที่ transformer ไม่สามารถแก้ได้ภายในจำนวนเลเยอร์และ attention head ที่มีอยู่ในปัจจุบัน
    • แม้แต่ในโมเดลขนาดใหญ่มากอย่าง GPT-4 ที่ผ่านการฝึกด้วยโทเคนระดับล้านล้านก็เช่นกัน
  • น่าประหลาดตรงที่มันกลับจับไม่ได้ว่าควรโฟกัส attention ไปที่ไหน
    • เพราะวิธีที่ attention ในปัจจุบันทำงานนั้นเป็นแบบคงที่และประมวลผลทุกส่วนของลำดับพร้อมกัน
    • แทนที่จะใช้หลาย heuristic เพื่อเลือกโฟกัสให้มากขึ้นและรีเซ็ตคอนเท็กซ์แบบไดนามิกเพื่อทดลองทางเลือกอื่น
  • นี่เป็นเพราะ attention ตามที่วัดกันอยู่ในปัจจุบัน ไม่ได้เป็นการวิเคราะห์เชิงลำดับชั้นแบบหลายเธรดเหมือนที่มนุษย์ทำจริง ๆ
    • หรืออาจเป็นเช่นนั้นโดยนัย แต่การประเมินเชิงความน่าจะเป็นที่มันสร้างขึ้น ไม่ได้แปลบริบทนั้นให้กลายเป็นปัญหาเฉพาะแต่ละข้อ

[ การทดลอง - สอน Cellular Automata ให้ LLM ]

  • ตอนแรกคิดว่าน่าจะสอนพื้นฐานได้ เพราะระหว่างการฝึกสามารถสร้างข้อมูลได้ไม่จำกัดจนกว่าจะได้ผลลัพธ์ตามต้องการ
  • ตั้งใจจะสร้าง toy transformer แล้วลองให้ทำนาย
  • ด้านซ้ายคือ CA ด้านขวาคือผลลัพธ์ของ Transformer และมีคำขอให้ดูว่าแยกออกหรือไม่
  • ไม่สามารถฝึกให้มันทำนายผลลัพธ์ได้ และหาสาเหตุไม่เจอ
  • แม้จะเป็นโมเดลของเล่น แต่มันก็ทำงานได้ดีพอจะเรียนรู้สมการหลายแบบที่ลอง และยังมีการทำ generalization ได้เล็กน้อย
  • ลองลดขนาดกริดและปรับ hyperparameter ให้เหมาะสมแล้ว แต่ก็ยังไม่ได้
  • คิดว่าอาจเป็นเพราะต้องการข้อมูลเกี่ยวกับ layout ทางกายภาพมากขึ้น จึงเพิ่มเลเยอร์ CNN และเปลี่ยนให้ positional embedding จัดการแกน X, Y อย่างชัดเจน แต่ก็ยังไม่ได้อยู่ดี
  • ระหว่างที่แทบสิ้นหวัง ก็ลองสอนสมการง่าย ๆ สักตัวหนึ่ง
  • ตอนแรกไม่ทำงานเลย แต่พอเพิ่มโทเค็นเริ่มต้น/สิ้นสุดเข้าไป จู่ ๆ ก็เริ่มทำได้ขึ้นมา Transformer นี่แปลกดี
  • ขนาดยังไม่สมบูรณ์แบบแต่เกือบจะเรียนรู้ได้อยู่แล้ว ทั้งที่แทบไม่มี head หรือเลเยอร์เลย และ max_iter ก็มีแค่ 1000
  • แนวคิดชัดเจนว่ามันต้องเรียนรู้หลายสถานะและคงประวัติไว้ได้ จึงคิดว่าต้องเพิ่มความสามารถนั้นเข้าไปไม่ทางใดก็ทางหนึ่ง เลยเปลี่ยน decoder ให้เพิ่มอินพุตอื่นหลังจากเอาต์พุตออกมา ซึ่งก็เท่ากับเพิ่มเลเยอร์ RNN อีกชั้นหนึ่ง หรือให้หน่วยความจำเกี่ยวกับว่าก่อนหน้านี้ผ่านขั้นตอนไหนมาบ้าง
  • แต่ก็ยังไม่ได้อยู่ดี กลับไปลองกับ cellular automata อีกครั้งและเริ่มจากของพื้นฐานที่สุดก็ยังไม่ทำงาน ทั้งที่เป็นแบบ 1 มิติและมีกฎที่ง่ายมาก ๆ ไม่ใช่แค่ 110 ที่ Turing-complete แต่รวมถึง 0 ด้วย
  • การที่โมเดลเรียนรู้จะตอบถูกในชุดปัญหาหนึ่ง หมายความว่ามันเรียนรู้กฎพื้นฐานจริงหรือไม่? หรือมันเพียงเรียนรู้สิ่งคล้ายกฎนั้น จนสามารถเลียนแบบผลลัพธ์ได้ภายใน distribution ที่ได้รับมาเท่านั้น? ในสภาวะที่พร้อมจะผิดในแบบที่ผิดทางได้ง่าย?
  • ปัญหาแบบเดียวกันนี้พบได้ไม่ใช่แค่ใน toy model หรือ GPT-3.5 แต่ยังพบใน LLM ขนาดใหญ่กว่าอย่าง GPT-4, Claude และ Gemini ด้วย อย่างน้อยก็ในโหมดแชต
  • ไม่ว่าจะทำ fine-tuning หรือฝึกแบบเฉพาะทาง ดูเหมือนว่า LLM จะเล่น Conway's Game of Life ไม่ได้
  • ถ้าใครแก้สิ่งนี้ได้ก็คงน่าสนใจมาก อย่างน้อยถ้าอธิบายได้ว่าทำไมปัญหานี้ถึงเกิดขึ้น

[ จนถึงตอนนี้เราแก้ปัญหานี้กันอย่างไร ]

  • เวลาที่เราออกแบบระบบนี้ ยิ่งสะท้อนสติปัญญาของเราเข้าไปมากเท่าไร ผลลัพธ์สุดท้ายก็ยิ่งเลียนแบบการแปลงที่ต้องการได้ดีขึ้นเท่านั้น
  • เราอาจสอนปริศนาแต่ละข้อทีละข้อแล้วหวังว่าการอนุมานจะถ่ายโอนไปได้ แต่เราจะรู้ได้อย่างไรว่ามันเรียนรู้การทำ generalization จริง? จนเมื่อไม่นานมานี้ แม้แต่การบวกและการคูณก็ยังยากสำหรับโมเดลนี้
  • Victor Taelin อ้างว่า "GPT ไม่มีทางแก้ปัญหา A::B ได้" นี่เป็นตัวอย่างว่าทำไมโมเดลที่อิง transformer จึงไม่สามารถเรียนรู้ปัญหาใหม่ที่อยู่นอกชุดฝึกได้อย่างแท้จริง หรือทำการให้เหตุผลระยะยาวได้
    • เขากล่าวว่า "GPT ที่ทรงพลังโดยพื้นฐานแล้วคือการวิวัฒน์นักออกแบบวงจรไว้ในค่าน้ำหนัก" และเสริมว่า "แต่ด้วยความแข็งทื่อของ attention ในฐานะแบบจำลองการคำนวณ วงจรที่วิวัฒน์ขึ้นมาแบบนั้นจึงไม่อาจยืดหยุ่นได้มากพอ"
    • "AGI พยายามจะเติบโตอยู่ภายในนั้น แต่ดูเหมือนจะทำไม่ได้เพราะข้อจำกัดด้านการคำนวณและการสื่อสารที่ถูกบังคับไว้ จำไว้ว่าสมองมนุษย์มี synaptic plasticity อยู่ตลอดเวลา มีสถาปัตยกรรมที่ยืดหยุ่นกว่าซึ่งแม้จะฝึกในสเกลเล็กกว่ามาก ก็มีโอกาสนำไปสู่ AGI ได้มากกว่า แต่เรายังไม่รู้ว่ามันคืออะไร"
  • เขาตั้งเงินรางวัล 10,000 ดอลลาร์สำหรับปัญหานี้ และมีคนแก้ได้ภายในวันเดียว

[ จริง ๆ แล้ว LLM เรียนรู้ได้แค่ไหน? ]

คำถามต่อความสามารถในการเรียนรู้ของ LLM

  • LLM มักล้มเหลวแม้แต่กับเกมสำหรับเด็กที่เป็นเพียงการโต้ตอบซ้ำ ๆ แบบง่าย ๆ หรือการเลือกภายใต้ข้อจำกัด
  • อย่างไรก็ตาม LLM สามารถแก้ปัญหาคณิตศาสตร์ยาก ๆ การให้เหตุผลเชิงเศรษฐศาสตร์แบบแข่งขัน การประมาณค่าแบบแฟร์มี และแม้แต่โจทย์ฟิสิกส์ในภาษาที่ไม่ได้ฝึกมาอย่างชัดเจน
  • คำตอบของ LLM พึ่งพาวิธีการพรอมป์ตอย่างมาก
  • LLM แสดงให้เห็นถึงสัญชาตญาณที่ยอดเยี่ยม แต่มีสติปัญญาที่จำกัด
  • ยิ่งขั้นตอนการให้เหตุผลเพิ่มขึ้น LLM ก็ยิ่งลำบากในการจับเป้าหมายและรักษาสมาธิ

ประสิทธิภาพที่ดีขึ้นของโครงข่ายประสาทเมื่อเพิ่มหน่วยความจำภายนอก

  • การเพิ่มการเชื่อมต่อแบบ RNN ช่วยได้บ้างเล็กน้อย แต่ไม่เพียงพอที่จะแก้ปัญหาได้อย่างสมบูรณ์
  • หากเพิ่มหน่วยความจำภายนอกให้โครงข่ายประสาท ก็จะสามารถเรียนรู้รูปแบบที่ไม่สม่ำเสมอได้หลากหลาย
  • มีเพียงเครือข่ายที่เพิ่มหน่วยความจำแบบมีโครงสร้างเข้าไปเท่านั้น เช่น stack หรือ memory tape ที่สามารถทำ generalization ได้สำเร็จในงานแบบ context-free และ context-sensitive

ข้อจำกัดของ chain-of-thought prompting และ scratchpad

  • chain-of-thought prompting การใช้ scratchpad การเขียนความคิดระหว่างทางลงบนกระดาษ ล้วนเป็นตัวอย่างของกระบวนการคิดที่มุ่งลดการไหลออกนอกเป้าหมาย
  • แต่วิธีเหล่านี้ก็ยังถูกขัดขวางด้วยบาปกำเนิด (original sin) อยู่ดี
  • เอาต์พุตที่ต้องพึ่งพาอินพุตก่อนหน้า โดยเฉพาะเมื่อแต่ละขั้นต้องมีการคำนวณ เป็นสิ่งที่ซับซ้อนและยาวเกินกว่าที่โมเดลแบบ transformer ในปัจจุบันจะรับมือได้สะดวก

คำสาปของ autoregression

  • ยิ่งโมเดลมีขนาดใหญ่ ก็ยิ่งทำได้ดีขึ้นใน chain-of-thought ระยะยาว แต่ก็ยังแสดงข้อผิดพลาดอย่างต่อเนื่อง ณ จุดใดจุดหนึ่งของสายโซ่การให้เหตุผล ซึ่งดูเหมือนไม่เกี่ยวกับความสามารถอื่นเลย
  • แม้จะแก้งานเดียวกันผ่านหลายขั้นตอนได้ แต่ยิ่งจำนวนขั้นตอนยาวขึ้นก็ยิ่งเริ่มผิดพลาด
  • GPT-4 มีอาการหลอนและข้อผิดพลาดน้อยกว่า GPT-3.5
  • การสร้างโมเดลขนาดใหญ่อย่าง GPT-4 หรือ Opus ที่ยังล้มเหลวกับเกม Wordle คือคำตอบที่ถูกต้องจริงหรือ?

คำถามเกี่ยวกับธรรมชาติของการรับรู้

  • หากมีปัญหาบางประเภทที่แม้แต่นักเรียนประถมยังแก้ได้ง่าย แต่โมเดลซับซ้อนที่ใช้โทเค็นระดับล้านล้านและเงินนับหมื่นล้านดอลลาร์กลับแก้ไม่ได้ นี่บอกอะไรเกี่ยวกับธรรมชาติของการรับรู้ของเราบ้าง?
  • ส่วน G (generalization) ใน AGI คือส่วนที่ยากที่สุด และมันไม่ใช่สิ่งที่จะ generalize ข้าม distribution ได้ง่าย ๆ
  • สิ่งที่เรามีอยู่อาจใกล้เคียงกับส่วนหนึ่งของหอสมุดแห่งบาเบลมากกว่า ซึ่งไม่เพียงอ่านหนังสือที่ถูกเขียนไว้แล้ว แต่ยังอ่านข้อมูลที่อยู่ในช่องว่างระหว่างหนังสือเหล่านั้นได้ด้วย

ความแตกต่างของข้อมูลฝึกระหว่างมนุษย์กับ LLM

  • มนุษย์อาจอ่านหนังสือได้ตลอดชีวิตราว 30,000 ถึง 50,000 เล่ม แต่คนส่วนใหญ่ยังอ่านไม่ถึง 1% ของจำนวนนั้นด้วยซ้ำ (ข้อมูลสูงสุดราว 1GB)
  • ในทางกลับกัน LLM ได้ดูดซับทุกอย่างบนอินเทอร์เน็ตและอีกมากมาย เรียนรู้คำหลายแสนล้านคำครอบคลุมทุกโดเมนและทุกสาขาวิชา (GPT-3 ฝึกด้วยข้อมูล 45TB)
  • ถ้ามีใครสักคนอ่านหนังสือ 2 ล้านเล่ม เขาจะออกมาเป็นอย่างไร หรือถ้าเครื่องจับแพตเทิร์นธรรมดา ๆ อ่านหนังสือ 2 ล้านเล่ม มันจะทำอะไรได้บ้าง เป็นคำถามที่ตอบง่าย ๆ ไม่ได้
  • LLM เรียนรู้แพตเทิร์นและกฎโดยนัยจากข้อมูลฝึก แต่การทำให้สิ่งเหล่านั้นชัดแจ้งออกมาไม่ใช่เรื่องง่าย
  • หาก LLM ไม่มีทางรู้สมการที่เกี่ยวข้องกับการจับคู่แพตเทิร์น มันก็จะไม่สามารถเรียนรู้วิธี generalize ได้ ดังนั้น Reversal Curse จึงยังคงอยู่

[ LLM ไม่สามารถรีเซ็ตคอนเท็กซ์ได้ ]

  • การบอกว่า LLM คล้ายสิ่งมีตัวตน คล้ายเซลล์ประสาท หรือคล้ายบางส่วนของ neocortex เป็นอุปมาอุปไมยที่มีประโยชน์ในบางเวลา แต่ก็ยังจับพฤติกรรมที่เราเห็นจาก LLM ได้ไม่ครบถ้วน
  • สิ่งที่น่าสนใจของโมเดลที่เรียนรู้แพตเทิร์นได้ คือมันเรียนรู้แพตเทิร์นที่อาจไม่ได้ถูกรวมไว้อย่างชัดเจนในชุดข้อมูลด้วย
  • ระหว่างการเรียนรู้ภาษา LLM สามารถมองเห็นความเชื่อมโยงหลายอย่างที่แฝงอยู่ในข้อมูล จนเชื่อมโยง von Neumann กับ Charles Dickens ได้ และสร้างสิ่งเลียนแบบที่สมจริงพอว่าเราอาจเป็นคนพูดเช่นนั้นจริง

ข้อจำกัดของความซับซ้อนของชุดข้อมูลและขนาดโมเดล

  • ต่อให้สมมุติว่าชุดข้อมูลได้เข้ารหัสความซับซ้อนทั้งหมดของมนุษยชาติเอาไว้แล้ว จำนวนของแพตเทิร์นเช่นนั้นที่มีอยู่แม้แต่ในชุดข้อมูลขนาดเล็ก ก็จะเอ่อล้นเกินขนาดของโมเดลอย่างรวดเร็ว
  • นี่แทบเป็นสิ่งที่หลีกเลี่ยงไม่ได้ในทางคณิตศาสตร์
  • ในปัญหา cellular automata ยังไม่ชัดเจนว่า LLM เรียนรู้วิธีการจริงหรือไม่ และจะเชื่อถือได้มากเพียงใด
  • ความผิดพลาดของ LLM เป็นตัวชี้วัดที่ดีกว่าความสำเร็จว่าแท้จริงแล้วมันไม่รู้อะไรบ้าง

ข้อจำกัดของ LLM ที่เรียนรู้วิธีเรียนรู้

  • โครงข่ายประสาทที่ใหญ่ขึ้นจะไม่เพียงเรียนรู้จากข้อมูล แต่ยังเรียนรู้วิธีเรียนรู้ด้วย
  • นี่คือเหตุผลที่ LLM สามารถได้รับตัวอย่างเพียงไม่กี่แบบแล้วทำปัญหาที่ไม่เคยเห็นในชุดฝึกได้
  • แต่ดูเหมือนว่าวิธีที่ LLM ใช้นั้นยัง generalize ได้ไม่ดีพอ โดยเฉพาะในแง่ของการเรียนรู้ว่าควรใส่ใจกับอะไร
  • การเรียนรู้วิธีเรียนรู้เองก็ไม่ใช่อัลกอริทึมสากลแบบเดียวสำหรับมนุษย์เช่นกัน
  • มันทำงานได้ดีกว่ากับบางสิ่ง และแย่กว่ากับบางสิ่ง
  • มันทำงานต่างกันไปตามประเภทของปัญหา
  • ทั้งหมดนี้ต้องถูกเขียนด้วยจำนวนพารามิเตอร์เท่าเดิม ดังนั้นการคำนวณที่ทำได้ผ่านค่าน้ำหนักเหล่านี้จึงต้องทั้งตอบคำถามเกี่ยวกับ Muppets ได้ และยังต้องบอกได้ด้วยว่าการค้นพบทางฟิสิกส์ครั้งต่อไปที่ดีที่สุดซึ่งจะทำลายทฤษฎีปัจจุบันคืออะไร

ความซับซ้อนของลำดับสัญลักษณ์ที่มีปฏิสัมพันธ์กัน

  • หากในลำดับสัญลักษณ์ การมีอยู่หรือการวางตำแหน่งของสัญลักษณ์หนึ่งส่งผลต่อเนื้อหาข้อมูลของสัญลักษณ์ถัดไป เอนโทรปีแบบแชนนอนโดยรวมของชุดข้อมูลอาจสูงกว่าที่คาดได้จากการพิจารณาเฉพาะสัญลักษณ์แต่ละตัว
  • สิ่งนี้ทำให้สิ่งที่ขึ้นอยู่กับสถานะ เช่น Conway's Game of Life กลายเป็นเรื่องยากมาก
  • นี่จึงเป็นเหตุผลด้วยว่าทำไม GPT จึงดูเหมือนไม่สามารถเรียนรู้แพตเทิร์นได้จริง แม้ว่าจะถูก fine-tune กับชุดข้อมูล Game of Life ก็ตาม
  • แต่ GPT จะเรียนรู้ได้เพียงพอที่จะตอบคำถามได้แทน (คล้ายกับกฎของ Goodhart)

ความยากของการนิยาม LLM ด้วยการทดสอบแบบง่าย

  • การตั้งคำถามเชิงนามธรรมว่าควรนิยามสิ่งเหล่านี้ด้วยการทดสอบง่าย ๆ ที่สามารถรันกับ LLM ได้อย่างไรนั้นเป็นเรื่องไม่สมเหตุสมผล
  • เพราะการนิยามสิ่งใดสิ่งหนึ่งในนี้ อาจเท่ากับการนิยามภาพรวมของงานวิจัยทางวิทยาศาสตร์กว่าครึ่งศตวรรษอย่างมีประสิทธิภาพ

[ เราต้องการเอเจนต์มากกว่านี้ ]

  • เช่นเดียวกับทฤษฎีในปัจจุบัน หากเพิ่ม recursion ให้กับโมเดล LLM มากขึ้น ก็น่าจะดีขึ้นอย่างเป็นธรรมชาติ
  • แต่ก็คงจะแก้ปัญหาการวางแผนที่ซับซ้อนขึ้นได้แบบเป็นขั้นเป็นตอน เท่าที่มันยังสามารถจดจำเป้าหมายเดิมและเส้นทางที่ผ่านมาได้
  • ยังคงไม่ชัดเจนว่าเหตุใด LLM จึงไม่น่าเชื่อถือ
  • GPT-4 เชื่อถือได้มากกว่า GPT-3.5 แต่ก็ยังไม่ชัดว่าเป็นเพราะมันเรียนรู้เก่งขึ้นเฉย ๆ หรือเพราะการขยายขนาดทำให้ความน่าเชื่อถือเพิ่มขึ้นและอาการหลอนลดลง

เอเจนต์: กรณีใช้งานที่ทรงพลัง

  • เอเจนต์ หรือเอนทิตีอัตโนมัติที่สามารถทำงานทั้งงานแทนเราได้ คือกรณีใช้งานในฝันของ LLM
  • ในความเป็นจริง หลายงานต้องการเอเจนต์มากกว่านี้
  • ถ้ามันทำงานได้ดีขึ้นอีกเล็กน้อยในบางงาน การมีเอเจนต์จำนวนมากพอจะทำให้มันทำงานได้ดีกว่าในทุกงานหรือไม่? มีความเป็นไปได้ แต่ตอนนี้ยังดูไม่น่าเป็นเช่นนั้น
  • จากตัวเลือกอย่าง Devin ของ Cognition Labs เราได้เห็นแวบหนึ่งแล้วว่ามันทรงพลังได้เพียงใด (เป็นการแสดงกรณีใช้งานจริง)

ความเป็นไปได้ที่จะขยายไปสู่สัดส่วนใหญ่ของงานในอีกไม่กี่ปีข้างหน้า

  • พฤติกรรมเหล่านี้จะขยายไปสู่สัดส่วนใหญ่ของงานในอีกไม่กี่ปีข้างหน้าได้หรือไม่? ดูเป็นไปได้
  • แต่ละงานคงต้องเข้าหาแบบเฉพาะราย และนั่นจะเป็นโมเดลเฉพาะทางที่ขยายได้ไม่ง่ายนัก (ไม่ใช่โมเดลเดียวที่ครองทุกอย่าง)
  • เวอร์ชันโอเพนซอร์สกำลังเผยให้เห็นองค์ประกอบหลักบางส่วนแล้ว
    • ต้องพิจารณาอย่างรอบคอบทั้งลำดับและปริมาณของข้อมูลที่ไปถึงโมเดลพื้นฐาน และสร้างสภาพแวดล้อมที่เอื้อต่อการเติบโตโดยคำนึงถึงข้อจำกัดของมันอย่างที่เราเคยเห็นมาก่อน

ข้อจำกัดของ GPT และทางออก

  • การที่ GPT ไม่สามารถแก้ปัญหาอย่าง Game of Life ได้ด้วยตัวเอง หรือแม้แต่เมื่อให้ลองคิดเป็นขั้นตอน ก็ไม่ใช่ประเด็นสำคัญ
  • ประเด็นสำคัญคือ GPT สามารถเขียนโปรแกรมเพื่อแก้ปัญหานั้นได้
  • กล่าวคือ หากเราฝึก GPT ให้รู้จักสถานการณ์ที่สมเหตุสมผลในการเขียนโปรแกรมสำหรับทุกโปรแกรมได้ เราอาจเข้าใกล้ AGI มากขึ้น (นี่คือมุมมองของผม)

ข้อจำกัดของความจุโมเดลและความสัมพันธ์แบบแข่งขันระหว่างโมดาลิตีภาพ-ภาษา

  • อย่างน้อยในโมเดลขนาดเล็ก มีการแข่งขันกันระหว่างน้ำหนักต่าง ๆ ในสิ่งที่ถูกเรียนรู้
  • คอมเมนต์ที่ดีที่สุดที่เห็นจากบทความ DeepSeek:
    • DeepSeek-VL-7B แสดงให้เห็นถึงการลดลงในด้านคณิตศาสตร์ (GSM8K) ในระดับหนึ่ง
    • สิ่งนี้ชี้ว่าแม้จะพยายามส่งเสริมความสอดประสานระหว่างโมดาลิตีภาพและภาษา ก็ยังคงมีความสัมพันธ์แบบแข่งขันกันอยู่ระหว่างทั้งสอง
    • ซึ่งอาจเกิดจากความจุของโมเดลที่มีจำกัด (7B) และโมเดลที่ใหญ่กว่านี้อาจบรรเทาปัญหานี้ได้อย่างมาก

[ บทสรุป ]

  • สิ่งที่ได้เรียนรู้จากกรณีตัวอย่างข้างต้น
    • มีปัญหาบางประเภทที่ LLM (Large Language Model) ยังไม่สามารถแก้ได้ในตอนนี้
      • โดยเฉพาะปัญหาที่ต้องอาศัยสถานะก่อนหน้าหรือคาดการณ์สถานะในอนาคต กล่าวคือปัญหาที่ต้องใช้ขั้นตอนการให้เหตุผลที่ยาวกว่า
      • ตัวอย่างเช่น การเล่นเกม Wordle หรือการคาดการณ์ CA (Cellular Automata)
    • หากใช้ LLM ที่ใหญ่ขึ้น ก็อาจสอนการให้เหตุผลได้ในระดับหนึ่งโดยให้ข้อมูลเป็นลำดับขั้นเกี่ยวกับปัญหาและยกตัวอย่างหลายแบบที่ต้องทำตาม
      • แต่สิ่งนี้คือการใส่วิธีนามธรรมปัญหาจริงและวิธีคิดหาคำตอบลงไปในพรอมป์ต์
    • เรื่องนี้อาจปรับปรุงได้ด้วยวิธีต่อไปนี้
      1. การทำ prompting ที่ดีกว่าเดิม
      2. การเพิ่มการเข้าถึงหน่วยความจำ การคำนวณ และเครื่องมือในขั้นตอนกลาง
      • แต่ก็จะยังไม่ไปถึงระดับของสำนึกที่ทำให้เกิดการทั่วไปได้ซึ่งเราใช้กับมนุษย์
      • ข้อมูลทั้งหมดที่ป้อนเข้า LLM น่าจะสามารถดึงออกมาได้ หากมีพรอมป์ต์ที่เหมาะสม
    • ดังนั้น ส่วนที่**ใหญ่มหาศาล**ของการใช้งานโมเดลอย่างเหมาะสมคือการสร้างพรอมป์ต์ให้เหมาะกับงานที่จะทำ
      • นี่อาจหมายถึงการต้องจัดลำดับคำตอบที่ถูกและผิดของปัญหาการคำนวณอย่างระมัดระวังเป็นชุดยาว เพื่อ priming โมเดลให้ตอบได้อย่างเหมาะสมร่วมกับ guardrail ภายนอก
    • 'Attention' อ่อนไหวต่อผลกระทบของ Goal Drift ได้ง่าย จึงยากมากที่จะทำให้เชื่อถือได้หากไม่มี scaffolding ภายนอกจำนวนมาก
      • ความผิดพลาดที่ LLM ทำให้ข้อมูลที่**มีประโยชน์มากกว่ามาก**เมื่อเทียบกับความสำเร็จ
  • หากจะไปให้ถึง AGI (Artificial General Intelligence) และบรรลุการทั่วไปในระดับที่เพียงพอ จำเป็นต้องมีการปรับปรุงสถาปัตยกรรมในระดับพื้นฐาน
    • การขยายขนาดของโมเดลเดิมและเพิ่มสถาปัตยกรรมใหม่อย่าง Jamba จะทำให้ทำงานได้มีประสิทธิภาพ เร็ว และเสถียรมากขึ้น แต่ไม่ได้แก้ปัญหาพื้นฐานอย่างการขาดการทั่วไปหรือ 'Goal Drift'
  • การเพิ่มเอเจนต์เฉพาะทางเพื่อทำ "prompt engineering" และทำให้ GPT 17 ตัวคุยกันเองนั้นยังไม่เพียงพอ
    • อย่างไรก็ตาม หากใช้วิธีแก้ขัดมากพอ ในโดเมนที่เราสนใจ ผลลัพธ์ก็อาจแยกไม่ออก
  • ในยุคแรกของ AI ตอนที่ chess engine ปรากฏขึ้นครั้งแรก มันมีพลังประมวลผลจำกัดและแทบไม่มีความสามารถในการค้นหาหรือประเมินที่มีประโยชน์
    • ดังนั้นจึงต้องพึ่งวิธีแก้ขัด เช่น opening หรือ endgame ที่ฮาร์ดโค้ดไว้, iterative deepening เพื่อการค้นหาที่ดีขึ้น, และ alpha-beta pruning
    • สุดท้ายมันก็ถูกเอาชนะได้ด้วยการปรับปรุงทีละน้อย และกับ LLM ก็เช่นเดียวกัน
  • แนวคิดที่ผู้เขียนชอบคือการมี planning agent หลายตัวในโครงสร้างลำดับชั้นหลายระดับ ที่เมื่อความน่าเชื่อถือดีขึ้นบ้างแล้วจะสามารถสั่งการเอเจนต์เฉพาะทางอื่นที่มี sub-agent ของตนเองเชื่อมต่อกันอยู่ได้
  • เราสามารถเพิ่มโมดูลสำหรับการให้เหตุผลและการทำซ้ำ เพิ่มทั้งหน่วยความจำถาวรและหน่วยความจำเข้าถึงแบบสุ่ม รวมถึงอาจเพิ่มความเข้าใจต่อโลกทางกายภาพได้ด้วย
    • ณ จุดนั้น ดูเหมือนว่าเราอาจได้ค่าประมาณของสำนึกจาก LLM ในแบบเดียวกับที่เราเห็นในสัตว์ แต่จะเป็นเช่นนั้นจริงหรือ?
    • มันอาจจบลงด้วยการเป็นโมเดลเชิงสถิติที่น่าเชื่อถืออย่างยิ่งซึ่งเลียนแบบสิ่งที่เราต้องการเมื่อออกนอกการกระจายข้อมูล
  • นี่คือเหตุผลที่ผู้เขียนเรียก LLM ว่า fuzzy processor และเป็นเหตุผลว่าทำไมคำถามอย่าง "มันเป็นอย่างไรในการเป็น LLM" จึงลงท้ายด้วยการสนทนาแบบวนลูป
  • สิ่งนี้ไม่ควรถูกตีความว่าเป็นสัญญาณใด ๆ ว่าสิ่งที่เรามีอยู่ทุกวันนี้ไม่ใช่เรื่องมหัศจรรย์
    • การคิดว่า Bitter Lesson จะไม่สามารถ extrapolate ไปจนถึง AGI ได้ทั้งหมด ไม่ได้หมายความว่าผลลัพธ์ที่เรามีอยู่แล้วจะไม่น่าทึ่ง
  • ผู้เขียนมั่นใจว่า LLM "เรียนรู้" จากข้อมูลที่มันเห็น
    • มันไม่ใช่แค่ตัวบีบอัดธรรมดาหรือแค่นกแก้วนกขุนทอง
    • มันสามารถเชื่อมโยงข้อมูลที่มีนัยละเอียดอ่อนจากคนละส่วนของชุดข้อมูลฝึกหรือพรอมป์ต์ และให้คำตอบที่ชาญฉลาดได้
  • Thomas Nagel อาจเป็นคนที่ตั้งคำถามว่าการเป็น LLM นั้นเป็นอย่างไร
    • ในฐานะสัตว์เลี้ยงลูกด้วยนม ค้างคาวใกล้กับเรามากกว่า LLM และหากภายในของพวกมันยังพร่าเลือนสำหรับเรา เราจะมีโอกาสมากแค่ไหนในการเข้าใจการทำงานภายในของโมเดลใหม่
    • หรือในทางกลับกัน เพราะเราสามารถตรวจสอบ weight และ circuit ทั้งหมดได้อย่างอิสระใน LLM เราจะมีความเข้าใจในระดับใดต่อโมเดลแบบนี้ที่เราใช้งานอยู่
  • นี่คือเหตุผลที่ผู้เขียนพร้อมจะยอมรับอย่างเป็นทางการ
    • สถิติที่ถูกขยายมากพอจะแยกไม่ออกจากความฉลาดภายในขอบเขตการกระจายของข้อมูลฝึก
    • มันไม่เพียงพอที่จะทำได้ทุกอย่าง หรือแม้แต่ทำทุกอย่าง แต่ก็ไม่ใช่ภาพลวงตา
    • นั่นจึงเป็นเหตุผลว่าทำไมความผิดพลาดในการทดสอบจึงมีประโยชน์ต่อการวินิจฉัยมากกว่าความสำเร็จ
  • หาก LLM เป็นเครื่องจักรที่ทำอะไรก็ได้ ท้ายที่สุดมันก็น่าจะทำงานส่วนใหญ่ได้
    • ทำได้ผ่านการกระตุ้นและการเขี่ยให้ทำซ้ำ ๆ จำนวนมาก
    • มันอาจไม่ก่อแรงบันดาลใจให้เกิดอัจฉริยภาพแบบ Bach หรือ von Neumann แต่ก็อาจทำให้เกิดนวัตกรรมและการค้นพบที่ธรรมดากว่าแต่ไม่ได้สำคัญน้อยลง
    • และทำเช่นนั้นได้โดยไม่จำเป็นต้องมีสำนึกหรือสถานะบุคคลทางศีลธรรม
    • หากมันสามารถทำให้การก้าวกระโดดภายในพาราไดม์ตามที่ Kuhn พูดถึงเป็นอัตโนมัติหรือเกิดได้เร็วขึ้น ก็อาจนำไปสู่ความสามารถในการก้าวข้ามระหว่างพาราไดม์ได้อย่างอิสระ

1 ความคิดเห็น

 
GN⁺ 2024-04-28
ความคิดเห็นจาก Hacker News

สรุป:

  • ปัจจุบัน LLM (โมเดลภาษาขนาดใหญ่) ยังมีปัญหาบางอย่างที่สำหรับมนุษย์นั้นง่าย แต่สำหรับ LLM กลับยากมาก (หรืออาจเป็นไปไม่ได้เลย) เช่น Wordle หรือการทำนายเซลลูลาร์ออโตมาตาอย่าง Rule 110 โดยสาเหตุที่แท้จริงยังไม่ถูกอธิบายอย่างสมบูรณ์
  • การใส่ตัวอย่างและคำสั่งแบบเป็นขั้นตอนในพรอมป์ต์ ไม่ได้หมายความว่า LLM ค้นพบ "ขั้นตอนการให้เหตุผล" ได้ด้วยตัวเอง แต่เป็นผู้ใช้ที่ส่งสิ่งนั้นให้ LLM เรามี "เครื่องจักรให้เหตุผล" ที่ดูฉลาด แต่เหมือนจะชนเข้ากับข้อจำกัดพื้นฐานบางอย่าง
  • ยังไม่ชัดเจนว่า AGI จะไปถึงได้หรือไม่ด้วยโมเดลที่ใหญ่ขึ้น การพรอมป์ต์ที่ดีขึ้น และยังใช้กลไก Attention แบบปัจจุบันอยู่ เพราะ Attention มีความแข็งทื่อมาก ขณะที่สมองมนุษย์มี synaptic plasticity เกิดขึ้นตลอดเวลา อาจมีสถาปัตยกรรมที่ยืดหยุ่นกว่าและทำให้ AGI เป็นไปได้ แต่ตอนนี้เรายังไม่รู้ว่ามันคืออะไร
  • ณ ตอนนี้ การใช้งานโมเดล AI ปัจจุบันยังต้องอาศัยการออกแบบพรอมป์ต์ยาว ๆ อย่างระมัดระวัง เช่น การจัดวางคำตอบที่ถูกและผิดของปัญหาเชิงคำนวณอย่างพิถีพิถัน การไพรม์โมเดลให้ตอบสนองอย่างเหมาะสม และการใช้ guardrail ภายนอกจำนวนมาก
  • ดูเหมือนว่า Attention จะมีปัญหาเรื่อง "goal drift" ทำให้ยากที่จะได้ความน่าเชื่อถือหากไม่มีโครงค้ำภายนอกช่วยไว้ทั้งหมด
  • หากต้องการวัดข้อจำกัดของ LLM ในเชิงทฤษฎี เราคงต้องพึ่งผลลัพธ์เชิงทฤษฎี ไม่ใช่เพียงรายการหลักฐานเชิงประจักษ์ของสิ่งที่มันยังทำไม่ได้ ในวรรณกรรมที่เกี่ยวข้องสามารถค้นหาคำว่า "expressibility" ได้
  • แม้แต่กฎง่าย ๆ อย่างรูปแบบการเขียนตัวเลขก็ยังล้มเหลวในหลายตัวอย่าง และบ่อยครั้งไม่ว่าจะจัดพรอมป์ต์อย่างไรก็ยังทำงานไม่ถูกต้อง น่าประหลาดใจแต่ก็ยังมีข้อจำกัดอยู่อีกมาก
  • โมเดลยังไม่ค่อยเก่งในการถูกสั่งว่าอย่าทำพฤติกรรมบางอย่าง เช่น สั่งว่า "ให้พูดถึงข้อเท็จจริงที่น่าสนใจ แต่อย่าบอกว่ามันน่าสนใจ" ก็ยังทำตามได้ไม่ดี ตรงกันข้าม บางครั้งยิ่งห้ามก็ยิ่งมีแนวโน้มจะทำ
  • แม้จะสมมติว่า LLM "ให้เหตุผล" ได้ สิ่งที่มันให้เหตุผลก็ไม่ใช่เกี่ยวกับโลกโดยตรง แต่เกี่ยวกับข้อเท็จจริง เอนทิตี และความสัมพันธ์เชิงเหตุและผลที่อยู่ในเอกสาร ซึ่งถูกนำไปใช้สร้าง Agentic AI เพื่อรับมือกับอาการหลอนของโมเดล รวมถึงรับมือกับการให้เหตุผลข้ามบริบทที่มีระยะโทเค็นห่างกันมาก
  • มีความเห็นว่าความจำเป็นในการจัดการความซับซ้อนระดับรอง เช่น ความสัมพันธ์ระหว่างผู้คน ความคั่งแค้น และพันธมิตร เป็นสิ่งที่ผลักดันให้เกิดสติปัญญาในระดับที่สูงขึ้น
  • บางอย่างที่ดูเหมือน "ไม่มีทางทำได้เลย" เช่น Wordle/Sudoku อาจเป็นเพียงอาร์ติแฟกต์ของการแทนข้อมูลแบบข้อความเท่านั้น และหากแปลงไปยังโดเมนอื่น แม้ยังใช้สถาปัตยกรรม Transformer แบบเดิม อัตราความสำเร็จก็อาจสูงขึ้นมาก
  • ไม่จำเป็นต้องสร้าง AGI ที่ปรับแต่งเฉพาะทุกโดเมน แค่มีเอเจนต์ที่ให้เหตุผลได้ดีพอจะแยกปัญหา มอบหมายให้เครื่องมือเฉพาะทาง แล้วนำผลกลับมาประกอบเป็นคำตอบ พร้อมกับมีแค็ตตาล็อกของโมเดล/เครื่องมือ ก็อาจเพียงพอแล้ว