2 คะแนน โดย GN⁺ 2024-03-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เหตุใดการให้เหตุผลแบบเป็นลำดับความคิดจึงช่วยการคำนวณของโครงข่ายประสาท

  • เมื่อโมเดลภาษาขนาดใหญ่แสดงขั้นตอนการทำงานขณะแก้ปัญหา ประสิทธิภาพจะดีขึ้น
  • นักวิจัยกำลังเริ่มเข้าใจว่าเหตุใดเทคนิคนี้จึงได้ผล

การฝึกทรานส์ฟอร์เมอร์

  • โมเดลภาษาขนาดใหญ่มีพื้นฐานมาจากโครงสร้างทางคณิตศาสตร์ที่เรียกว่าโครงข่ายประสาทเทียม
  • ภายในโครงข่ายประสาท "นิวรอน" จะทำการคำนวณทางคณิตศาสตร์อย่างง่ายกับสตริงตัวเลขยาว ๆ ที่ใช้แทนคำแต่ละคำ
  • ทรานส์ฟอร์เมอร์ใช้โครงสร้างทางคณิตศาสตร์พิเศษที่เรียกว่า attention head เพื่อสแกนข้อความอย่างรวดเร็วและระบุความเชื่อมโยงที่เกี่ยวข้องกันระหว่างคำ

ความซับซ้อนของทรานส์ฟอร์เมอร์

  • งานวิจัยเชิงทฤษฎีเกี่ยวกับทรานส์ฟอร์เมอร์ศึกษามันราวกับเป็นคอมพิวเตอร์ชนิดหนึ่ง โดยไม่คำนึงถึงสิ่งที่เกิดขึ้นระหว่างการฝึก
  • นักวิจัยได้พิสูจน์ว่าทรานส์ฟอร์เมอร์อาจทรงพลังได้ถึงระดับเดียวกับเครื่องทัวริง

การทดลองทางความคิด

  • นักวิจัยตั้งคำถามว่าทรานส์ฟอร์เมอร์จะทรงพลังขึ้นได้มากเพียงใดเมื่อมันนำเอาต์พุตกลับมาใช้ซ้ำ
  • การให้เหตุผลแบบเป็นลำดับความคิดอาจเป็นวิธีหนึ่งในการเลี่ยงข้อจำกัดของทรานส์ฟอร์เมอร์

กลับสู่ความเป็นจริง

  • การวิเคราะห์เชิงทฤษฎีเปิดเผยหลายอย่างเกี่ยวกับโมเดลภาษาในโลกจริง แต่ไม่อาจคาดหวังผลลัพธ์ที่สมบูรณ์แบบได้
  • การวิเคราะห์ตามทฤษฎีความซับซ้อนมีความสำคัญต่อการตระหนักถึงข้อจำกัดของทรานส์ฟอร์เมอร์

ความเห็นของ GN⁺

  • งานวิจัยนี้มีส่วนสำคัญต่อการทำความเข้าใจข้อจำกัดและศักยภาพของโมเดลทรานส์ฟอร์เมอร์ในวงการปัญญาประดิษฐ์ โดยเฉพาะอย่างยิ่ง มันให้มุมมองเชิงลึกว่าการให้เหตุผลแบบเป็นลำดับความคิดสามารถช่วยแก้ปัญหาที่ซับซ้อนได้อย่างไร
  • อย่างไรก็ตาม เนื่องจากผลของงานวิจัยเชิงทฤษฎีไม่ได้สอดคล้องกับประสิทธิภาพของโมเดลจริงเสมอไป จึงต้องใช้ความระมัดระวังเมื่อนำไปประยุกต์ใช้จริง ประสิทธิภาพในสภาพแวดล้อมจริงได้รับอิทธิพลจากหลายปัจจัย เช่น ข้อมูลฝึก สถาปัตยกรรมของโมเดล และการปรับไฮเปอร์พารามิเตอร์
  • บทความนี้ช่วยให้ตระหนักถึงข้อจำกัดของโมเดลประมวลผลภาษา และเสนอทิศทางการวิจัยเพื่อพัฒนาโมเดลที่ดียิ่งขึ้น จึงเป็นข้อมูลที่มีประโยชน์สำหรับนักวิจัย AI
  • โครงการอื่นที่มีความสามารถคล้ายกัน ได้แก่ซีรีส์ GPT ของ OpenAI ซึ่งเป็นตัวอย่างที่ดีในการเห็นประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในทางปฏิบัติ
  • เมื่อนำเทคโนโลยีหรือโมเดลใหม่มาใช้ ควรพิจารณาความเข้ากันได้กับระบบเดิม ต้นทุน ประสิทธิภาพ และการบำรุงรักษาอยู่เสมอ และงานวิจัยที่กล่าวถึงในบทความนี้ก็ให้ความรู้พื้นฐานที่ช่วยในการตัดสินใจเหล่านี้ได้

1 ความคิดเห็น

 
GN⁺ 2024-03-24
ความคิดเห็นบน Hacker News
  • ความเห็นเกี่ยวกับประสบการณ์ในการโต้ตอบกับ chain-of-thought:

    • chain-of-thought ไม่ได้เหมือนกับลำดับเหตุผลที่เคร่งครัดแบบคณิตศาสตร์หรือตรรกะ
    • สิ่งที่โมเดลแสดงออกมาผ่านการให้เหตุผลทีละขั้นขึ้นอยู่กับความเข้มของบริบทที่เกี่ยวข้อง ซึ่งอ่อนกว่าสิ่งที่มนุษย์ทำในคณิตศาสตร์/ตรรกะมาก
    • โมเดลไม่ได้ให้เหตุผลเชิงตรรกะแบบมนุษย์ แต่กระโดดข้ามผ่านบริบทที่เกี่ยวข้อง
    • โมเดลแบบ transformer จะคำนวณเฉพาะตอนสร้างโทเค็นเท่านั้น ดังนั้นการใช้ chain-of-thought เพื่อสร้างโทเค็นเพิ่มจึงทำให้โมเดลมีเวลาที่จะ "คิด" มากขึ้น
  • คำถามแกนกลางที่เกี่ยวข้องกับการศึกษาการคำนวณเชิงรูปแบบ:

    • การศึกษาการคำนวณเชิงรูปแบบย้อนกลับไปถึง Alan Turing ผู้จินตนาการเครื่องทัวริงในปี 1936
    • ก่อนหน้านั้นอีก ในช่วงทศวรรษ 1920 Moses Schönfinkel ได้พัฒนา combinatory logic และช่วงต้นทศวรรษ 1930 Alonzo Church ได้พัฒนา lambda calculus
    • แบบจำลองเหล่านี้ไม่เหมาะจะเป็นรากฐานของทฤษฎีความซับซ้อนเชิงการคำนวณ
  • มุมมองสองแบบต่อ large language model (LLM):

    • การบอกว่า LLM "มีสำนึก" หรือ "เป็นเพียงตัวทำนายโทเค็นถัดไปที่มีชุดข้อมูลน่าประทับใจ" มักแยกกันระหว่างคนที่เรียนพื้นฐาน ML ก่อนแล้วค่อยเจอ LLM กับคนที่เป็นในทางกลับกัน
    • แนวคิดพื้นฐานอาจจำกัดการมองภาพใหญ่ จึงยินดีต่อการถกเถียง
    • ผลลัพธ์จากงานต้นฉบับเกี่ยวกับ chain-of-thought มักไม่สามารถทำซ้ำได้ในการทดลองติดตามผลหลายครั้ง
  • โมเดลไม่สามารถคิดได้:

    • โมเดลใช้บริบทอินพุตเพื่อทำนายเอาต์พุต
    • สำหรับปัญหาที่ต้องแก้แบบวนซ้ำ จำเป็นต้องคงขั้นตอนกลางไว้ในบริบท
  • เหตุผลง่าย ๆ เกี่ยวกับความซับซ้อนเชิงการคำนวณ:

    • หากมอง LLM เป็นคอมพิวเตอร์ที่ทำ forward pass แบบเวลาคงที่เพียงหนึ่งครั้งต่ออินพุต การให้รอบเพิ่มก็ทำให้มันคำนวณได้มากขึ้น
    • นี่คือการขยายจากปัญหาที่ single-layer perceptron ไม่สามารถคำนวณ XOR ได้
  • คำอธิบายสั้น ๆ ต่อความน่ามหัศจรรย์ของ chain-of-thought:

    • อ้างถึงทวีตเกี่ยวกับการที่ข้อมูลและพรอมป์ตทำงานได้อย่างน่าประหลาดใจ
    • มีเว็บไซต์จำนวนมากที่ให้วิธีทำโจทย์คณิตศาสตร์แบบทีละขั้น
  • ความเห็นที่เกี่ยวกับ chain-of-thought:

    • chain-of-thought คล้ายกับ "การเบลอ" ซึ่งเข้าใจได้เชิงสัญชาตญาณว่าเป็นแนวทางที่ถูกต้องในการประมาณสติปัญญา
  • กรณีของการนำ chain-of-thought ไปใช้และทดลองสำนึกประดิษฐ์:

    • เมื่อปล่อยให้ chain-of-thought ดำเนินต่อไปเกินกว่าการตอบคำถาม รูปแบบหนึ่งของสำนึกประดิษฐ์ก็ปรากฏขึ้น
  • กรณีของการใช้ chain-of-thought แบบกลับด้าน:

    • ฝึกโมเดลให้ตอบก่อน แล้วค่อยให้อนุมานขั้นตอนหลังจากนั้น
    • นักวิจัยของ Mistral AI ใช้วิธีนี้ และพบพฤติกรรมที่โมเดลตอบคำถามซับซ้อนก่อนแล้วจึงค่อยให้เหตุผลภายหลัง