การอนุมานของโมเดลภาษาขนาดใหญ่: มุมมองเชิงเรขาคณิต

(arxiv.org)

1 คะแนน โดย GN⁺ 2024-07-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ตีความประสิทธิภาพการอนุมานของ LLM ไม่ใช่แค่ปัญหาเรื่องขนาดโมเดล แต่เป็น เรขาคณิตของชั้น Transformer โดยกล่าวถึงความเชื่อมโยงที่ความหนาแน่นของกราฟ self-attention เปลี่ยน intrinsic dimension ของอินพุต MLP
MLP แบ่งปริภูมิอินพุตออกเป็น บริเวณ affine แบบแบ่งเป็นช่วง ๆ หลายบริเวณ และเมื่อ intrinsic dimension ของอินพุตเพิ่มขึ้น ก็สามารถสร้างบริเวณได้มากขึ้นเพื่อประมาณฟังก์ชันไม่เชิงเส้นได้ละเอียดขึ้น
ในกราฟ attention ที่มอง token เป็น node หากจำนวน head หรือความยาวบริบทเพิ่มขึ้น ความหนาแน่นของกราฟ จะสูงขึ้น และด้วยเหตุนี้ปริภูมิ representation ที่ MLP จัดการก็อาจใหญ่ขึ้นได้
ในการทดลอง GSM8K-Zero และ Llama 3 8B/70B Instruct เมื่อใส่ตัวอย่าง few-shot 1~10 ตัวอย่าง พบว่า การเพิ่มขึ้นของ intrinsic dimension ในชั้นสุดท้าย สอดคล้องอย่างมากกับการเพิ่มขึ้นของอัตราคำตอบถูก
การเพิ่มขึ้นของ intrinsic dimension ในชั้นแรกอาจเกิดขึ้นได้แม้เพียงใส่ token แบบสุ่ม จึงมีพลังอธิบายต่ำกว่า และการปรับปรุงการอนุมานจริงจะเห็นได้ชัดกว่าเมื่อบริบทที่เกี่ยวข้องทำให้ representation ของชั้นสุดท้าย สมบูรณ์ขึ้น

เหตุผลที่มองความสามารถในการอนุมานผ่านเรขาคณิต

ในการใช้งาน LLM จริง การเพิ่มความสามารถในการอนุมาน เป็นโจทย์สำคัญ และโมเดลอย่าง GPT-4 และ Llama 3 แสดงประสิทธิภาพสูงในหลายงาน
แนวทางปรับปรุงเดิมแบ่งกว้าง ๆ ได้เป็นสองทาง
- เพิ่มขนาดโมเดล: มีกรณีที่โมเดลใหญ่กว่ามีความสามารถในการอนุมานดีกว่า
- เพิ่มความยาวบริบท: ใช้วิธีเพิ่ม token อินพุต เช่น chain of thought, retrieval augmented generation และ prompting แบบอิงตัวอย่าง
อินพุตที่ยาวขึ้นและโมเดลที่ใหญ่ขึ้นอาจเพิ่ม ต้นทุนการคำนวณ และความหน่วงในการอนุมานในการใช้งานจริง
งานวิจัยนี้สำรวจความสัมพันธ์ระหว่าง expressiveness ของ LLM กับความสามารถในการอนุมานผ่านเรขาคณิตของ Transformer layer
คำถามหลักคือความยาวของลำดับอินพุตและจำนวน attention head ส่งผลต่อเรขาคณิตของ LLM โดยเฉพาะ intrinsic dimension ของ self-attention block อย่างไร

การแบ่งปริภูมิของ MLP และ expressiveness

MLP ที่ใช้ความไม่เชิงเส้นอย่าง ReLU, leaky-ReLU, absolute value, max-pooling สามารถมองเป็น ฟังก์ชัน affine ต่อเนื่องแบบแบ่งเป็นช่วง ๆ ที่แบ่งปริภูมิอินพุตออกเป็นหลายบริเวณได้
แต่ละบริเวณจะเชื่อมกับ affine map ที่ประมวลผลอินพุตในช่วงนั้น
- หากฟังก์ชันเป้าหมายเป็นเชิงเส้นในบางช่วง บริเวณเดียวก็เพียงพอ
- หากฟังก์ชันเป้าหมายไม่เชิงเส้น จำเป็นต้องมีหลายบริเวณเพื่อประมาณความโค้ง
ในการทดลอง toy ที่ประมาณฟังก์ชัน sine เมื่อจำนวน hidden neuron เพิ่มจาก 50 เป็น 500 จะเกิดบริเวณมากขึ้นและการประมาณละเอียดขึ้น
ตำแหน่งที่บริเวณถูกจัดวางในปริภูมิอินพุตขึ้นอยู่กับข้อมูล และขนาดกับความสม่ำเสมอของข้อมูลฝึก รวมถึงการเปลี่ยนแปลงเชิงโครงสร้าง อาจส่งผลต่อความหนาแน่นของการแบ่งส่วน
แม้มีจำนวน neuron เท่ากัน หาก intrinsic dimension ของอินพุตเพิ่มขึ้น จำนวนบริเวณที่ MLP สร้างได้จะเพิ่มขึ้นแบบเอ็กซ์โปเนนเชียล

วิธีที่ intrinsic dimension เกิดขึ้นใน Transformer

Transformer layer ของ causal LLM ประกอบด้วย self-attention, multi-head attention, MLP, residual connection และ layer normalization
attention map สามารถตีความเป็นกราฟที่มี token เป็น node และมีค่า attention เป็น edge weight
ความหนาแน่น ของกราฟ self-attention หมายถึงระดับการเชื่อมต่อระหว่าง token และความหนาแน่นนี้เชื่อมโยงกับ intrinsic dimension ของอินพุต MLP
ตาม Theorem 2.1 แต่ละ row ของเอาต์พุต multi-head attention อยู่ภายใน Minkowski sum ของ single-head convex hull และ effective dimension ถูกจำกัดด้วยผลรวมของจำนวน token ที่มีค่า attention มากกว่า 0 ในแต่ละ head
soft intrinsic dimension ที่ใช้ในงานวิจัยนิยามจากจำนวน token ที่มีค่า attention มากกว่า threshold ε
- ในการทดลอง ค่า ε ถูกกำหนดตามสถิติและการกระจายของค่า attention
- ในทุกการทดลอง ตั้งค่า threshold เป็น 0.1

เส้นทางที่ attention head และความยาวบริบทเพิ่ม expressiveness

เนื่องจาก intrinsic dimension ของอินพุต MLP ถูกกำหนดโดย attention map กราฟ attention ที่หนาแน่นขึ้นจึงทำให้ MLP สร้างบริเวณได้มากขึ้น
วิธีเพิ่ม intrinsic dimension สรุปได้เป็นสองวิธี
- เพิ่มจำนวน attention head: ผลของหลาย head ถูกรวมกัน และ effective dimension อาจเพิ่มขึ้นได้
- แก้ prompt หรือขยายบริบท: เปลี่ยนอินพุตเพื่อเพิ่มความหนาแน่นของกราฟ attention
การทดลอง toy ของ one-layer LLM ใช้โครงสร้าง embedding → attention block → MLP 1 hidden layer เพื่อประมาณฟังก์ชัน sine
เมื่อเปรียบเทียบ context length 10/100 กับจำนวน head 1/10 พบว่าเมื่อความยาวบริบทและจำนวน head เพิ่มขึ้น จำนวนบริเวณที่ MLP สร้างในปริภูมิอินพุตก็เพิ่มขึ้น
การเปลี่ยนจำนวน head อาจต้อง pre-training หรือ fine-tuning แต่ ความยาวบริบท สามารถปรับได้โดยไม่แตะต้อง weight ของโมเดล

การทดลอง GSM8K-Zero และ Llama 3

การทดลองประเมินประสิทธิภาพการตอบของ LLM ต่อ reasoning question ด้วยชุดข้อมูล GSM8K-Zero
เงื่อนไขประกอบด้วย baseline แบบ 0-shot และ prompt แบบ 1~10-shot
- ตัวอย่าง few-shot คือ question-answer pair ที่สุ่มเลือกจาก training set ของ GSM8K-Zero
- ในการทดลองเปรียบเทียบ จะนำ random token หรือข้อความ few-shot example ที่สลับลำดับแล้วมาต่อไว้ด้านหน้า
โมเดลเป้าหมายคือ Llama3 8B Instruct และ Llama3 70B Instruct
base prompt ประกอบด้วย sample ประมาณ 300 รายการจาก GSM8K-Zero ที่ตอบผิด
การประเมินว่าคำตอบถูกหรือไม่ทำโดย prompting โมเดล Mixtral 8×22B Instruct

ID ของชั้นสุดท้ายสอดคล้องกับประสิทธิภาพมากกว่า

เมื่อใส่ตัวอย่าง few-shot ไว้ด้านหน้า กรณีที่ intrinsic dimension ในชั้นสุดท้ายเพิ่มขึ้นมีโอกาสได้คำตอบถูกสูงขึ้น
ทั้งใน Llama3 8B และ 70B Instruct มีแนวโน้มว่า ยิ่ง ปริมาณการเปลี่ยนแปลงของ final layer ID มาก สัดส่วน correct response ก็ยิ่งสูงขึ้น
ในชั้นแรก ไม่ว่าจะใส่ token ชนิดใด intrinsic dimension ก็อาจเพิ่มขึ้นได้
- attention graph ของชั้นแรกทำงานคล้าย uniform distribution เหนือ token ทั้งหมด
- การทดลอง random token แสดงให้เห็นว่าการเพิ่มขึ้นของ ID ในชั้นแรกไม่ได้เชื่อมโยงกับประสิทธิภาพการอนุมานเสมอไป
ในเงื่อนไข random token การเพิ่มขึ้นของ ID มีจำกัดหรือเป็นค่าลบ และสัดส่วน correct response อิ่มตัวที่ระดับประมาณ 40%
ใน Figure 8 ที่เปรียบเทียบหลาย layer พบว่าไม่ขึ้นกับขนาดโมเดล ID ของชั้นสุดท้ายเป็นสัญญาณที่มีประโยชน์กว่าในการแยกว่าคำตอบถูกหรือไม่
ใน LLM แต่ละ token ที่ self-attention head ส่งออกจะถูกแปลงอย่างอิสระใน MLP และ MLP ที่มี partition ละเอียดยิ่งขึ้นสามารถใช้ affine map ที่ปรับตามแต่ละ token ได้มากขึ้น
เนื่องจากการทำนายถูกสร้างจากการรวมเชิงเส้นของ embedded token ความคลาดเคลื่อนในการประมาณราย token อาจสะสมกันได้ และการแบ่งส่วนที่ละเอียดขึ้นรอบ token สามารถลดความคลาดเคลื่อนในการประมาณของการทำนายสุดท้ายได้
ความเชื่อมโยงระหว่าง intrinsic dimension กับ partition ของ affine map และ ความสามารถในการ generalize ของ LLM ยังไม่ได้รับการสำรวจอย่างเพียงพอทั้งในงานวิจัยนี้และงานวิจัยที่เกี่ยวข้องส่วนใหญ่

1 ความคิดเห็น

GN⁺ 2024-07-09

ความคิดเห็นจาก Hacker News

คุณค่าของ AI ดูเหมือน เส้นโค้งอ่างอาบน้ำ ในระดับต่ำ มันเป็นระบบเติมโค้ดอัตโนมัติพลังสูงที่เขียนโค้ด 1–3 บรรทัดได้พอใช้ และในระดับสูง มันดีสำหรับอธิบายแนวคิดระดับบนที่เกี่ยวข้องกับงานตรงหน้า
แต่ในช่วงกลางกลับทำได้ไม่ดี ถ้าให้มันวางแผนหลายขั้นตอน แต่ละชิ้นอาจดูโอเคเมื่อแยกกัน แต่ไม่ประสานกัน AI ไม่มีความรู้สึกว่า “สี่ส่วนนี้ต้องเชื่อมโยงกันอย่างแน่นหนาเพื่อสร้างเป็นภาพรวมเดียว” และให้ความรู้สึกเหมือนมันสร้างสี่ขั้นตอนจาก A ไป B โดยเอาเส้นทางต่าง ๆ มาต่อกันแบบคร่าว ๆ
- นั่นไม่ใช่เส้นโค้งอ่างอาบน้ำ งานระดับต่ำกับงานระดับ “สูง” สุดท้ายก็เป็น การสร้างข้อความเชิงความน่าจะเป็น เหมือนกัน
  มันไม่ได้ให้เหตุผลเกี่ยวกับโค้ด และไม่ได้ให้เหตุผลเกี่ยวกับคำอธิบายที่ตัวเองให้ AI คิดไม่ได้ ไม่ได้สร้างโมเดลภายในของปัญหาที่ได้รับมา และแค่เดาเท่านั้น เหตุผลที่งาน “ระดับกลาง” เหล่านี้ล้มเหลวก็เพราะต้องใช้ การให้เหตุผลเชิงนามธรรม จึงจะได้คำตอบที่ถูกต้อง
- ถ้าคิดถึงข้อมูลฝึก ตัวอย่างของการวางแผนหลายขั้นตอนไม่ได้มีมากนัก ถ้าเป็นโครงสร้างที่เรียนรู้ว่าแนวคิดต่าง ๆ หรือเวกเตอร์มิติสูง เข้ากันอย่างไร มันก็จะทำได้ไม่ดีเมื่อไม่มีตัวอย่างการให้เหตุผลที่จำเป็นเพียงพอ
  ท้ายที่สุดมันน่าจะดีขึ้นเมื่อมีข้อมูลอย่างข้อมูลสังเคราะห์ คำอธิบายเป้าหมายที่ดี และโค้ดที่นำเป้าหมายนั้นไปใช้งาน สะสมมากขึ้น
- แกนระดับต่ำกับระดับสูงอาจไม่ใช่มาตรวัดที่ดีสำหรับประเมิน AI ควรใช้ kernel trick กับมาตรวัดนี้เพื่อแยกความสูงต่ำของระดับออกจาก ปัญหาการวางแผนหลายขั้นตอน
  พูดอีกอย่างคือ ควรใช้มิติอื่นเพื่อแยกสามปัญหานี้ออกจากกัน
ไม่รู้ว่ายังจำเกม “Mad Libs” ได้ไหม เกมที่ให้เติมช่องว่างอย่าง “กริยา”, “คำนาม”, “คำคุณศัพท์” แล้วในหน้าถัดไปก็เอาคำเหล่านั้นไปสร้างเรื่องตลก ๆ ตอนใส่คำแรก ๆ ไม่มีบริบท จึงถูกต้องตามไวยากรณ์แต่ไม่สมเหตุสมผลตามบริบท เลยตลก
LLM เหมือน Mad Libs ที่มี ตัวทำนายบริบท ติดมาด้วย มันสร้างผลลัพธ์ที่ถูกต้องตามไวยากรณ์ และความสัมพันธ์เชิงสถิติก็มักสร้างผลลัพธ์ที่มีความหมาย ทำให้ตัวทำนายบริบทช่วยลดเรื่องเพ้อเจ้อได้ แต่ในนี้ไม่มี “การให้เหตุผล” มีเพียงการเติมกรอบไวยากรณ์และ การเติมอัตโนมัติเชิงสถิติ เท่านั้น
- ถูก แต่แทบจะเป็นโมเดลเติมอัตโนมัติที่ซับซ้อนเกินจินตนาการ และการให้เหตุผลของมนุษย์ส่วนใหญ่ก็คาดการณ์ได้เชิงสถิติจากข้อความ ดังนั้นแค่มีโมเดลเติมอัตโนมัติที่ดีก็สามารถได้ พฤติกรรมที่ดูเหมือนการให้เหตุผล จริง ๆ
  อย่าดูแคลนว่ามันทำงานได้ดีจนน่าทึ่งแค่ไหน และความจริงที่ว่ามันทำงานได้เองนั้นน่าประหลาดใจเพียงใด เพียงเพราะมันไม่ได้ใช้ได้ในทุกกรณี แก่นของบทความต้นฉบับก็อยู่ที่การสำรวจว่าปรากฏการณ์คล้ายการให้เหตุผลเกิดขึ้นได้อย่างไรในโมเดลเติมอัตโนมัติที่ใหญ่พอ
- คำว่า “เป็นเพียงการเติมกรอบไวยากรณ์กับการเติมอัตโนมัติเชิงสถิติ” ก็คือสมมติฐาน นกแก้วสุ่มเชิงสถิติ และจะถูกพูดซ้ำทุกครั้งที่มีบทความ LLM ขึ้น HN
  สมมติฐานนี้ไม่ได้เป็นแค่ข้ออ้างเชิงปรัชญา แต่สร้างคำทำนายที่หักล้างได้ และการทดลองก็หักล้างมันได้เพียงพอแล้ว LLM มีโมเดลของโลกอยู่ บทความดังในหัวข้อนี้มี OthelloGPT และล่าสุดกว่านั้นคือ Transformers Represent Belief State Geometry in their Residual Stream
- ไม่เข้าใจว่าทำไมผู้คนยังมั่นใจอยู่เรื่อย ๆ ว่า “การให้เหตุผล” ไม่ใช่รูปแบบหนึ่งของ การเติมกรอบไวยากรณ์ และ การเติมอัตโนมัติเชิงสถิติ
- ผมมองว่าการให้เหตุผลคือการเติมกรอบไวยากรณ์และการเติมอัตโนมัติเชิงสถิติที่พัฒนาไปไกลพอ
  นอกจากนี้ยังนึกได้ว่าการแปลงเชิงไวยากรณ์นั้นเป็น Turing-complete: https://wiki.c2.com/?RewriteRules
- ผมเอาแนวคิดนี้ หรือพูดให้ตรงกว่านั้นคือ ad-libs มาใช้ตั้งชื่อไลบรารี TypeScript สำหรับเติมช่องว่างด้วย LLM: https://github.com/gsuuon/ad-llama/
ดูเหมือนว่าการถกเถียงนี้มีอยู่สองด้าน ด้านหนึ่งคือมุมมองที่ว่าเมื่อโมเดลดูดซับข้อความปริมาณมหาศาลเข้าไป มันก็สร้าง ความสามารถในการให้เหตุผล ขึ้นมาได้ไม่ทางใดก็ทางหนึ่ง กล่าวคือการให้เหตุผลเกิดขึ้นหลังภาษา
ในทางกลับกันก็มีมุมมองว่าการให้เหตุผลเป็นสิ่งที่มนุษย์ทำไว้แล้วและเขียนบันทึกไว้ ดังนั้นเมื่อถามคำถามอย่าง “หลังจากจูเลียต โรมิโอควรต้องไปหาความรักครั้งใหม่หรือไม่” โมเดลก็เพียงสะท้อนชุดการให้เหตุผลที่ปรากฏอยู่ในเรียงความวรรณคดีอังกฤษนับพันล้านชิ้นกลับมาเท่านั้น เรากำลังพลาดอะไรไปหรือเปล่า?
- ทั้งสองอย่างดูเหมือนเป็นสองด้านของเหรียญเดียวกัน โดยพื้นฐานแล้ว LLM ถูกฝึกให้ทำ text completion และการฝึกก็คือกระบวนการค้นหาวิธีทำสิ่งนั้นให้มีประสิทธิภาพที่สุดภายใต้โครงสร้างโมเดลและจำนวนพารามิเตอร์ที่กำหนด
  ถ้าเริ่มจากแนวคิดว่า “LLM ดูดซับข้อความปริมาณมหาศาล” โมเดลแบบเรียบง่ายก็สามารถเติมข้อความให้สมบูรณ์ได้ด้วยการท่องจำ แต่ถ้าจะเติม 234 * 452 = ให้ถูกต้อง การคำนวณจริงย่อมง่ายกว่าการท่องจำผลคูณที่เป็นไปได้ทั้งหมดมาก ในทำนองเดียวกัน หากมันเข้าใจโลกและให้เหตุผลได้ ก็จะเติมประโยคที่มนุษย์เขียนได้ดีกว่า ดังนั้นจึงคาดได้ว่าโมเดลที่ถูกฝึกมาดีพอ มีพารามิเตอร์มากพอสำหรับทำสิ่งนี้ แต่ไม่ได้มากจนเป็นเพียงการ overfitting แบบง่าย ๆ จะพัฒนาความสามารถในการให้เหตุผลขึ้นมาในระดับหนึ่ง
  ถ้าเริ่มจากแนวคิดว่า “ในชุดข้อมูลฝึกมีการให้เหตุผลอยู่มาก” แม้ในระดับการท่องจำก็อาจได้ผลลัพธ์ที่ดูเหมือนการให้เหตุผลได้ แต่ตรรกะที่ว่าโมเดลจะพัฒนาการให้เหตุผลจริงขึ้นมายังคงใช้ได้ และยิ่งหนักแน่นขึ้นด้วย หากต้องเติมข้อโต้แย้งของใครสักคนให้สมบูรณ์ มันจะง่ายกว่ามากเมื่อสามารถตามกระแสความคิดของคนนั้นได้
- ควรดูชุดทดสอบการให้เหตุผลที่กว้างขึ้นซึ่งใช้กับ LLM ในตอนนี้ เช่น MuSR เพราะคำถามถูกสร้างขึ้นใหม่ คำอธิบายแบบหลังเพียงอย่างเดียวจึงเห็นได้ชัดว่าอธิบายได้ยาก: https://arxiv.org/abs/2310.16049
- เหตุผลที่โมเดลแบบนั้น “ให้เหตุผล” หรือพูดให้แม่นกว่านั้นคือสามารถจัดการแนวคิดที่ซับซ้อนได้ ค่อนข้างเข้าใจได้โดยสัญชาตญาณ เมื่อประมวลผลข้อความมหาศาล มันจะสร้าง internal representation ที่แนวคิดต่าง ๆ ถูกแทนเป็นโหนดแบบง่าย ๆ เช่น นิวรอนหรือกลุ่มของนิวรอน
  ดังนั้นในทางปฏิบัติมันจึงกลั่นความรู้ออกมา หรืออาจคิดได้ว่าเป็น principal component analysis ที่ดีมากซึ่งดึงแง่มุมสำคัญหลายอย่างออกมา หรือมองว่าเป็นกราฟความหมายที่ถูกสร้างขึ้นโดยอัตโนมัติก็ได้ เมื่อความรู้ถูกกลั่นแล้ว ก็สามารถต่อยอดบนสิ่งนั้นได้ง่าย ๆ ด้วยการผสานแนวคิดเข้าด้วยกัน ไม่มีความลับพิเศษอะไร
- ลองอ่านคร่าว ๆ แล้วดูเหมือนว่าบทความวิจัยนี้จะตระหนักถึงปัญหานี้ แต่ก็เหมือนจะข้ามไปบ้าง
  เขาระบุว่าความสามารถในการประมาณค่าและการ generalization ไม่ใช่แนวคิดเดียวกันอย่างชัดเจน แต่ยังไม่ได้ข้อสรุปว่าความสามารถในการให้เหตุผลของ LLM เชื่อมโยงกับ generalization หรือไม่ และเพราะแนวคิดเหล่านี้ยังคงระบุให้ชัดได้ยาก ส่วนการทดลองจึงมุ่งไปที่ intrinsic dimension หรือความสัมพันธ์ระหว่างพลังในการแสดงออกกับความสามารถในการให้เหตุผล
- ในคำว่า สะท้อนกลับมา ในประโยค “โมเดลสะท้อนคำตอบนั้นกลับมา” มีหลายสิ่งเกิดขึ้นอยู่ข้างใน มันเรียบง่ายขนาดนั้นจริงหรือ?
  หมายความว่าโมเดลยอมรับมุมมองจากบทความวิจารณ์วรรณกรรมเฉพาะชิ้นที่มัน “อ่าน” มาหรือไม่? หรือหมายความว่ามันรับเอามุมมอง “เฉลี่ย” บางอย่างของทั้งหมดมา? แล้วตั้งแต่แรก เราจะนิยามมุมมอง “เฉลี่ย” ต่อหัวข้อหนึ่ง ๆ ได้อย่างไร?
  นี่เป็นประเด็นที่น่าสนใจซึ่งแทงเข้าไปถึงแก่นว่า LLM คืออะไร แต่บทความวิจัยนี้มีขอบเขตแคบกว่านั้นมาก จึงไม่น่าจะให้คำตอบได้
การให้เหตุผลเกี่ยวอะไรกับเรขาคณิต? คล้ายกับแนวคิดที่ว่ามีรูปทรงเรขาคณิตบางอย่างแฝงอยู่ในมโนทัศน์ต่าง ๆ หรือเปล่า? เป็นมุมมองแบบเพลโตหรือแบบปัญญานิยมเกี่ยวกับเรขาคณิตของเหตุผลหรือเปล่า? อ่านเปเปอร์แล้วเข้าใจได้ยากมาก
- ขอเสริมหลังจากอ่านเปเปอร์เพิ่มอีกหน่อยว่าเรขาคณิตมาจากตรงไหน
  เปเปอร์นี้[1] ซึ่งเป็นหนึ่งในงานที่เปเปอร์ดังกล่าวอ้างอิง แสดงให้เห็นว่าชั้นไม่เชิงเส้นของโครงข่ายประสาทเชิงลึกสมัยใหม่แบ่งอินพุตออกเป็นบริเวณต่าง ๆ แล้วใช้ การแปลงเชิงอะฟไฟน์[2] แยกตามแต่ละบริเวณเพื่อสร้างเอาต์พุต และยังพูดถึงด้วยว่าสิ่งนี้เชื่อมโยงกับ vector quantization และ k-means clustering อย่างไร
  ดังนั้นมุมมองเชิงเรขาคณิตในที่นี้ไม่ได้หมายถึงเรขาคณิตแบบมัธยมปลาย แต่หมายถึงแนวคิดที่เป็นนามธรรมกว่า เช่น ปริภูมิเวกเตอร์[3] หรือเรขาคณิตเชิงคำนวณเชิงจัดหมู่[4]
  เปเปอร์ที่ส่งมานี้ชี้ให้เห็นว่าการแบ่งแบบนี้เชื่อมโยงโดยตรงกับความสามารถในการประมาณค่าของโครงข่ายประสาท จากนั้นเสนอว่าเมื่อความสามารถในการประมาณค่าสูงขึ้น คำตอบต่อโจทย์คณิตศาสตร์แบบบรรยายก็ดีขึ้น และดังนั้นความสามารถในการประมาณค่าจึงสัมพันธ์กับความสามารถในการให้เหตุผลของ LLM
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- โครงข่ายประสาทสมัยใหม่ใช้ พีชคณิตเชิงเส้น เป็นจำนวนมาก โดยเฉพาะสถาปัตยกรรม Transformer[1] ที่ขับเคลื่อน LLM สมัยใหม่
  พีชคณิตเชิงเส้นมีความเกี่ยวข้องอย่างใกล้ชิดกับเรขาคณิต[2] ดังนั้นจึงค่อนข้างเป็นธรรมชาติที่จะมีแง่มุมทางเรขาคณิตที่กำหนดความสามารถและประสิทธิภาพ
  ในเปเปอร์นี้โดยเฉพาะ เขาดู มิติภายใน[3] ของชั้น attention และพิจารณาว่ามันสัมพันธ์กับประสิทธิภาพของ LLM อย่างไร
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- แนวคิดที่ว่า “มีรูปทรงเรขาคณิตแฝงอยู่ในมโนทัศน์ต่าง ๆ” นั้นถูกต้อง ที่จริงยังสามารถสร้างรากฐานของคณิตศาสตร์บนแนวคิดนี้ได้ และในบางความหมายก็สร้าง “การให้เหตุผล” และบทพิสูจน์ได้ด้วย
  ระบบชนิดพึ่งพา ทำงานในลักษณะนี้ ลองค้นหา HoTT และทฤษฎีโฮโมโทปีแบบโมดัลได้ Lean4, Coq และการพิสูจน์ทฤษฎีบทก็ทำงานแบบนี้เช่นกัน
  หากนึกถึงรากฐานของแลมบ์ดาแคลคูลัสหรือพีชคณิตบูล ก็จะปฏิบัติต่อวัตถุทางคณิตศาสตร์ที่จัดระเบียบอยู่บน lattice หรือ semilattice ซึ่งเป็นเซตมีอันดับบางส่วน ในฐานะลำดับของการแปลง ตัวอย่างเช่น ในพีชคณิตบูล implication ให้โครงสร้างอันดับบางส่วน
  คงน่าสนใจถ้าเข้าใจได้ว่าความหนาแน่นของกลไก attention ดำเนินไปคล้ายกับระบบชนิดพึ่งพาหรือไม่ และมีความเชื่อมโยงระหว่างชนิดพึ่งพาที่เกี่ยวข้องกับการพิสูจน์กับปริภูมิที่สอดคล้องกันภายใน LLM ผ่านการผ่อนคลายแบบต่อเนื่องที่คล้ายกับตัวดำเนินการความใกล้เคียง และการแปลงจากมโนทัศน์ระดับสูงไปเป็นโทเคนเอาต์พุตหรือไม่
  ใน embedding เราเห็นแล้วว่าเรขาคณิตมีความหมาย มโนทัศน์เรียบง่ายบางอย่างสอดคล้องกับทิศทางของเวกเตอร์ จึงไม่น่าแปลกใจเลยหากการให้เหตุผลเกี่ยวกับมโนทัศน์แบบพึ่งพาสอดคล้องกับปริภูมิย่อยที่ซับซ้อนของเส้นทางที่ LLM ผ่านไป และเมื่อฝึกมากพอ ความเชื่อมโยงนั้นก็ยิ่งเข้าใกล้โครงสร้างตรรกะของบทพิสูจน์ที่สอดคล้องกันมากขึ้น
- เปเปอร์นี้ไม่ได้พูดถึงประเด็นนั้น แต่จากตรงนี้สามารถสร้าง benchmark สังเคราะห์แบบ AlphaGeometry[1] ได้ คือให้เอนจินเรขาคณิตสร้างโจทย์แบบบรรยาย 100 ล้านข้อ แล้วให้ LLM แก้
  ปัญหาเรขาคณิตสร้างและแก้ด้วยเครื่องได้ง่าย แต่ไม่มีเหตุผลพิเศษที่ Transformer LLM ทั่วไปจะต้องทำได้ดี และมีข้อดีตรงที่ขยายสเกลได้มหาศาล ต่างจาก benchmark อย่าง HumanEval ที่มีแค่ 164 ข้อ จึงหลีกเลี่ยงข้อวิจารณ์ว่า LLM ท่องจำคำตอบมาได้ง่ายกว่า
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- น่าจะหมายถึง word embedding ในที่นี้บริบทถูกฝังอยู่ในปริภูมิเรขาคณิตมิติสูง และบางมิติอาจจับสิ่งอย่างเช่นคำ ๆ หนึ่ง “มีความเป็นผู้หญิง” แค่ไหน หรือ “ใกล้เคียงกับสีน้ำเงิน” แค่ไหน
สงสัยว่า บริเวณ ในที่นี้คืออะไร มีบริเวณมากขึ้นยิ่งดีหรือไม่ แบ่งบริเวณอย่างไร และบริเวณหนึ่งอาจเป็นแนวคิดเดียวกับหลายบริเวณที่เกี่ยวข้องกันได้หรือไม่
- เท่าที่เข้าใจ บริเวณคือชิ้นส่วนที่ประกอบกันเป็นการแบ่งโดเมนอินพุต หรือก็คือชิ้นส่วนของปริภูมิเวกเตอร์ที่ก่อตัวขึ้นจากน้ำหนัก มีรายละเอียดเพิ่มเติมตั้งแต่หัวข้อ 3.1 เป็นต้นไปในเปเปอร์ที่อ้างอิง[1]
  ประเด็นของเปเปอร์นั้นคือ ชั้นต่าง ๆ ของโครงข่ายประสาทเชิงลึกทั่วไปจะแบ่งโดเมนอินพุตออกเป็นหลายบริเวณ และแต่ละบริเวณมีการแปลงเชิงอะฟไฟน์ของตัวเองต่ออินพุต
  หากเป็นฟังก์ชันกระตุ้นใด ๆ ก็ต้องหาทั้งตัวการแบ่งเองและพารามิเตอร์ของการแปลงเชิงอะฟไฟน์แยกตามบริเวณ แต่เนื่องจากฟังก์ชันกระตุ้นที่ใช้กันทั่วไปเป็นฟังก์ชันนูนในเชิง global เปเปอร์จึงแสดงว่าสามารถใช้คุณสมบัตินี้ทำให้การแบ่งถูกกำหนดอย่างสมบูรณ์โดยพารามิเตอร์การแปลงเชิงอะฟไฟน์ของแต่ละบริเวณได้
  ดังนั้นเอาต์พุตของชั้นสำหรับอินพุต x ใด ๆ จึงเป็น “การแปลงเชิงอะฟไฟน์แบบแบ่งเป็นชิ้นของ x ที่ขึ้นกับการแบ่ง-บริเวณ” พารามิเตอร์ของการแปลงเชิงอะฟไฟน์คือสิ่งที่เปลี่ยนแปลงจริง ๆ ระหว่างการเรียนรู้ และดังนั้นจำนวนกับรูปร่างของบริเวณก็เปลี่ยนระหว่างการเรียนรู้ด้วย
  เปเปอร์ที่ส่งมานี้แสดงว่ายิ่งมีบริเวณมาก ความสามารถในการประมาณค่าของชั้นโครงข่ายประสาทก็ยิ่งสูงขึ้น เมื่อคิดจากเนื้อหาข้างต้น เรื่องนี้เองก็ไม่น่าแปลกใจ แต่ถูกใช้เป็นก้าวสำคัญในข้อโต้แย้ง
  [1]: https://arxiv.org/abs/1805.06576v2
เช่นเดียวกับการถกเถียงเชิงปรัชญาจำนวนมาก การอ้างว่า LLM สามารถ “ให้เหตุผล” ได้นั้นไม่ได้มีความหมายมากนัก เพราะ “การให้เหตุผล” ไม่ใช่คำที่นิยามไว้อย่างชัดเจน และทุกคนก็คงไม่เห็นพ้องกับนิยามเดียวกัน
ถ้าถามนักวิทยาการคอมพิวเตอร์ นักปรัชญาภาคพื้นทวีป และนักมานุษยวิทยาว่า “การให้เหตุผล” คืออะไร ก็จะได้คำตอบที่แตกต่างกันโดยสิ้นเชิง
หากหมายถึงการให้เหตุผลแบบนิรนัยที่ใช้ในคณิตศาสตร์ และการให้เหตุผลแบบอุปนัยที่ใช้ในวิทยาศาสตร์ ก็ไม่มีหลักฐานว่า LLM ทำสิ่งเหล่านั้นได้ และก็ไม่มีเหตุผลให้เชื่อว่าการจับคู่แพตเทิร์นทางภาษาเพียงอย่างเดียวจะเลียนแบบทุกสิ่งที่เราเรียกว่าความคิดของมนุษย์ได้ การจะอ้างเช่นนั้นต้องนิยาม “ความคิด” ให้แคบอย่างยิ่ง และมองข้ามข้อเท็จจริงที่ว่าเราเป็นปัญญาที่มีร่างกาย และสามารถรู้จักตัวเองได้ในแบบที่โปร่งใส และอาจเป็นแบบก่อนภาษา ตราบใดที่ AI ยังไม่ถูกทำให้ มีร่างกาย และสามารถทำแบบเดียวกันได้ ผมก็ไม่เชื่อว่ามันจะ “คิด” หรือ “ให้เหตุผล” ได้เหมือนมนุษย์ มันยังคงเป็นกลลวงทางสถิติที่ยอดเยี่ยมมาก
- https://transformer-circuits.pub/2022/in-context-learning-an...
  มีหลักฐานมากมายว่าพวกมันทำ อุปนัย
- นั่นอาจจะถูกก็ได้ แต่ถ้ามัน “ดีพอ” แล้วทำไมเรื่องนั้นถึงสำคัญ? ถ้าผมแยกไม่ออกว่าผู้ใช้ใน Slack/Teams ที่จัดการ ticket ได้ตรงเวลาและคุณภาพโค้ดก็ใช้ได้ เป็น LLM หรือเป็นผมเอง ผมก็ไม่ค่อยสนใจหรอกว่าสิ่งนั้นจะรู้จักตัวเองในแบบที่โปร่งใสและก่อนภาษาหรือไม่
“ก็แค่ใส่ มิติ เพิ่มเข้าไปสิ เพื่อน!”
ผมไม่ใช่คนสาย AI แค่ชอบดูอยู่ข้าง ๆ หลังจากอ่านผ่าน ๆ งานวิจัยแล้ว ถ้าสรุปจากมุมมองคนนอกวงการก็น่าจะเป็นแบบนี้ และถ้ามีส่วนไหนผิดก็ช่วยแก้ให้ด้วย
โครงข่ายประสาทสมัยใหม่ เช่นชั้น multilayer perceptron[1] ที่ใช้ใน LLM โดยพื้นฐานแล้วจะแบ่งอินพุตออกเป็นหลาย ๆ บริเวณ จำนวนบริเวณที่ชั้น MLP เดี่ยว ๆ สามารถแบ่งได้ขึ้นอยู่แบบเลขชี้กำลังกับ มิติภายใน[2] ของอินพุต และดูเหมือนว่าจำนวนบริเวณ/การแบ่งจะเพิ่มความสามารถในการประมาณค่าของชั้น MLP
ดังนั้นจึงสามารถ “กลั่น” อินพุตในทางปฏิบัติ เพื่อเพิ่มความสามารถในการประมาณค่าของชั้น MLP ได้อย่างมากโดยไม่ต้องเพิ่มจำนวน neuron
ในสถาปัตยกรรม Transformer อินพุตของชั้น MLP คือชั้น self-attention[3] ผู้เขียนแสดงให้เห็นว่าความหนาแน่นของกราฟในชั้น self-attention มีความสัมพันธ์อย่างมากกับมิติภายในของชั้น self-attention กล่าวคือ ยิ่งชั้น self-attention หนาแน่นเท่าไร MLP ก็ยิ่งทำงานได้ดีขึ้นเท่านั้น
วิธีหนึ่งในการเพิ่มความหนาแน่นของชั้น attention คือเพิ่มบริบทให้มากขึ้น ดูเหมือนว่าการใส่ token ใด ๆ ก็ตามเป็นบริบทไว้หน้าคำถาม เพื่อเพิ่มมิติภายในของชั้นสุดท้าย จะทำให้ประสิทธิภาพของ LLM ดีขึ้น
นอกจากนี้ยังเขียนไว้ว่าโครงสร้าง Transformer มีแนวโน้มที่จะสะสม error จากการประมาณค่า และการแบ่งที่ละเอียดขึ้นซึ่งได้จากชั้น MLP ที่รับอินพุตมิติภายในสูงอาจช่วยในเรื่องนี้ได้ อย่างไรก็ตาม ผลกระทบต่อ generalization ยังต้องศึกษาเพิ่มเติม
หากผลลัพธ์ยังคงยืนยันได้ งานวิจัยนี้ก็ดูเหมือนจะให้ insight ที่ดีในการปรับแต่งโครงข่ายประสาทลักษณะคล้าย LLM ให้ดีขึ้น
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- ถ้าคิดว่าความหนาแน่นนิยามจากจำนวน edge ที่เชื่อม token ในกราฟ attention จะเข้าใจได้ง่ายกว่า พูดให้เรียบกว่านั้นคือ จำนวนครั้งที่ token มีการเชื่อมต่อบางอย่างกับ token อื่น หารด้วยจำนวน token
  ดังนั้น token ที่เกี่ยวข้องกันจริงและให้ข้อมูลจึงดี แต่ token ที่ไม่เกี่ยวข้องจะไม่ช่วย
  ผมคิดว่าข้อความว่า “ถ้าใส่ token ใด ๆ ก็ตามเป็นบริบทไว้หน้าคำถาม ประสิทธิภาพของ LLM จะดีขึ้น” น่าจะไม่ถูกต้อง สิ่งที่งานวิจัยพบคือ หากใส่ token ประเภทใดก็ตามไว้หน้าคำถามปัจจุบัน มิติภายในของชั้นแรกจะเพิ่มขึ้น แต่การเพิ่มขึ้นนี้ไม่จำเป็นต้องสัมพันธ์กับความสามารถในการให้เหตุผลของโมเดล
  กล่าวคือ ความสามารถในการให้เหตุผลของ LLM จะดีขึ้นอย่างมากก็ต่อเมื่อ token ที่ใส่ไว้ข้างหน้าช่วยเพิ่ม มิติภายในของชั้นสุดท้าย ของโมเดลเท่านั้น
- จำนวนบริเวณที่แตกต่างกันซึ่งเราสนใจเป็น subset ของ Vapnik–Chervonenkis dimension[a] ของข้อมูล และในกรณีสุดโต่งอาจมองว่าเท่ากันได้หรือเปล่า?
  ในต้นฉบับไม่มีการกล่าวถึง VC dimension
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

การอนุมานของโมเดลภาษาขนาดใหญ่: มุมมองเชิงเรขาคณิต

เหตุผลที่มองความสามารถในการอนุมานผ่านเรขาคณิต

การแบ่งปริภูมิของ MLP และ expressiveness

วิธีที่ intrinsic dimension เกิดขึ้นใน Transformer

เส้นทางที่ attention head และความยาวบริบทเพิ่ม expressiveness

การทดลอง GSM8K-Zero และ Llama 3

ID ของชั้นสุดท้ายสอดคล้องกับประสิทธิภาพมากกว่า

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News