กลไกที่เรียบง่ายอย่างน่าประหลาดที่ LLM ใช้เพื่อดึงความรู้ที่เก็บไว้

(news.mit.edu)

2 คะแนน โดย GN⁺ 2024-03-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทีมนักวิจัยจาก MIT และสถาบันอื่น ๆ ยืนยันว่า โมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นพื้นฐานของ AI แชตบอตอย่าง ChatGPT มักใช้ฟังก์ชันเชิงเส้นอย่างง่ายเมื่อต้องดึงข้อเท็จจริงบางส่วนที่เก็บไว้
ฟังก์ชันนี้จะแตกต่างกันไปตาม ประเภทของข้อเท็จจริง เช่น “เครื่องดนตรีที่บุคคลเล่น” หรือ “รัฐที่บุคคลเกิด” และข้อเท็จจริงประเภทใกล้เคียงกันจะใช้ฟังก์ชันถอดรหัสเดียวกัน
หลังจากประมาณค่าฟังก์ชันสำหรับความสัมพันธ์ 47 แบบแล้วทดสอบโดยเปลี่ยนประธาน ผลคือสามารถดึงข้อมูลวัตถุที่ถูกต้องได้ มากกว่า 60% ในความสัมพันธ์อย่าง “เมืองหลวงของประเทศ”
แม้โมเดลจะตอบผิด ภายในก็มักยังคงมีคำตอบที่ถูกต้องอยู่ และสิ่งนี้นำไปสู่ attribute lens สำหรับดูว่าข้อมูลบางอย่างถูกเก็บไว้ที่ชั้นใดของทรานส์ฟอร์เมอร์
ความรู้ไม่ได้ถูกเก็บแบบเชิงเส้นทั้งหมด ดังนั้นข้อเท็จจริงที่หาไม่เจอด้วยฟังก์ชันเชิงเส้นและการตรวจสอบความแม่นยำในโมเดลที่ใหญ่กว่ายังคงเป็นโจทย์วิจัยถัดไป

วิธีการดึงความรู้แบบง่ายที่ค้นพบภายใน LLM

ทีมนักวิจัยจาก MIT และหลายสถาบันพบว่า โมเดลภาษาทรานส์ฟอร์เมอร์ ที่ซับซ้อนมักใช้ฟังก์ชันเชิงเส้นอย่างง่ายในการดึงข้อเท็จจริงที่เก็บไว้
ฟังก์ชันเชิงเส้นเป็นรูปแบบง่ายที่แสดงความสัมพันธ์แบบเส้นตรงระหว่างตัวแปรสองตัว
- แม้ภายใน LLM จะมีการคำนวณไม่เชิงเส้นที่ซับซ้อน การดึงความรู้บางส่วนก็ยังทำงานด้วยกลไกเรียบง่ายแบบนี้
งานวิจัยที่เกี่ยวข้องคือ “Linearity of Relation Decoding in Transformer Language Models” และมีกำหนดนำเสนอในงาน International Conference on Learning Representations

ข้อเท็จจริงถูกจัดการในรูปของความสัมพันธ์ระหว่างประธานกับวัตถุ

ความรู้จำนวนมากที่เก็บอยู่ในทรานส์ฟอร์เมอร์สามารถแสดงได้เป็น ความสัมพันธ์ที่เชื่อมประธานกับวัตถุ
- “Miles Davis plays the trumpet” คือความสัมพันธ์ที่เชื่อมประธาน Miles Davis กับวัตถุ trumpet
- ในพรอมป์ต์ “Miles Davis plays the...” โมเดลควรตอบ trumpet ไม่ใช่ Illinois ซึ่งเป็นรัฐที่ Miles Davis เกิด
เมื่อโมเดลได้รับความรู้เกี่ยวกับหัวข้อหนึ่งมากขึ้น ข้อเท็จจริงหลายอย่างเกี่ยวกับหัวข้อนั้นจะถูกเก็บไว้ข้ามหลายชั้น
เมื่อมีการป้อนคำถาม โมเดลต้องถอดรหัสข้อเท็จจริงที่เกี่ยวข้องที่สุดเพื่อสร้างคำตอบ

ฟังก์ชันถอดรหัสเชิงเส้นที่แตกต่างกันตามประเภทความสัมพันธ์

จากการทดลองตรวจสอบ LLM นักวิจัยยืนยันว่าโมเดลสามารถถอดรหัส ข้อมูลความสัมพันธ์ ด้วยฟังก์ชันเชิงเส้นอย่างง่ายได้ในบางกรณี
ฟังก์ชันจะต่างกันไปตามประเภทของข้อเท็จจริงที่ต้องการดึงออกมา
- ฟังก์ชันที่ใช้เพื่อให้ได้ชื่อเครื่องดนตรีที่บุคคลเล่น กับฟังก์ชันที่ใช้เพื่อให้ได้ชื่อรัฐที่บุคคลเกิด เป็นคนละฟังก์ชันกัน
นักวิจัยได้พัฒนาวิธีประมาณค่าฟังก์ชันเหล่านี้ และคำนวณฟังก์ชันสำหรับ 47 ความสัมพันธ์ เช่น “เมืองหลวงของประเทศ” และ “นักร้องนำของวงดนตรี”
เนื่องจากความสัมพันธ์ที่เป็นไปได้นั้นมีไม่จำกัด การทดลองจึงใช้เพียงส่วนย่อยที่เป็นตัวแทนของประเภทข้อเท็จจริงที่สามารถศึกษาด้วยวิธีนี้ได้

ความสำเร็จในการดึงกลับมากกว่า 60% และข้อจำกัดของการเก็บแบบเชิงเส้น

ฟังก์ชันแต่ละตัวถูกทดสอบว่าสามารถดึงข้อมูลวัตถุที่ถูกต้องได้หรือไม่โดยการเปลี่ยนประธาน
- ฟังก์ชัน “เมืองหลวงของประเทศ” ควรดึง Oslo เมื่อประธานคือ Norway และดึง London เมื่อประธานคือ England
ฟังก์ชันสามารถดึงข้อมูลที่ถูกต้องได้ในกรณี มากกว่า 60%
ข้อมูลบางส่วนภายในทรานส์ฟอร์เมอร์สามารถถูกเข้ารหัสและดึงกลับด้วยวิธีนี้ได้
อย่างไรก็ตาม ข้อมูลไม่ได้ถูกเข้ารหัสแบบเชิงเส้นทั้งหมด
- ข้อเท็จจริงบางอย่างแม้โมเดลจะรู้และสามารถทำนายข้อความที่สอดคล้องกับข้อเท็จจริงนั้นได้ แต่นักวิจัยก็ไม่สามารถหาฟังก์ชันเชิงเส้นได้
- ในกรณีเช่นนี้ โมเดลอาจใช้วิธีที่ซับซ้อนกว่านี้ในการเก็บข้อมูลดังกล่าว

attribute lens สำหรับดูว่าโมเดลรู้อะไรบ้าง

ฟังก์ชันที่ประมาณค่าได้สามารถใช้ตรวจสอบว่าโมเดลถือว่าอะไรเป็นจริงเกี่ยวกับหัวข้อหนึ่งโดยเฉพาะ
การทดลองหนึ่งเริ่มจากพรอมป์ต์ “Bill Bradley was a” แล้วนำฟังก์ชันถอดรหัสที่สอดคล้องกับ “เล่นกีฬา” และ “เคยเรียนมหาวิทยาลัย” มาใช้
- วิธีนี้ใช้ตรวจสอบว่าโมเดลรู้หรือไม่ว่า ส.ว. Bill Bradley เคยเป็นนักบาสเกตบอลและเคยเรียนที่ Princeton
วิธีนี้แสดงให้เห็นว่าแม้ระหว่างการสร้างข้อความ โมเดลจะโฟกัสกับข้อมูลอย่างอื่น ภายในก็อาจยังมีข้อมูลที่เกี่ยวข้องหลายอย่างถูกเข้ารหัสไว้
จากแนวคิดนี้จึงเกิดกริดที่เรียกว่า attribute lens
- attribute lens ใช้แสดงภาพว่าข้อมูลเกี่ยวกับความสัมพันธ์หนึ่ง ๆ ถูกเก็บไว้ที่จุดใดในหลายชั้นของทรานส์ฟอร์เมอร์
- สามารถสร้างได้อัตโนมัติและอาจใช้เป็นวิธีที่เรียบง่ายขึ้นในการทำความเข้าใจโมเดล

ความเป็นไปได้ในการแก้คำตอบผิดและโจทย์วิจัยที่ยังเหลือ

แม้โมเดลจะตอบพรอมป์ต์ผิด แต่ภายในมักยังเก็บข้อมูลที่ถูกต้องไว้
แนวทางนี้อาจนำไปใช้ค้นหาและแก้ไข ข้อมูลที่ไม่ถูกต้อง ภายในโมเดล และอาจเชื่อมโยงไปสู่การลดแนวโน้มที่ AI แชตบอตจะให้คำตอบที่ไม่แม่นยำหรือไร้ความหมาย
งานวิจัยในอนาคตจะมุ่งทำความเข้าใจให้ดีขึ้นว่าเกิดอะไรขึ้นกับข้อเท็จจริงที่ไม่ได้ถูกเก็บแบบเชิงเส้น
มีแผนจะทดลองกับโมเดลที่ใหญ่ขึ้น และศึกษาด้าน ความแม่นยำ ของฟังก์ชันถอดรหัสเชิงเส้นเพิ่มเติม
Mor Geva Pipek จาก Tel Aviv University ประเมินว่างานวิจัยนี้เผยให้เห็นชิ้นส่วนที่ขาดหายไปในการทำความเข้าใจว่า LLM ระลึกความรู้เชิงข้อเท็จจริงระหว่างการให้เหตุผลอย่างไร และแสดงให้เห็นว่าการคำนวณไม่เชิงเส้นที่ซับซ้อนสำหรับการดึงคุณลักษณะสามารถประมาณได้ดีด้วยฟังก์ชันเชิงเส้นอย่างง่าย

1 ความคิดเห็น

GN⁺ 2024-03-29

ความคิดเห็นจาก Hacker News

เป็นงานที่ยอดเยี่ยม แต่ผมมองว่ามันเผยให้เห็นปัญหาใหญ่ของกระแส AI ตอนนี้ด้วย จริง ๆ แล้วเรายังไม่พยายามหลุดออกจากนิวรอนหรือชุดกฎที่แทบไม่ต่างจาก เพอร์เซปตรอน ซึ่งใกล้เคียงกับฟังก์ชันผลรวมแบบง่าย ๆ
แค่เพราะเฟสการส่งผ่านไปข้างหน้าระดับนิวรอนเดี่ยวนั้นง่ายที่สุดสำหรับการเรียนรู้และการรันบน GPU ก็ยังน่าสงสัยอยู่ว่ามันเป็นสิ่งที่ดีที่สุดจริง ๆ สำหรับการทำงานหรือไม่
ยังมีวิธีการเรียนรู้และรูปแบบการเข้ารหัสแปลก ๆ อีกมากที่ไม่ได้ถูกใช้เพราะไลบรารีใหญ่ ๆ ไม่รองรับ และจนกว่าจะมีการเปลี่ยนแปลงจริง ๆ ในชุดกฎพื้นฐานของโครงข่ายประสาท ผมคิดว่าสุดท้ายเราก็จะยังต้องสู้กับ “เพอร์เซปตรอนที่เพิ่มขั้นตอนเข้าไป” ต่อไป
- นั่นเท่ากับมองข้ามงานวิจัยกองโตที่พยายามสร้างโมเดลด้วยแนวทางที่เป็นไปได้ทั้งหมด สุดท้ายมันคือ วิวัฒนาการผ่านการคัดเลือก และท้ายที่สุดทรานส์ฟอร์เมอร์ก็ชนะ
- คุณพูดว่า “เพอร์เซปตรอนที่เป็นฟังก์ชันผลรวมแบบง่าย ๆ” แล้วผมสงสัยว่าคุณจะเสนออะไรได้บ้าง
  ผมเข้าใจว่าด้านหนึ่งของความเป็น NP-complete หมายความว่าอัลกอริทึมใด ๆ ในคลาสความซับซ้อนนั้นสุดท้ายก็สามารถลดรูปลงเป็นอะไรอย่าง ‘ฟังก์ชันผลรวม’ ได้
- ผมไม่เข้าใจที่บอกว่าเราติดอยู่ในค่าสูงสุดเฉพาะที่ เพราะในช่วง 2 ปีที่ผ่านมาเกิด ความก้าวหน้าทางวิทยาศาสตร์ด้าน AI อย่างแท้จริง
- ผมไม่ได้รู้เรื่องนี้ลึกพอ แต่ถึงโมเดลอื่น ๆ อาจให้ตัวชี้วัดที่ดีกว่าเมื่อเทียบด้วยจำนวน neuron เท่ากันหรือเวลารันเชิงเส้นกำกับ สิ่งที่สำคัญที่สุดสุดท้ายก็คือความถูกต้องและความแม่นยำต่อเงินที่ใส่เข้าไป
  ต่อให้ GPT ต้องใช้จำนวน neuron มากกว่า 10 เท่าเพื่อให้ได้ประสิทธิภาพเท่ากัน ถ้าค่าใช้จ่ายในการซื้อการคำนวณและหน่วยความจำสำหรับ neuron เหล่านั้นถูกกว่า GPT ก็เป็นเครื่องมือที่ดีกว่าสำหรับการบรรลุเป้าหมาย
- นี่คือ บทเรียนอันขมขื่น http://www.incompleteideas.net/IncIdeas/BitterLesson.html
  ถ้าหาโครงสร้างที่เรียบง่ายกว่าและเรียนรู้ได้เจอ ก็อาจจับอะไรบางอย่างได้แล้ว ความพยายามทำให้ซับซ้อนประดับประดานั้นเคยลองกันมาแล้วและหายไปแล้ว
ผมสงสัยว่าคำว่า “ข้อเท็จจริงถูกเก็บไว้เป็นฟังก์ชันเชิงเส้น” หมายความว่าใน LLM มี ปริภูมิข้อเท็จจริง N มิติที่ถูกเข้ารหัสไว้ไม่ทางใดก็ทางหนึ่ง และข้อเท็จจริงต่าง ๆ ถูกฝังอยู่ในรูปแบบอย่างจุด ไฮเปอร์สเฟียร์ หรือแมนิโฟลด์ Voronoi หรือไม่
ถ้าเป็นเช่นนั้น การนึกข้อเท็จจริงขึ้นมาในเชิงนามธรรมคือการที่โครงข่ายประสาทคำนวณหรือจดจำคีย์ที่จะใช้ แล้วทำการค้นหาแบบ key-value ในปริภูมินั้นหรือเปล่า?
ถ้าใช่ ก็สงสัยว่าจะใส่ key-value store เข้าไปในโมเดลกราฟการแพร่กระจายตาม edge ได้อย่างไร และตอนนี้มีเทคนิคที่เป็นที่รู้จักซึ่งมนุษย์สร้างแบบนั้นโดยตรงหรือไม่
อีกอย่าง เทคนิค “วังแห่งความทรงจำ” จะถือเป็นตัวอย่างที่สมองมนุษย์ใส่ข้อเท็จจริงไว้ในฟังก์ชันเชิงเส้นเพื่อให้ค้นคืนได้ง่ายขึ้นได้ไหม?
- การดำเนินการพื้นฐานของทรานส์ฟอร์เมอร์อย่าง softmax(Q.K^T).V โดยเนื้อแท้แล้วใกล้เคียงกับการค้นหาใน key-value store
  นำ query ไปทำ dot product กับ key แล้วใช้ softmax เพื่อเลือก key ที่ชนะเป็นส่วนใหญ่ หรือก็คือ key ที่ใกล้กับ query ที่สุด จากนั้นใช้ค่าที่สอดคล้องกัน
  ต่างกันตรงที่มันนุ่มนวลกว่าเล็กน้อย จึงจับคู่ได้หลาย key และสามารถปรับให้เหมาะสมด้วยวิธีจำพวก gradient descent เพื่อหา mapping QKV ที่เหมาะสมได้
- Layer normalization ดูเหมือนจะจำกัดโทเค็น หรือเวกเตอร์ขนาดใหญ่ที่แทนชิ้นส่วนอินพุต ให้อยู่ในตำแหน่งบนทรงกลมหน่วย และผมมองว่ากลไก attention ทำงานโดยหมุนเวกเตอร์ที่ไม่ถูกจำกัดตามผลรวมของมุมกับเวกเตอร์อื่นทั้งหมด
  ผมอ่าน paper แบบผ่าน ๆ แต่ประเด็นหลักดูเหมือนจะเป็นว่า มีฟังก์ชันค่อนข้างเรียบง่ายที่ซ่อนอยู่หรือสามารถดึงกลับมาได้ภายในเครือข่ายที่ใหญ่กว่า และฟังก์ชันเหล่านั้นจัดการกับหมวดหมู่ความสัมพันธ์เฉพาะระหว่างแนวคิด
  ถ้าแยกฟังก์ชันแบบนั้นออกมาได้ ตามทฤษฎีก็สามารถปรับให้เหมาะสมได้โดยตรงกว่า จึงอาจนำไปสู่การพัฒนาวิธีฝึกโมเดลเหล่านี้
  สุดท้ายแล้ว หนึ่งในคำวิจารณ์ที่ดีต่อ AI “สมัยใหม่” ก็คือความคิดที่ว่าเราแค่กำลังคนซุปพีชคณิตเชิงเส้นอยู่ แต่ถ้ายอมให้มีความเป็นโมดูลหรือแนวคิดแบบลดทอนนิยมได้ระดับหนึ่ง ก็อาจเข้าใกล้แนวทางที่เน้นองค์ประกอบมากขึ้น แทนที่จะเป็นแค่กล่องดำ
- ผมไม่ค่อยเข้าใจว่าทำไม “วังแห่งความทรงจำ” ถึงเป็น ฟังก์ชันเชิงเส้น
- วังแห่งความทรงจำ เป็นแฮ็กที่ใช้งานได้เพราะในความหมายเชิงวิวัฒนาการ จุดประสงค์ของสมองเราคือช่วยให้สำรวจโลกและลงมือทำอย่างมีประสิทธิภาพในโลกนั้น
  เพื่อทำเช่นนั้น สมองต้องเก่งมากในการจดจำตำแหน่ง วางแผนเส้นทางทั้งภายในและภายนอกตำแหน่งเหล่านั้น และแปลงสิ่งนั้นเป็นคำพูดหรือการเคลื่อนไหว
น่าสนใจมาก สิ่งที่ผุดขึ้นมาทันทีก็คือความรู้ด้านโปรแกรมมิงถูกเข้ารหัสเป็นฟังก์ชันแบบใด และถ้ามันเป็นฟังก์ชันเชิงเส้นแบบง่าย ๆ ด้วย เราจะอัปโหลดไลบรารีมาตรฐานหรือไลบรารีอื่น ๆ เข้าไปในสมองของ LLM โดยตรงได้ไหม โดยไม่ต้องฝึกแพง ๆ หรือ fine-tuning ที่ทำให้ประสิทธิภาพเสีย
ตอนนี้ยังเป็นความสามารถแบบนิยายวิทยาศาสตร์ แต่รู้สึกว่าใกล้เข้ามาเรื่อย ๆ
- เป็นประเด็นที่ดีว่าเราอาจอัปโหลด ข้อมูลเชิงภาคแสดง เข้าไปใน LLM ได้โดยตรง โดยเฉพาะเมื่อจำเป็นต้องเข้ารหัสข้อมูลแบบตาราง
  คงมีใครสักที่กำลังอ่านเรื่องนี้แล้วคิดหาวิธีส่งออก Excel หรือฐานข้อมูลไปยัง LLM อยู่
  น่ายินดีที่มีงานวิจัยซึ่งส่องเข้าไปในกล่องดำภายในได้สำเร็จ
  ผลลัพธ์ใหญ่อีกอย่างในสายนี้คือ paper ที่พบ representation ของกระดานเกมภายใน LLM ที่ถูกฝึกให้เล่นเกม ผมสงสัยว่ามีผลลัพธ์ดี ๆ อื่นในทางนี้อีกไหม
  อย่างที่ผู้เขียนชี้ไว้ LLM ทำมากกว่าแค่เข้ารหัสข้อมูลเชิงภาคแสดง และนั่นเป็นเพียงส่วนหนึ่งของมัน
ผมสงสัยว่าความสัมพันธ์นี้ยังคงอยู่ในโมเดลล่าสุดที่ทุ่มการคำนวณเข้าไปมากกว่าหรือไม่
ตามสัญชาตญาณ ผมคิดว่า Word2Vec เป็นไปได้เพราะโครงสร้างที่มีอยู่ในภาษา จากนั้นเมื่อฝึกกับข้อความมนุษย์ระดับเทราไบต์ที่เข้ารหัสด้วย Word2Vec และ positional encoding ก็ดูเหมือนว่าระหว่างการฝึก มันจะสามารถทำนายการเข้ารหัสถัดไปได้ด้วยการรับรู้ระดับเหนือมนุษย์
ผมรู้สึกว่า bag of words ในฐานะวิธีอินพุต/เอาต์พุต และหน้าต่างบริบทที่จำกัดซึ่งทำให้ positional encoding ใช้งานได้ สร้างความไม่เข้ากันของอิมพีแดนซ์อย่างมากกับโครงสร้างการรับรู้ภายใน
ดังนั้นเมื่อมีการใส่การคำนวณมากขึ้นมากใน GPT-4 เป็นต้น ก็มีความเป็นไปได้สูงที่ representation รูปแบบใหม่จะวิวัฒน์ขึ้น และมนุษย์อาจยังต้อง probe น้ำหนักทั้งหมดเพื่อค้นพบมัน
ผมคิดว่า MemGPT อาจลงเอยเป็น AGI ได้เพราะมีหน่วยความจำระยะยาวไม่จำกัด แต่ภาพที่เป็นไปได้มากกว่าน่าจะใกล้กับตัวเอกของ Memento
[1] https://en.wikipedia.org/wiki/Memento_(film)
- ถ้าผมอ่านผิดก็ขอโทษ แต่ดูเหมือนคุณกำลังบอกว่า LLM ที่ใช้ GPT-3+ อย่าง ChatGPT เป็น โมเดล bag of words พวกมันเป็นโมเดลลำดับ
ทำให้นึกถึงตัวอย่าง embedding ชื่อดัง “King - Man + Woman = Queen” ความจริงที่ว่าใน embedding มีคุณสมบัติเชิงความหมายอยู่ ช่วยอธิบายได้ว่าทำไมฟังก์ชันเชิงเส้นแบบง่าย ๆ ก็ทำงานได้ดี
รู้สึกว่าคล้ายกับ เวกเตอร์ความสัมพันธ์ ของ word2vec การบวกเวกเตอร์อย่าง “ของ X” เข้าไปมักให้คำตอบที่ถูกต้อง
หลักการยังเหมือนเดิม และทรานส์ฟอร์เมอร์อาจแค่ทำงาน “ได้ดีกว่า” ในการแมปเอนทิตีไปยัง embedding space
- ผมก็คิดแบบนั้นเหมือนกัน ยากจะเชื่อว่า decision boundary ภายในโมเดลแบบนี้จะบิดโค้งพอเหมือนรอยหยักในสมอง จนใช้ประโยชน์จากเวกเตอร์ FP32 ได้จริง
  กล่าวคือ ผมมองว่าไม่ใช่แบบ x = 0 คือ “บิน”, x = 0.01 คือ “ขับรถ”, x = 0.02 คือ “สีม่วง” แต่ใกล้เคียงกับ x < 1.5 คือ “เย็น”, x > 1.5 คือ “ร้อน” มากกว่า
  นี่จึงเป็นหนึ่งในเหตุผลที่ quantization แม้กระทั่ง quantization แบบ 1 บิต ก็มักใช้งานได้
  และยังเป็นเหตุผลที่เมื่อนำข้อความหรือรูปภาพใส่เข้าไปในโมเดลตระกูล BERT หรือ CLIP แล้วใช้โมเดลแมชชีนเลิร์นนิงแบบคลาสสิกที่มักใช้ decision boundary เชิงเส้น ก็ยังได้ผลลัพธ์ที่ดี
LLM ดูเหมือนเป็น กลไกการบีบอัด ที่ดี
น่าทึ่งที่มีสำเนา llama อยู่ในเครื่อง PC แบบโลคัล แล้วแทบจะเข้าถึงอินเทอร์เน็ตทั้งหมดได้
- ยังห่างไกลมากจาก “แทบจะอินเทอร์เน็ตทั้งหมด” ไม่ใกล้ถึง 1% ด้วยซ้ำ
  ตาม dump ล่าสุด Common Crawl มี 4.3 พันล้านหน้า แต่ Google เคยประเมินในปี 2016 ว่าเว็บมี 130 ล้านล้านหน้า
  ส่วนต่างระหว่าง 130 ล้านล้านกับ 4.3 พันล้านนั้นแทบจะเท่ากับ 130 ล้านล้านอยู่แล้ว แม้จำกัดแค่ดัชนีข้อความที่ค้นหาได้ของ Google ก็ยังเป็น “หลายแสนล้านหน้า” และประมาณ 100PB เมื่อเทียบกับ 400TB ของ Common Crawl
- ถูก แต่เป็น การบีบอัดแบบสูญเสียข้อมูล ส่วนที่หายไปจะถูกเติมด้วยภาพหลอนในช่วง inference
- PAC learning คือการบีบอัด
  ความสามารถในการเรียนรู้แบบ PAC, VC dimension ที่มีขอบเขตจำกัด และการบีบอัดในรูปแบบต่อไปนี้ เทียบเท่ากันโดยสมบูรณ์
  https://arxiv.org/abs/1610.03592
  โดยพื้นฐานแล้ว นิวรอนหรือ perceptron แต่ละตัวแค่แบ่งพื้นที่ออกเป็นสอง subspace เท่านั้น
ไม่เข้าใจว่าไฟล์ CSV·ฐานข้อมูล·โมเดลที่มี “พารามิเตอร์” 70 พันล้านตัวเป็นค่าน้ำหนัก 4 บิต กลายเป็น LLM/GPT แบบสนทนาที่แทบจะรอบรู้ในทุกหัวข้อได้อย่างไร
ลองค้นดูแล้ว เหมือนว่า 4 บิตเป็นแค่ วิธีบีบอัด และสุดท้ายโมเดลก็เห็น f32 ใช่ไหม?
ว่ากันว่า quantization คือกระบวนการแมปตัวเลขทศนิยมแบบ 32 บิตซึ่งเป็นน้ำหนักของโครงข่ายประสาท ไปเป็นการแทนค่าด้วยบิตที่เล็กกว่ามาก เช่น ค่า 4 บิต เพื่อประสิทธิภาพด้านการจัดเก็บและหน่วยความจำ
dequantization เกิดขึ้นเมื่อมีการใช้งานโมเดล กล่าวคือระหว่าง inference หรือในบางกรณีระหว่างการฝึก โดยน้ำหนักที่ quantize เป็น 4 บิตจะถูกแปลงกลับเป็นตัวเลขทศนิยมที่ใช้ในการคำนวณจริง
ถ้าอย่างนั้นก็สงสัยว่าความสัมพันธ์ระหว่าง “พารามิเตอร์” กับ “จำนวนโทเคนเฉพาะที่โมเดลรู้ หรือขนาดคำศัพท์” คืออะไร
มองเผิน ๆ ว่ากันว่า LLaMA มีขนาดคำศัพท์เพียง 32,000 คำ และพารามิเตอร์ 65 พันล้านตัว เมื่อเทียบกับ GPT-3
ว่ากันว่าพารามิเตอร์ 65 พันล้านตัวของโมเดลอย่าง LLaMA ทำหน้าที่เป็นระบบแมปปิงที่ซับซ้อนมาก ซึ่งกำหนดว่าจะตอบสนองต่ออินพุตอย่างไรตามความสัมพันธ์ที่เรียนรู้ระหว่างโทเคนในข้อมูลฝึก
- คำตอบสั้น ๆ คือ มันไม่ได้เป็นแบบนั้น
  ถ้าพูดให้ซับซ้อนขึ้นอีกนิด dump ข้อความ Wikipedia ที่บีบอัดแล้วยังไม่ถึง 70GB และนี่คือการบีบอัดอินเทอร์เน็ตแบบสูญเสียข้อมูล
- quantization ในที่นี้หมายถึง ความแม่นยำ ของค่าแต่ละค่าในเวกเตอร์หรือเมทริกซ์·เทนเซอร์
  ถ้า token embedding ของโมเดลนั้นมีความยาว 1024 แม้จะเป็น quantization แบบ 1 บิต แต่ละโทเคนก็ยังมีค่าที่เป็นไปได้ 2^1024 ค่า
  ถ้าความยาวบริบทคือ 32,000 โทเคน อินพุตที่เป็นไปได้คือ 32,000^2^1024 แบบ
พอจะพูดคร่าว ๆ ได้ไหมว่า LLM ในโหมดฝึก สร้าง กฎ IF-THEN จำนวนมากโดยอัตโนมัติจากข้อมูลมหาศาลที่ก่อนหน้านี้เป็นไปไม่ได้?
เปเปอร์นี้เจ๋ง และก็ดีที่เขารันการทดลองเพื่อพิสูจน์ไอเดียแบบนี้ แต่ไม่ค่อยแน่ใจว่าไอเดียเองใหม่แค่ไหน
ถ้า LLM เรียนรู้แนวโน้มทางสถิติง่าย ๆ ระหว่างคำได้ตามธรรมชาติ ผลลัพธ์แบบนี้ก็น่าคาดเดาได้ไม่ใช่หรือ?
ผมกลับคิดว่าสิ่งที่เจ๋งกว่ามากคือการแสดงให้เห็นอย่างชัดเจนว่า พฤติกรรมทั้งหมดของ LLM ไม่สามารถอธิบายได้ง่าย ๆ แบบนี้

กลไกที่เรียบง่ายอย่างน่าประหลาดที่ LLM ใช้เพื่อดึงความรู้ที่เก็บไว้

วิธีการดึงความรู้แบบง่ายที่ค้นพบภายใน LLM

ข้อเท็จจริงถูกจัดการในรูปของความสัมพันธ์ระหว่างประธานกับวัตถุ

ฟังก์ชันถอดรหัสเชิงเส้นที่แตกต่างกันตามประเภทความสัมพันธ์

ความสำเร็จในการดึงกลับมากกว่า 60% และข้อจำกัดของการเก็บแบบเชิงเส้น

attribute lens สำหรับดูว่าโมเดลรู้อะไรบ้าง

ความเป็นไปได้ในการแก้คำตอบผิดและโจทย์วิจัยที่ยังเหลือ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News