นักวิจัย MIT สาธิตเทคนิคการสำรวจความรู้ของโมเดลภาษาขนาดใหญ่
- ค้นพบว่าโมเดลภาษาขนาดใหญ่ใช้กลไกที่เรียบง่ายในการค้นคืนความรู้ที่เก็บไว้เมื่อตอบสนองต่อพรอมป์ต์ของผู้ใช้
- นักวิจัยสามารถใช้กลไกที่เรียบง่ายนี้เพื่อตรวจสอบว่าโมเดลรู้อะไรบ้างในหัวข้อต่าง ๆ และแก้ไขข้อมูลที่ถูกเก็บไว้อย่างผิดพลาดได้
ความซับซ้อนของโมเดลภาษาขนาดใหญ่
- โมเดลภาษาขนาดใหญ่ถูกใช้งานในหลากหลายด้าน เช่น การสนับสนุนลูกค้า การสร้างโค้ด และการแปลภาษา แต่หลักการทำงานของมันยังไม่ได้รับความเข้าใจอย่างสมบูรณ์
- นักวิจัยจาก MIT และสถาบันอื่น ๆ ศึกษากลไกที่โมเดลการเรียนรู้ของเครื่องขนาดมหึมาเหล่านี้ใช้ในการค้นคืนความรู้ที่เก็บไว้
กลไกการค้นคืนความรู้ที่เรียบง่าย
- ผลการวิจัยพบว่าโมเดลภาษาขนาดใหญ่มักใช้ฟังก์ชันเชิงเส้นอย่างง่ายในการกู้คืนและถอดรหัสข้อเท็จจริงที่เก็บไว้
- โมเดลใช้ฟังก์ชันถอดรหัสเดียวกันกับข้อเท็จจริงประเภทที่คล้ายกัน
- ฟังก์ชันเชิงเส้นคือสมการที่แสดงความสัมพันธ์แบบเส้นตรงระหว่างตัวแปรสองตัว
การสำรวจสิ่งที่โมเดลรู้
- นักวิจัยระบุฟังก์ชันเชิงเส้นสำหรับข้อเท็จจริงหลากหลายประเภทเพื่อสำรวจว่าโมเดลรู้อะไรเกี่ยวกับหัวข้อใหม่ ๆ และตรวจสอบว่าความรู้นั้นถูกเก็บไว้ที่ใดภายในโมเดล
- ด้วยการใช้เทคนิคที่พัฒนาขึ้นและฟังก์ชันอย่างง่ายที่ประมาณขึ้น นักวิจัยพบว่าแม้เมื่อโมเดลให้คำตอบผิด มันก็มักจะยังเก็บข้อมูลที่ถูกต้องไว้อยู่
การทำให้ความรู้ของโมเดลมองเห็นได้
- นักวิจัยใช้ฟังก์ชันเหล่านี้เพื่อตัดสินว่าโมเดลเชื่อว่าอะไรเป็นความจริงในหัวข้อต่าง ๆ
- ตัวอย่างเช่น เริ่มจากพรอมป์ต์ "Bill Bradley was a" แล้วใช้ฟังก์ชันถอดรหัสสำหรับ "plays sports" และ "attended university" เพื่อตรวจสอบว่าโมเดลรู้หรือไม่ว่าอดีตวุฒิสมาชิก Bradley เป็นนักบาสเกตบอลและจบจาก Princeton University
- ด้วยเทคนิคการสำรวจนี้ นักวิจัยได้สร้างกริดที่เรียกว่า 'attribute lens' เพื่อทำให้เห็นว่าข้อมูลเกี่ยวกับความสัมพันธ์เฉพาะถูกเก็บไว้ตรงไหนภายในหลายชั้นของทรานส์ฟอร์เมอร์
ความเห็นของ GN⁺
- งานวิจัยนี้ยกระดับความเข้าใจเกี่ยวกับวิธีที่โมเดลภาษาขนาดใหญ่จัดเก็บและค้นคืนความรู้เชิงข้อเท็จจริงไปอีกขั้น
- ผลการวิจัยชี้ให้เห็นถึงความเป็นไปได้ในการแก้ไขความรู้และป้องกันข้อผิดพลาดของ AI แชตบอต โดยใช้มันเพื่อลดแนวโน้มที่โมเดลจะให้ข้อมูลผิด
- หากเทคนิคนี้ถูกนำไปใช้ ก็อาจช่วยเพิ่มความน่าเชื่อถือของ AI และช่วยปรับปรุงประสบการณ์ผู้ใช้ได้
- อย่างไรก็ตาม เนื่องจากข้อเท็จจริงไม่ได้ถูกเข้ารหัสแบบเชิงเส้นทั้งหมด จึงยังจำเป็นต้องมีการวิจัยเพิ่มเติมว่าเทคนิคนี้จะใช้ได้กับการค้นคืนความรู้ทุกประเภทหรือไม่
- โครงการโอเพนซอร์สที่มีความสามารถคล้ายกัน ได้แก่ BERT ของ Google และซีรีส์ GPT ของ OpenAI ซึ่งต่างก็มีส่วนช่วยในการทำความเข้าใจหลักการทำงานของโมเดลภาษาขนาดใหญ่เช่นกัน
- เมื่อนำเทคโนโลยีใหม่มาใช้ ควรพิจารณาสมดุลระหว่างความซับซ้อนของโมเดลกับความสามารถในการตีความ และข้อดีที่อาจได้รับจากการเลือกใช้เทคนิคนี้คือการเพิ่มความแม่นยำและความน่าเชื่อถือของโมเดล
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
งานชิ้นนี้น่าทึ่งมากและชี้ให้เห็นปัญหาใหญ่บางส่วนของวงการ AI ในปัจจุบัน
โครงสร้างของภาษาทำให้ Word2Vec เป็นไปได้
ช่วยให้เข้าใจความหมายของการที่ข้อเท็จจริงถูกเก็บไว้เป็นฟังก์ชันเชิงเส้น
สงสัยเกี่ยวกับประเภทของฟังก์ชันที่ใช้เข้ารหัสความรู้ด้านการเขียนโปรแกรม
พบว่าคล้ายกับสิ่งที่ relation vector ทำใน Word2Vec
LLM ดูเหมือนจะเป็นกลไกการบีบอัดที่ดี
ทำให้นึกถึงตัวอย่าง embedding แบบ "King - Man + Woman = Queen"
ยากจะเข้าใจว่า "ไฟล์ CSV/ฐานข้อมูล/โมเดล" ที่มี "พารามิเตอร์" 7 พันล้านตัว สามารถให้ LLM/GPT แบบโต้ตอบที่มีความรู้กว้างขวางแทบทุกหัวข้อได้อย่างไร
ชอบที่งานวิจัยนี้เท่มากและได้ทำการทดลองเพื่อทดสอบแนวคิดเหล่านี้
ความเป็นไปได้ในการแยกส่วนการให้เหตุผลออกจากส่วนข้อมูล