2 คะแนน โดย GN⁺ 2024-03-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

นักวิจัย MIT สาธิตเทคนิคการสำรวจความรู้ของโมเดลภาษาขนาดใหญ่

  • ค้นพบว่าโมเดลภาษาขนาดใหญ่ใช้กลไกที่เรียบง่ายในการค้นคืนความรู้ที่เก็บไว้เมื่อตอบสนองต่อพรอมป์ต์ของผู้ใช้
  • นักวิจัยสามารถใช้กลไกที่เรียบง่ายนี้เพื่อตรวจสอบว่าโมเดลรู้อะไรบ้างในหัวข้อต่าง ๆ และแก้ไขข้อมูลที่ถูกเก็บไว้อย่างผิดพลาดได้

ความซับซ้อนของโมเดลภาษาขนาดใหญ่

  • โมเดลภาษาขนาดใหญ่ถูกใช้งานในหลากหลายด้าน เช่น การสนับสนุนลูกค้า การสร้างโค้ด และการแปลภาษา แต่หลักการทำงานของมันยังไม่ได้รับความเข้าใจอย่างสมบูรณ์
  • นักวิจัยจาก MIT และสถาบันอื่น ๆ ศึกษากลไกที่โมเดลการเรียนรู้ของเครื่องขนาดมหึมาเหล่านี้ใช้ในการค้นคืนความรู้ที่เก็บไว้

กลไกการค้นคืนความรู้ที่เรียบง่าย

  • ผลการวิจัยพบว่าโมเดลภาษาขนาดใหญ่มักใช้ฟังก์ชันเชิงเส้นอย่างง่ายในการกู้คืนและถอดรหัสข้อเท็จจริงที่เก็บไว้
  • โมเดลใช้ฟังก์ชันถอดรหัสเดียวกันกับข้อเท็จจริงประเภทที่คล้ายกัน
  • ฟังก์ชันเชิงเส้นคือสมการที่แสดงความสัมพันธ์แบบเส้นตรงระหว่างตัวแปรสองตัว

การสำรวจสิ่งที่โมเดลรู้

  • นักวิจัยระบุฟังก์ชันเชิงเส้นสำหรับข้อเท็จจริงหลากหลายประเภทเพื่อสำรวจว่าโมเดลรู้อะไรเกี่ยวกับหัวข้อใหม่ ๆ และตรวจสอบว่าความรู้นั้นถูกเก็บไว้ที่ใดภายในโมเดล
  • ด้วยการใช้เทคนิคที่พัฒนาขึ้นและฟังก์ชันอย่างง่ายที่ประมาณขึ้น นักวิจัยพบว่าแม้เมื่อโมเดลให้คำตอบผิด มันก็มักจะยังเก็บข้อมูลที่ถูกต้องไว้อยู่

การทำให้ความรู้ของโมเดลมองเห็นได้

  • นักวิจัยใช้ฟังก์ชันเหล่านี้เพื่อตัดสินว่าโมเดลเชื่อว่าอะไรเป็นความจริงในหัวข้อต่าง ๆ
  • ตัวอย่างเช่น เริ่มจากพรอมป์ต์ "Bill Bradley was a" แล้วใช้ฟังก์ชันถอดรหัสสำหรับ "plays sports" และ "attended university" เพื่อตรวจสอบว่าโมเดลรู้หรือไม่ว่าอดีตวุฒิสมาชิก Bradley เป็นนักบาสเกตบอลและจบจาก Princeton University
  • ด้วยเทคนิคการสำรวจนี้ นักวิจัยได้สร้างกริดที่เรียกว่า 'attribute lens' เพื่อทำให้เห็นว่าข้อมูลเกี่ยวกับความสัมพันธ์เฉพาะถูกเก็บไว้ตรงไหนภายในหลายชั้นของทรานส์ฟอร์เมอร์

ความเห็นของ GN⁺

  • งานวิจัยนี้ยกระดับความเข้าใจเกี่ยวกับวิธีที่โมเดลภาษาขนาดใหญ่จัดเก็บและค้นคืนความรู้เชิงข้อเท็จจริงไปอีกขั้น
  • ผลการวิจัยชี้ให้เห็นถึงความเป็นไปได้ในการแก้ไขความรู้และป้องกันข้อผิดพลาดของ AI แชตบอต โดยใช้มันเพื่อลดแนวโน้มที่โมเดลจะให้ข้อมูลผิด
  • หากเทคนิคนี้ถูกนำไปใช้ ก็อาจช่วยเพิ่มความน่าเชื่อถือของ AI และช่วยปรับปรุงประสบการณ์ผู้ใช้ได้
  • อย่างไรก็ตาม เนื่องจากข้อเท็จจริงไม่ได้ถูกเข้ารหัสแบบเชิงเส้นทั้งหมด จึงยังจำเป็นต้องมีการวิจัยเพิ่มเติมว่าเทคนิคนี้จะใช้ได้กับการค้นคืนความรู้ทุกประเภทหรือไม่
  • โครงการโอเพนซอร์สที่มีความสามารถคล้ายกัน ได้แก่ BERT ของ Google และซีรีส์ GPT ของ OpenAI ซึ่งต่างก็มีส่วนช่วยในการทำความเข้าใจหลักการทำงานของโมเดลภาษาขนาดใหญ่เช่นกัน
  • เมื่อนำเทคโนโลยีใหม่มาใช้ ควรพิจารณาสมดุลระหว่างความซับซ้อนของโมเดลกับความสามารถในการตีความ และข้อดีที่อาจได้รับจากการเลือกใช้เทคนิคนี้คือการเพิ่มความแม่นยำและความน่าเชื่อถือของโมเดล

1 ความคิดเห็น

 
GN⁺ 2024-03-29
ความคิดเห็นจาก Hacker News
  • งานชิ้นนี้น่าทึ่งมากและชี้ให้เห็นปัญหาใหญ่บางส่วนของวงการ AI ในปัจจุบัน

    • เราแทบไม่ได้พยายามทำงานกับนิวรอนหรือชุดกฎที่แตกต่างจาก perceptron อย่างมีนัยสำคัญจริง ๆ
    • จึงไม่น่าแปลกที่โครงสร้าง perceptron ซึ่งเป็นเพียงฟังก์ชันรวมแบบง่าย ๆ จะถูกทำซ้ำอยู่ในโมเดล
    • มีการตั้งคำถามว่า feedforward topology และขั้นตอนนิวรอนเดี่ยวถูกใช้เพราะฝึกได้ง่ายและรันบนการ์ดจอได้ง่ายที่สุด หรือเพราะมันดีที่สุดจริง ๆ กันแน่
    • มีวิธีการฝึกและสคีมการเข้ารหัสที่แปลกใหม่ซึ่งไม่ได้ถูกใช้งาน เพียงเพราะไลบรารีขนาดใหญ่ไม่รองรับ
    • จนกว่าเราจะเริ่มเห็นความเปลี่ยนแปลงจริง ๆ ในชุดกฎพื้นฐานของโครงข่ายประสาท เราก็คงยังต้องต่อสู้กับ perceptron ในรูปแบบดัดแปลงต่อไป
  • โครงสร้างของภาษาทำให้ Word2Vec เป็นไปได้

    • การฝึกบนข้อความมนุษย์ระดับเทราไบต์ที่เข้ารหัสด้วย Word2Vec + positional encoding ทำให้สามารถคาดเดาการเข้ารหัสถัดไปได้ในระดับเหนือมนุษย์
    • bag-of-words (วิธีรับเข้า/ส่งออก) และหน้าต่างคอนเท็กซ์ที่จำกัดเพื่อให้ positional encoding ทำงาน ก่อให้เกิดความไม่สอดคล้องอย่างมากกับโครงสร้างการรับรู้ภายใน
    • การอัดพลังคอมพิวต์เข้าไปใน GPT-4 และรุ่นอื่น ๆ มากขึ้น อาจทำให้รูปแบบการแทนความหมายใหม่ ๆ วิวัฒน์ขึ้นมา และมนุษย์ยังต้องค้นพบมัน
    • MemGPT อาจกลายเป็น AGI ได้ในที่สุดเพราะมีความจำระยะยาวไม่จำกัด แต่สิ่งที่เป็นไปได้มากกว่าคือมันจะเหมือนตัวเอกในเรื่อง 'Memento'
  • ช่วยให้เข้าใจความหมายของการที่ข้อเท็จจริงถูกเก็บไว้เป็นฟังก์ชันเชิงเส้น

    • LLM เข้ารหัสข้อเท็จจริงเป็น "พื้นที่ข้อเท็จจริง" แบบ N มิติ ฝังข้อเท็จจริงเป็นจุด/ไฮเปอร์สเฟียร์/แมนิโฟลด์แบบ Voronoi ในพื้นที่นั้น และการระลึกข้อเท็จจริงคือการที่โครงข่ายประสาทคำนวณ/จดจำคีย์ แล้วทำ key-value lookup ในพื้นที่นี้
    • มีคำถามว่าจะฝัง KV-store ลักษณะนี้ลงใน graphical model แบบ edge propagation ได้อย่างไร และตอนนี้มีเทคนิคแบบทำมือที่เป็นที่รู้จักดีอยู่หรือไม่
    • มีความเชื่อมโยงที่น่าสนใจกับเทคนิคการจำแบบ "memory palace" ของสมองมนุษย์ ซึ่งอาจฝังข้อเท็จจริงไว้ในฟังก์ชันเชิงเส้นเพื่อให้ค้นคืนได้ง่าย
  • สงสัยเกี่ยวกับประเภทของฟังก์ชันที่ใช้เข้ารหัสความรู้ด้านการเขียนโปรแกรม

    • คิดต่อว่าสามารถอัปโหลด standard library หรือไลบรารีอื่น ๆ เข้าไปในสมองของ LLM ได้โดยตรงหรือไม่ โดยไม่ต้องฝึกใหม่แบบมีต้นทุนสูงหรือ fine-tune ที่ทำให้ประสิทธิภาพแย่ลง
    • มันยังเป็นความสามารถแบบไซไฟอยู่ แต่ดูเหมือนว่าเรากำลังเข้าใกล้มันมากขึ้นเรื่อย ๆ
  • พบว่าคล้ายกับสิ่งที่ relation vector ทำใน Word2Vec

    • การบวกเวกเตอร์ของ "ของ X" เข้าไป มักให้คำตอบที่ถูกต้อง
    • อาจเป็นไปได้ว่า transformer เก่งกว่าในการแมปเอนทิตีลงใน embedding space
  • LLM ดูเหมือนจะเป็นกลไกการบีบอัดที่ดี

    • รู้สึกทึ่งกับความจริงที่ว่า หากมีสำเนา Llama อยู่ในเครื่อง PC ก็แทบเหมือนมีทางเข้าถึงอินเทอร์เน็ตเกือบทั้งหมดในเครื่อง
  • ทำให้นึกถึงตัวอย่าง embedding แบบ "King - Man + Woman = Queen"

    • อธิบายว่าทำไมฟังก์ชันเชิงเส้นแบบง่าย ๆ จึงทำงานได้อย่างมีประสิทธิภาพ เพราะ embedding มีคุณสมบัติด้านความหมายรวมอยู่ด้วย
  • ยากจะเข้าใจว่า "ไฟล์ CSV/ฐานข้อมูล/โมเดล" ที่มี "พารามิเตอร์" 7 พันล้านตัว สามารถให้ LLM/GPT แบบโต้ตอบที่มีความรู้กว้างขวางแทบทุกหัวข้อได้อย่างไร

    • 4 บิตคือ "วิธีการบีบอัด" และสุดท้ายโมเดลก็จะมองเห็นเป็น f32
    • quantization คือกระบวนการแมปตัวเลข floating point 32 บิต ซึ่งเป็นน้ำหนักของโครงข่ายประสาท ให้เป็นตัวแทนบิตที่เล็กกว่ามาก เช่นค่า 4 บิต
    • dequantization เกิดขึ้นตอนใช้งานโมเดล โดยแปลงน้ำหนักแบบ quantized 4 บิตกลับเป็นตัวเลข floating point ที่โมเดลใช้คำนวณจริง
    • มีคำถามเกี่ยวกับความสัมพันธ์ระหว่าง "พารามิเตอร์" กับ "จำนวนโทเค็นที่ไม่ซ้ำกัน (ขนาดคำศัพท์)" ที่โมเดลรู้
    • LLAMa มีขนาดคำศัพท์ 32,000 และมีพารามิเตอร์ 65B เมื่อเทียบกับ GPT-3
    • พารามิเตอร์ 6.5 พันล้านตัวทำหน้าที่เป็นระบบการแมปที่ซับซ้อน ซึ่งกำหนดว่าโมเดลจะตอบสนองต่ออินพุตที่กำหนดอย่างไร โดยอิงจากความสัมพันธ์ที่เรียนรู้ระหว่างโทเค็นในข้อมูลฝึก
  • ชอบที่งานวิจัยนี้เท่มากและได้ทำการทดลองเพื่อทดสอบแนวคิดเหล่านี้

    • แต่ก็มีการตั้งคำถามถึงความใหม่ของตัวแนวคิดเอง เมื่อพิจารณาว่า LLM เรียนรู้แนวโน้มทางสถิติอย่างง่ายระหว่างคำต่าง ๆ ได้โดยธรรมชาติอยู่แล้ว
    • สิ่งที่เจ๋งยิ่งกว่าคือมันแสดงให้เห็นอย่างชัดเจนว่าไม่ใช่ทุกพฤติกรรมของ LLM จะอธิบายได้ด้วยความเรียบง่ายระดับนี้
  • ความเป็นไปได้ในการแยกส่วนการให้เหตุผลออกจากส่วนข้อมูล

    • ถ้าเป็นจริง นี่จะเป็นการค้นพบที่น่าทึ่งมาก