- Platonic Representation Hypothesis (สมมติฐานการแทนค่าแบบอุดมคติ) เสนอว่าเมื่อโมเดล AI มีขนาดใหญ่ขึ้นและฉลาดขึ้น พื้นที่การแทนค่าภายในจะค่อย ๆ บรรจบไปสู่ พื้นที่การแทนค่าที่คล้ายกัน
- อธิบายผ่านแนวคิดเรื่อง การบีบอัด (compression) ของโมเดลภาษา โดยตีความความฉลาดว่าเป็นความสามารถในการบีบอัดข้อมูล และชี้ว่าเมื่อโมเดลทำการทำให้ทั่วไปได้ วิธีการที่ใช้จะยิ่งคล้ายกันมากขึ้น
- วิเคราะห์ปัญหา embedding inversion หรือการย้อนกลับจาก embedding โดยตาม PRH พื้นที่ embedding ระหว่างโมเดลที่ต่างกันสามารถ จัดแนว กันได้ด้วยวิธีอย่าง CycleGAN
- การทดลองอย่าง Sparse Autoencoder แสดงให้เห็นว่าเครือข่ายที่แตกต่างกันมากสามารถค้นพบแนวคิดและวงจรที่เหมือนกันหรือคล้ายกันได้
- จากข้อค้นพบนี้ จึงมี ศักยภาพในการประยุกต์ใช้จริง สูง เช่น การถอดรหัสอักษรโบราณที่ยังอ่านไม่ออกหรือการถอดความภาษาสัตว์
บทนำ: เกม Mussolini หรือ Bread และการแบ่งปันความหมาย
- ผู้เขียนยกเกม "Mussolini หรือ Bread" เป็นตัวอย่าง โดยแนะนำวิธีค่อย ๆ ทำให้คำถามแคบลงซ้ำ ๆ เพื่ออนุมานสิ่งที่อีกฝ่ายกำลังนึกถึง
- เหตุที่เกมนี้เป็นไปได้ เพราะมี พื้นที่ความหมายร่วมกัน (semantics) ระหว่างผู้คน
- เน้นว่าผู้คนหลากหลายสามารถเข้าใจความ "ใกล้กัน" ในเชิงความหมายได้โดยสัญชาตญาณ แม้ไม่มีการกำหนดกฎไว้ล่วงหน้า
สัทศาสตร์สากล: การบีบอัดโลกและโมเดล
- เช่นเดียวกับเกมนี้ สมองมนุษย์ก็สร้าง แบบจำลองอันซับซ้อนของโลกจริง ในลักษณะที่คล้ายกัน
- AI ในมุมมองเชิงอัลกอริทึม เรียนรู้ด้วยการบีบอัดข้อมูลของโลกให้มากที่สุด
- งานสร้างภาษาธรรมชาติสามารถมองได้ว่าเป็น งานบีบอัดที่อิงกับการกระจายความน่าจะเป็น (ทฤษฎีสารสนเทศของ Shannon)
- ยิ่งโมเดลบีบอัดข้อมูลได้ดี ก็ยิ่งบ่งชี้ว่าเข้าใจโลกจริงได้ลึกซึ้งขึ้น
- ในทางปฏิบัติ โมเดลภาษาที่ใหญ่กว่า แสดงความสามารถในการบีบอัดข้อมูลที่ดีกว่าและมีความฉลาดสูงกว่า
- เมื่อชุดข้อมูลใหญ่เกินกว่าจะจดจำจุดข้อมูลแต่ละจุดได้ โมเดลจะเริ่มผสานข้อมูลเข้าด้วยกันและเริ่ม การทำให้ทั่วไป
Platonic Representation Hypothesis (สมมติฐานการแทนค่าแบบอุดมคติ)
- นักวิจัยจาก MIT ได้ทำให้ "Platonic Representation Hypothesis" เป็นสมมติฐานอย่างเป็นทางการในปี 2024
- ตามสมมติฐานนี้ ยิ่งโมเดล AI มีขนาดใหญ่ขึ้น คุณลักษณะที่ใช้ร่วมกัน (feature) ก็ยิ่งมากขึ้น และพื้นที่การแทนค่าจะถูก จัดแนวในลักษณะคล้ายกัน
- สิ่งนี้ถูกสังเกตเห็นจากการทดลองในหลายโดเมน ทั้งภาษาและการมองเห็น
- มีการคาดการณ์ว่าเมื่อโมเดลมีขนาดใหญ่ขึ้นและมีประสิทธิภาพมากขึ้นทุกปี ความคล้ายกันของพื้นที่การแทนค่า ระหว่างโมเดลก็จะเพิ่มขึ้นต่อเนื่อง
ปัญหา embedding inversion
- ผู้เขียนอธิบายประสบการณ์การวิจัยปัญหา embedding inversion ซึ่งเป็นการอนุมานข้อความอินพุตจริงย้อนกลับจากเวกเตอร์ embedding
- ก่อนหน้านี้ในกรณีอย่าง ImageNet ก็มีตัวอย่างของ การกู้คืนข้อมูลที่ใกล้เคียงกับภาพต้นฉบับโดยอาศัยเพียงค่าความน่าจะเป็น
- embedding ของภาษาธรรมชาติดูเหมือนมีข้อมูลอยู่มาก แต่เพราะ ข้อความที่คล้ายกันจะมี embedding ที่คล้ายกัน จึงทำให้การอนุมานย้อนกลับอย่างชัดเจนเป็นเรื่องยากมาก
- สำหรับปัญหานี้ พบว่าเทคนิค iterative refinement ที่ค่อย ๆ เข้าใกล้ข้อความที่แม่นยำขึ้นผ่านการสำรวจและปรับให้เหมาะสมของ embedding แบบวนซ้ำ มีประสิทธิภาพ
- ด้วยวิธีดังกล่าว ได้สาธิตความเป็นไปได้ของการย้อนกลับด้วย ความแม่นยำมากกว่า 94% ในระดับประโยคยาว
การทำให้ embedding inversion เป็นสากลด้วยสมมติฐานอุดมคติ
- อย่างไรก็ตาม วิธีเดิมใช้ได้กับเฉพาะโมเดล embedding บางตัวเท่านั้น และมีข้อจำกัดกับโมเดลใหม่หรือโมเดลปิด
- หาก PRH ถูกต้อง ก็อาจสร้าง ตัวย้อนกลับ embedding แบบสากล ที่ใช้ได้ข้ามโมเดลหลากหลายประเภท
- เมื่อให้ชุด embedding สองชุดที่ต่างกันและไม่รู้คู่กัน (A, B) ผู้เขียนได้วิจัยมาหลายปีว่าพื้นที่เหล่านี้สามารถจัดแนวกันได้ด้วยแนวทาง CycleGAN
- ผลลัพธ์คือสามารถแปลงระหว่างสองพื้นที่ embedding ด้วยวิธี unsupervised matching ได้สำเร็จโดยไม่ต้องมีการ fine-tuning เพิ่มเติม (vec2vec)
- สิ่งนี้แสดงให้เห็นว่า แม้ไม่มีข้อมูลเฉพาะของ embedding แต่ละตัว ก็ยังสามารถแปล embedding จากฐานข้อมูลตามอำเภอใจหรืออนุมานย้อนกลับได้
ความเป็นไปได้ในการตีความของเครื่อง: Universal Circuits
- ในงานวิจัยวิเคราะห์วงจรของสาขา Mechanistic Interpretability ก็พบฟังก์ชันภายในร่วมกัน แม้โครงสร้างโมเดลจะแตกต่างกัน
- ผลจากการใช้ Sparse Autoencoder (SAE) ยืนยันว่าแม้จะฝึกกับโมเดลต่างกันอย่างอิสระ ก็ยังพบความซ้ำซ้อนใน คุณลักษณะที่ตีความได้ (feature) ในระดับสูงพอสมควร
- ด้วยการเปรียบเทียบคุณลักษณะของ SAE สองตัว จึงสามารถ จัดแนวแนวคิดข้ามโมเดล ได้
- หาก PRH แม่นยำยิ่งกว่านี้ คาดว่า ยิ่งเป็นโมเดลที่ทรงพลังมาก ปรากฏการณ์นี้ก็จะยิ่งเด่นชัด
นัยสำคัญเชิงปฏิบัติและแนวโน้ม
- สมมติฐานการแทนค่าแบบอุดมคตินอกจากจะมีนัยเชิงปรัชญาอย่างลึกซึ้งแล้ว ยังมี ความเป็นไปได้เชิงปฏิบัติ ในด้านการตีความโมเดล การย้อนกลับ การถอดรหัสสัญญาณ และการกู้คืนภาษา
- เมื่อเทคนิคการตีความพัฒนาต่อไป คาดว่าโมเดลที่ใหญ่ขึ้นจะยิ่งทำให้ การจัดแนวพื้นที่การแทนค่า และการค้นพบ ความเป็นร่วมภายใน กลายเป็นเรื่องปกติ
- การถอดรหัสสิ่งที่เคยแก้ไม่ได้ เช่น อักษรโบราณ (Linear A) หรือการตีความ ภาษาสัตว์ (เช่น เสียงของวาฬ) ก็อาจเกิดขึ้นได้ในอนาคต
- แม้ว่าวิธีปัจจุบันอย่าง vec2vec จะยังมีจุดอ่อนอยู่ แต่ก็ประสบความสำเร็จอย่างมากแล้วใน embedding ที่อิงอินเทอร์เน็ตและแบบภาพ-ข้อความ
- นอกจากนี้ยังชี้ว่าการแปลงข้ามพื้นที่ระหว่างภาษา และการแปลภาษาวาฬ → ภาษามนุษย์ ก็มี ความเป็นไปได้ในการถอดรหัสในอนาคต
1 ความคิดเห็น
ความเห็นจาก Hacker News