• OpenAI ได้นำเสนอวิธีการแบบใหม่ที่ขยายขนาดได้ เพื่อแยกการแทนภายในของ GPT-4 ออกเป็นรูปแบบที่ตีความได้จำนวน 16 ล้านรูปแบบ โดยมีเป้าหมายเพื่อทำความเข้าใจกิจกรรมของระบบประสาทภายในโมเดลภาษา
• โครงข่ายประสาทไม่ได้ถูกออกแบบขึ้นโดยตรงและขาดส่วนประกอบที่ระบุแยกได้อย่างชัดเจน จึงทำให้ตีความได้ยาก และทำให้การให้เหตุผลเกี่ยวกับความปลอดภัยของ AI เป็นเรื่องยาก
• ใช้ sparse autoencoder เพื่อระบุ "คุณลักษณะ" ที่เกี่ยวข้องในโครงข่ายประสาท ซึ่งเป็นตัวแทนของแนวคิดที่มนุษย์เข้าใจได้ง่าย
• ทีมวิจัยได้พัฒนาวิธีวิทยาขั้นสูงเพื่อขยาย sparse autoencoder ให้รองรับคุณลักษณะหลายสิบล้านรายการในโมเดล AI ระดับแนวหน้า พร้อมสาธิตการขยายขนาดที่ราบรื่นและคาดการณ์ได้
• แสดงให้เห็นถึงความสามารถในการตีความของคุณลักษณะผ่านภาพแสดงผลที่เผยการกระตุ้นของเอกสารสำหรับคุณลักษณะเฉพาะ
• ตัวอย่างของคุณลักษณะที่ตีความได้ ได้แก่ วลีที่เกี่ยวข้องกับข้อบกพร่องของมนุษย์ แนวโน้มการขึ้นราคา วลีในรูปแบบ "X และ Y" บันทึกการฝึกแมชชีนเลิร์นนิง คำถามเชิงวาทศิลป์/เชิงปลุกเร้า วงแหวนเชิงพีชคณิต และตัวรับอะดีโนซีนกับโดพามีน
• ทีมวิจัยรู้สึกตื่นเต้นกับศักยภาพที่ความสามารถในการตีความอาจช่วยเพิ่มความน่าเชื่อถือและความสามารถในการปรับให้สอดคล้องของโมเดล แต่ก็ยอมรับข้อจำกัดเช่นกัน ทั้งความยากในการตีความคุณลักษณะที่ค้นพบจำนวนมาก และความจำเป็นในการมีวิธีตรวจสอบที่ดีกว่าเดิม
2 ความคิดเห็น
https://github.com/openai/sparse_autoencoder
https://openaipublic.blob.core.windows.net/sparse-autoencoder/…