ผลงานวิจัยใหม่ของ OpenAI: แยกการแทนภายในของ GPT-4 ออกเป็นรูปแบบที่ตีความได้

(openai.com)

7 คะแนน โดย brainer 2024-06-07 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

• OpenAI ได้นำเสนอวิธีการแบบใหม่ที่ขยายขนาดได้ เพื่อแยกการแทนภายในของ GPT-4 ออกเป็นรูปแบบที่ตีความได้จำนวน 16 ล้านรูปแบบ โดยมีเป้าหมายเพื่อทำความเข้าใจกิจกรรมของระบบประสาทภายในโมเดลภาษา

• โครงข่ายประสาทไม่ได้ถูกออกแบบขึ้นโดยตรงและขาดส่วนประกอบที่ระบุแยกได้อย่างชัดเจน จึงทำให้ตีความได้ยาก และทำให้การให้เหตุผลเกี่ยวกับความปลอดภัยของ AI เป็นเรื่องยาก

• ใช้ sparse autoencoder เพื่อระบุ "คุณลักษณะ" ที่เกี่ยวข้องในโครงข่ายประสาท ซึ่งเป็นตัวแทนของแนวคิดที่มนุษย์เข้าใจได้ง่าย

• ทีมวิจัยได้พัฒนาวิธีวิทยาขั้นสูงเพื่อขยาย sparse autoencoder ให้รองรับคุณลักษณะหลายสิบล้านรายการในโมเดล AI ระดับแนวหน้า พร้อมสาธิตการขยายขนาดที่ราบรื่นและคาดการณ์ได้

• แสดงให้เห็นถึงความสามารถในการตีความของคุณลักษณะผ่านภาพแสดงผลที่เผยการกระตุ้นของเอกสารสำหรับคุณลักษณะเฉพาะ

• ตัวอย่างของคุณลักษณะที่ตีความได้ ได้แก่ วลีที่เกี่ยวข้องกับข้อบกพร่องของมนุษย์ แนวโน้มการขึ้นราคา วลีในรูปแบบ "X และ Y" บันทึกการฝึกแมชชีนเลิร์นนิง คำถามเชิงวาทศิลป์/เชิงปลุกเร้า วงแหวนเชิงพีชคณิต และตัวรับอะดีโนซีนกับโดพามีน

• ทีมวิจัยรู้สึกตื่นเต้นกับศักยภาพที่ความสามารถในการตีความอาจช่วยเพิ่มความน่าเชื่อถือและความสามารถในการปรับให้สอดคล้องของโมเดล แต่ก็ยอมรับข้อจำกัดเช่นกัน ทั้งความยากในการตีความคุณลักษณะที่ค้นพบจำนวนมาก และความจำเป็นในการมีวิธีตรวจสอบที่ดีกว่าเดิม

2 ความคิดเห็น

brainer 2024-06-07

https://github.com/openai/sparse_autoencoder

brainer 2024-06-07

https://openaipublic.blob.core.windows.net/sparse-autoencoder/…

ผลงานวิจัยใหม่ของ OpenAI: แยกการแทนภายในของ GPT-4 ออกเป็นรูปแบบที่ตีความได้

บทความที่เกี่ยวข้อง

2 ความคิดเห็น