- ความก้าวหน้าครั้งใหญ่ในการทำความเข้าใจกลไกการทำงานภายในของโมเดล AI
- ตรวจสอบได้ว่าแนวคิดหลายล้านรายการถูกแสดงแทนอยู่ภายใน Claude Sonnet LLM อย่างไร
- นี่เป็นกรณีแรกที่มีการมองเข้าไปภายในของ LLM ระดับโปรดักชันสมัยใหม่ได้อย่างละเอียด
- การค้นพบด้านความสามารถในการตีความนี้อาจช่วยทำให้โมเดล AI ปลอดภัยยิ่งขึ้นในอนาคต
- แนวทางแบบกล่องดำและปัญหาเรื่องความไว้วางใจ
- โมเดล AI มักถูกจัดการด้วยแนวทางแบบกล่องดำที่ดูได้เพียงอินพุตและเอาต์พุต
- จึงยากที่จะเข้าใจว่าเหตุใดโมเดลจึงให้คำตอบบางแบบ
- ทำให้ยากที่จะเชื่อมั่นได้ว่าโมเดลจะไม่ให้คำตอบที่เป็นอันตราย มีอคติ เป็นเท็จ หรือเสี่ยงอันตราย
- ความยากในการทำความเข้าใจสถานะภายในของโมเดล
- สถานะภายในของโมเดลประกอบด้วยตัวเลขที่ไม่มีความหมายชัดเจนในตัวเอง
- แต่ละแนวคิดถูกแสดงแทนกระจายอยู่บนเซลล์ประสาทจำนวนมาก และแต่ละเซลล์ประสาทก็แสดงแทนได้หลายแนวคิด
- ความคืบหน้าในด้าน dictionary learning
- ก่อนหน้านี้มีความก้าวหน้าในการจับคู่รูปแบบการกระตุ้นของเซลล์ประสาท (features) เข้ากับแนวคิดที่มนุษย์เข้าใจได้
- ด้วยเทคนิค
dictionary learning ทำให้สามารถแทนสถานะภายในของโมเดลด้วย features ที่ถูกกระตุ้นเพียงไม่กี่รายการ แทนการอธิบายผ่านเซลล์ประสาทที่ถูกกระตุ้นจำนวนมาก
- ความสำเร็จในโมเดลภาษาขนาดเล็ก
- ในเดือนตุลาคม 2023 ได้ประยุกต์ใช้ dictionary learning กับโมเดลภาษาขนาดเล็กมากได้สำเร็จ
- ระบุแนวคิดอย่างข้อความตัวพิมพ์ใหญ่ ลำดับ DNA และเพศในคำอ้างอิงได้
- การขยายไปสู่โมเดลขนาดใหญ่
- เมื่อขยายเทคนิคไปยังโมเดลภาษาขนาดใหญ่ ก็สามารถค้นหา features ที่ซับซ้อนยิ่งขึ้นได้
- มีความเสี่ยงเชิงวิทยาศาสตร์ที่โมเดลขนาดใหญ่อาจทำงานแตกต่างจากโมเดลขนาดเล็ก
- แต่โชคดีที่ประสบการณ์จากการฝึกโมเดลภาษาขนาดใหญ่ช่วยให้การทดลองนี้เป็นไปได้
- features ภายใน Claude 3.0 Sonnet
- สกัด features ได้หลายล้านรายการจากเลเยอร์กลางของ Claude 3.0 Sonnet สำเร็จ
- features เหล่านี้สอดคล้องกับแนวคิดหลากหลาย เช่น เมือง บุคคล ธาตุ สาขาวิชา และไวยากรณ์ของภาษาโปรแกรม
- features เชิงนามธรรม
- Claude ยังตอบสนองต่อ features ที่เป็นนามธรรมมากขึ้น เช่น บั๊กในโค้ดคอมพิวเตอร์ อคติทางเพศของอาชีพ และการสนทนาเกี่ยวกับการเก็บความลับ
- การวัดระยะห่างระหว่าง features
- สามารถวัด “ระยะห่าง” ระหว่าง features เพื่อค้นหา features ที่คล้ายกันได้
- ตัวอย่างเช่น ใกล้กับ feature “Golden Gate Bridge” พบ features ที่เกี่ยวข้องกับ Alcatraz Island และ Ghirardelli Square
- การทดลองปรับแต่ง features
- สามารถเปลี่ยนคำตอบของ Claude ได้ด้วยการขยายหรือลดทอน feature บางรายการ
- ตัวอย่างเช่น เมื่อขยาย feature “Golden Gate Bridge” Claude จะรับรู้ว่ารูปร่างทางกายภาพของตนเองคือสะพานโกลเดนเกต
- ความปลอดภัยและการปรับแต่ง features
- กำลังสำรวจความเป็นไปได้ในการระบุและปรับปรุง features ที่เกี่ยวข้องกับความปลอดภัยของโมเดลผ่านการปรับแต่งการทำงานของ Claude
- แม้ Claude จะถูกฝึกไม่ให้สร้างอีเมลหลอกลวง แต่เมื่อเปิดใช้งาน feature บางอย่าง ก็สามารถเขียนอีเมลหลอกลวงได้
- ทิศทางการวิจัยในอนาคต
- มีแผนจะนำการค้นพบเหล่านี้ไปใช้เพื่อปรับปรุงความปลอดภัยของโมเดล
- อาจใช้เพื่อติดตามพฤติกรรมอันตรายของระบบ AI ชี้นำไปสู่ผลลัพธ์ที่ต้องการ หรือกำจัดหัวข้อที่เป็นอันตราย
- เทคนิคเหล่านี้อาจช่วยเสริมเทคโนโลยีด้านความปลอดภัยอื่น ๆ เช่น Constitutional AI
- ความท้าทายในอนาคต
- ด้วยเทคโนโลยีปัจจุบัน การค้นหาแนวคิดทั้งหมดที่โมเดลได้เรียนรู้ยังมีต้นทุนสูงมาก
- การทำความเข้าใจว่าโมเดลใช้ features อย่างไรเป็นเรื่องสำคัญ
- จำเป็นต้องแสดงให้เห็นว่า features ที่เกี่ยวข้องกับความปลอดภัยสามารถนำไปใช้เพิ่มความปลอดภัยได้จริง
- โอกาสเข้าร่วมงานวิจัย
- กำลังมองหานักวิทยาศาสตร์วิจัย วิศวกรวิจัย และบุคลากรอื่น ๆ เพื่อร่วมกันตีความและปรับปรุงโมเดล AI
- ดูรายละเอียดเพิ่มเติมได้ในงานวิจัย “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”
- งานวิจัยนี้ถือเป็นความก้าวหน้าสำคัญในการเพิ่มความสามารถในการตีความของโมเดล AI และเสริมความปลอดภัย โดยยังต้องมีการวิจัยเพิ่มเติมต่อไป
2 ความคิดเห็น
ข้อแตกต่างจากสมองคงอยู่ที่เราสามารถรู้ได้อย่างชัดเจนว่าเพอร์เซปตรอนตัวไหนถูกกระตุ้น
ดูเหมือนว่าการทำความเข้าใจกล่องดำที่เข้าใจได้ยากนี้จะคล้ายกับการศึกษาสมองเลยนะครับ
ผมกลับคิดว่าในแง่ที่สามารถเก็บ snapshot ได้ง่ายกว่า มันอาจตีความได้มากกว่าสมองเสียอีก