36 คะแนน โดย xguru 2024-05-22 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ความก้าวหน้าครั้งใหญ่ในการทำความเข้าใจกลไกการทำงานภายในของโมเดล AI
    • ตรวจสอบได้ว่าแนวคิดหลายล้านรายการถูกแสดงแทนอยู่ภายใน Claude Sonnet LLM อย่างไร
    • นี่เป็นกรณีแรกที่มีการมองเข้าไปภายในของ LLM ระดับโปรดักชันสมัยใหม่ได้อย่างละเอียด
    • การค้นพบด้านความสามารถในการตีความนี้อาจช่วยทำให้โมเดล AI ปลอดภัยยิ่งขึ้นในอนาคต
  • แนวทางแบบกล่องดำและปัญหาเรื่องความไว้วางใจ
    • โมเดล AI มักถูกจัดการด้วยแนวทางแบบกล่องดำที่ดูได้เพียงอินพุตและเอาต์พุต
    • จึงยากที่จะเข้าใจว่าเหตุใดโมเดลจึงให้คำตอบบางแบบ
    • ทำให้ยากที่จะเชื่อมั่นได้ว่าโมเดลจะไม่ให้คำตอบที่เป็นอันตราย มีอคติ เป็นเท็จ หรือเสี่ยงอันตราย
  • ความยากในการทำความเข้าใจสถานะภายในของโมเดล
    • สถานะภายในของโมเดลประกอบด้วยตัวเลขที่ไม่มีความหมายชัดเจนในตัวเอง
    • แต่ละแนวคิดถูกแสดงแทนกระจายอยู่บนเซลล์ประสาทจำนวนมาก และแต่ละเซลล์ประสาทก็แสดงแทนได้หลายแนวคิด
  • ความคืบหน้าในด้าน dictionary learning
    • ก่อนหน้านี้มีความก้าวหน้าในการจับคู่รูปแบบการกระตุ้นของเซลล์ประสาท (features) เข้ากับแนวคิดที่มนุษย์เข้าใจได้
    • ด้วยเทคนิค dictionary learning ทำให้สามารถแทนสถานะภายในของโมเดลด้วย features ที่ถูกกระตุ้นเพียงไม่กี่รายการ แทนการอธิบายผ่านเซลล์ประสาทที่ถูกกระตุ้นจำนวนมาก
  • ความสำเร็จในโมเดลภาษาขนาดเล็ก
    • ในเดือนตุลาคม 2023 ได้ประยุกต์ใช้ dictionary learning กับโมเดลภาษาขนาดเล็กมากได้สำเร็จ
    • ระบุแนวคิดอย่างข้อความตัวพิมพ์ใหญ่ ลำดับ DNA และเพศในคำอ้างอิงได้
  • การขยายไปสู่โมเดลขนาดใหญ่
    • เมื่อขยายเทคนิคไปยังโมเดลภาษาขนาดใหญ่ ก็สามารถค้นหา features ที่ซับซ้อนยิ่งขึ้นได้
    • มีความเสี่ยงเชิงวิทยาศาสตร์ที่โมเดลขนาดใหญ่อาจทำงานแตกต่างจากโมเดลขนาดเล็ก
    • แต่โชคดีที่ประสบการณ์จากการฝึกโมเดลภาษาขนาดใหญ่ช่วยให้การทดลองนี้เป็นไปได้
  • features ภายใน Claude 3.0 Sonnet
    • สกัด features ได้หลายล้านรายการจากเลเยอร์กลางของ Claude 3.0 Sonnet สำเร็จ
    • features เหล่านี้สอดคล้องกับแนวคิดหลากหลาย เช่น เมือง บุคคล ธาตุ สาขาวิชา และไวยากรณ์ของภาษาโปรแกรม
  • features เชิงนามธรรม
    • Claude ยังตอบสนองต่อ features ที่เป็นนามธรรมมากขึ้น เช่น บั๊กในโค้ดคอมพิวเตอร์ อคติทางเพศของอาชีพ และการสนทนาเกี่ยวกับการเก็บความลับ
  • การวัดระยะห่างระหว่าง features
    • สามารถวัด “ระยะห่าง” ระหว่าง features เพื่อค้นหา features ที่คล้ายกันได้
    • ตัวอย่างเช่น ใกล้กับ feature “Golden Gate Bridge” พบ features ที่เกี่ยวข้องกับ Alcatraz Island และ Ghirardelli Square
  • การทดลองปรับแต่ง features
    • สามารถเปลี่ยนคำตอบของ Claude ได้ด้วยการขยายหรือลดทอน feature บางรายการ
    • ตัวอย่างเช่น เมื่อขยาย feature “Golden Gate Bridge” Claude จะรับรู้ว่ารูปร่างทางกายภาพของตนเองคือสะพานโกลเดนเกต
  • ความปลอดภัยและการปรับแต่ง features
    • กำลังสำรวจความเป็นไปได้ในการระบุและปรับปรุง features ที่เกี่ยวข้องกับความปลอดภัยของโมเดลผ่านการปรับแต่งการทำงานของ Claude
    • แม้ Claude จะถูกฝึกไม่ให้สร้างอีเมลหลอกลวง แต่เมื่อเปิดใช้งาน feature บางอย่าง ก็สามารถเขียนอีเมลหลอกลวงได้
  • ทิศทางการวิจัยในอนาคต
    • มีแผนจะนำการค้นพบเหล่านี้ไปใช้เพื่อปรับปรุงความปลอดภัยของโมเดล
    • อาจใช้เพื่อติดตามพฤติกรรมอันตรายของระบบ AI ชี้นำไปสู่ผลลัพธ์ที่ต้องการ หรือกำจัดหัวข้อที่เป็นอันตราย
    • เทคนิคเหล่านี้อาจช่วยเสริมเทคโนโลยีด้านความปลอดภัยอื่น ๆ เช่น Constitutional AI
  • ความท้าทายในอนาคต
    • ด้วยเทคโนโลยีปัจจุบัน การค้นหาแนวคิดทั้งหมดที่โมเดลได้เรียนรู้ยังมีต้นทุนสูงมาก
    • การทำความเข้าใจว่าโมเดลใช้ features อย่างไรเป็นเรื่องสำคัญ
    • จำเป็นต้องแสดงให้เห็นว่า features ที่เกี่ยวข้องกับความปลอดภัยสามารถนำไปใช้เพิ่มความปลอดภัยได้จริง
  • โอกาสเข้าร่วมงานวิจัย
    • กำลังมองหานักวิทยาศาสตร์วิจัย วิศวกรวิจัย และบุคลากรอื่น ๆ เพื่อร่วมกันตีความและปรับปรุงโมเดล AI
    • ดูรายละเอียดเพิ่มเติมได้ในงานวิจัย “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”
  • งานวิจัยนี้ถือเป็นความก้าวหน้าสำคัญในการเพิ่มความสามารถในการตีความของโมเดล AI และเสริมความปลอดภัย โดยยังต้องมีการวิจัยเพิ่มเติมต่อไป

2 ความคิดเห็น

 
2147483647 2024-05-24

ข้อแตกต่างจากสมองคงอยู่ที่เราสามารถรู้ได้อย่างชัดเจนว่าเพอร์เซปตรอนตัวไหนถูกกระตุ้น

 
andandend 2024-05-22

ดูเหมือนว่าการทำความเข้าใจกล่องดำที่เข้าใจได้ยากนี้จะคล้ายกับการศึกษาสมองเลยนะครับ
ผมกลับคิดว่าในแง่ที่สามารถเก็บ snapshot ได้ง่ายกว่า มันอาจตีความได้มากกว่าสมองเสียอีก