Anthropic เผยความคืบหน้าครั้งสำคัญในการทำความเข้าใจภายในของ LLM

xguru · 2024-05-22T11:31:02+09:00

ความก้าวหน้าครั้งใหญ่ในการทำความเข้าใจกลไกการทำงานภายในของโมเดล AI ตรวจสอบได้ว่าแนวคิดหลายล้านรายการถูกแสดงแทนอยู่ภายใน Claude Sonnet LLM อย่างไร นี่เป็นกรณีแรกที่มีการมองเข้าไปภายในของ LLM ระดับโปรดักชันสมัยใหม่ได้อย่างละเอียด การค้นพบด้านความสามารถในการตีความนี้อาจช่วยทำให้โมเดล AI ปลอดภัยยิ่งขึ้นในอนาคต แนวทางแบบกล่องดำและปัญหาเรื่องความไว้วางใจ โมเดล AI มักถูกจัดการด้วยแนวทางแบบกล่องดำที่ดูได้เพียงอินพุตและเอาต์พุต จึงยากที่จะเข้าใจว่าเหตุใดโมเดลจึงให้คำตอบบางแบบ ทำให้ยากที่จะเชื่อมั่นได้ว่าโมเดลจะไม่ให้คำตอบที่เป็นอันตราย มีอคติ เป็นเท็จ หรือเสี่ยงอันตราย ความยากในการทำความเข้าใจสถานะภายในของโมเดล สถานะภายในของโมเดลประกอบด้วยตัวเลขที่ไม่มีความหมายชัดเจนในตัวเอง แต่ละแนวคิดถูกแสดงแทนกระจายอยู่บนเซลล์ประสาทจำนวนมาก และแต่ละเซลล์ประสาทก็แสดงแทนได้หลายแนวคิด ความคืบหน้าในด้าน dictionary learning ก่อนหน้านี้มีความก้าวหน้าในการจับคู่รูปแบบการกระตุ้นของเซลล์ประสาท (features) เข้ากับแนวคิดที่มนุษย์เข้าใจได้ ด้วยเทคนิค dictionary learning ทำให้สามารถแทนสถานะภายในของโมเดลด้วย features ที่ถูกกระตุ้นเพียงไม่กี่รายการ แทนการอธิบายผ่านเซลล์ประสาทที่ถูกกระตุ้นจำนวนมาก ความสำเร็จในโมเดลภาษาขนาดเล็ก ในเดือนตุลาคม 2023 ได้ประยุกต์ใช้ dictionary learning กับโมเดลภาษาขนาดเล็กมากได้สำเร็จ ระบุแนวคิดอย่างข้อความตัวพิมพ์ใหญ่ ลำดับ DNA และเพศในคำอ้างอิงได้ การขยายไปสู่โมเดลขนาดใหญ่ เมื่อขยายเทคนิคไปยังโมเดลภาษาขนาดใหญ่ ก็สามารถค้นหา features ที่ซับซ้อนยิ่งขึ้นได้ มีความเสี่ยงเชิงวิทยาศาสตร์ที่โมเดลขนาดใหญ่อาจทำงานแตกต่างจากโมเดลขนาดเล็ก แต่โชคดีที่ประสบการณ์จากการฝึกโมเดลภาษาขนาดใหญ่ช่วยให้การทดลองนี้เป็นไปได้ features ภายใน Claude 3.0 Sonnet สกัด features ได้หลายล้านรายการจากเลเยอร์กลางของ Claude 3.0 Sonnet สำเร็จ features เหล่านี้สอดคล้องกับแนวคิดหลากหลาย เช่น เมือง บุคคล ธาตุ สาขาวิชา และไวยากรณ์ของภาษาโปรแกรม features เชิงนามธรรม Claude ยังตอบสนองต่อ features ที่เป็นนามธรรมมากขึ้น เช่น บั๊กในโค้ดคอมพิวเตอร์ อคติทางเพศของอาชีพ และการสนทนาเกี่ยวกับการเก็บความลับ การวัดระยะห่างระหว่าง features สามารถวัด “ระยะห่าง” ระหว่าง features เพื่อค้นหา features ที่คล้ายกันได้ ตัวอย่างเช่น ใกล้กับ feature “Golden Gate Bridge” พบ features ที่เกี่ยวข้องกับ Alcatraz Island และ Ghirardelli Square การทดลองปรับแต่ง features สามารถเปลี่ยนคำตอบของ Claude ได้ด้วยการขยายหรือลดทอน feature บางรายการ ตัวอย่างเช่น เมื่อขยาย feature “Golden Gate Bridge” Claude จะรับรู้ว่ารูปร่างทางกายภาพของตนเองคือสะพานโกลเดนเกต ความปลอดภัยและการปรับแต่ง features กำลังสำรวจความเป็นไปได้ในการระบุและปรับปรุง features ที่เกี่ยวข้องกับความปลอดภัยของโมเดลผ่านการปรับแต่งการทำงานของ Claude แม้ Claude จะถูกฝึกไม่ให้สร้างอีเมลหลอกลวง แต่เมื่อเปิดใช้งาน feature บางอย่าง ก็สามารถเขียนอีเมลหลอกลวงได้ ทิศทางการวิจัยในอนาคต มีแผนจะนำการค้นพบเหล่านี้ไปใช้เพื่อปรับปรุงความปลอดภัยของโมเดล อาจใช้เพื่อติดตามพฤติกรรมอันตรายของระบบ AI ชี้นำไปสู่ผลลัพธ์ที่ต้องการ หรือกำจัดหัวข้อที่เป็นอันตราย เทคนิคเหล่านี้อาจช่วยเสริมเทคโนโลยีด้านความปลอดภัยอื่น ๆ เช่น Constitutional AI ความท้าทายในอนาคต ด้วยเทคโนโลยีปัจจุบัน การค้นหาแนวคิดทั้งหมดที่โมเดลได้เรียนรู้ยังมีต้นทุนสูงมาก การทำความเข้าใจว่าโมเดลใช้ features อย่างไรเป็นเรื่องสำคัญ จำเป็นต้องแสดงให้เห็นว่า features ที่เกี่ยวข้องกับความปลอดภัยสามารถนำไปใช้เพิ่มความปลอดภัยได้จริง โอกาสเข้าร่วมงานวิจัย กำลังมองหานักวิทยาศาสตร์วิจัย วิศวกรวิจัย และบุคลากรอื่น ๆ เพื่อร่วมกันตีความและปรับปรุงโมเดล AI ดูรายละเอียดเพิ่มเติมได้ในงานวิจัย “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” งานวิจัยนี้ถือเป็นความก้าวหน้าสำคัญในการเพิ่มความสามารถในการตีความของโมเดล AI และเสริมความปลอดภัย โดยยังต้องมีการวิจัยเพิ่มเติมต่อไป

(anthropic.com)

36 คะแนน โดย xguru 2024-05-22 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ความก้าวหน้าครั้งใหญ่ในการทำความเข้าใจกลไกการทำงานภายในของโมเดล AI
- ตรวจสอบได้ว่าแนวคิดหลายล้านรายการถูกแสดงแทนอยู่ภายใน Claude Sonnet LLM อย่างไร
- นี่เป็นกรณีแรกที่มีการมองเข้าไปภายในของ LLM ระดับโปรดักชันสมัยใหม่ได้อย่างละเอียด
- การค้นพบด้านความสามารถในการตีความนี้อาจช่วยทำให้โมเดล AI ปลอดภัยยิ่งขึ้นในอนาคต
แนวทางแบบกล่องดำและปัญหาเรื่องความไว้วางใจ
- โมเดล AI มักถูกจัดการด้วยแนวทางแบบกล่องดำที่ดูได้เพียงอินพุตและเอาต์พุต
- จึงยากที่จะเข้าใจว่าเหตุใดโมเดลจึงให้คำตอบบางแบบ
- ทำให้ยากที่จะเชื่อมั่นได้ว่าโมเดลจะไม่ให้คำตอบที่เป็นอันตราย มีอคติ เป็นเท็จ หรือเสี่ยงอันตราย
ความยากในการทำความเข้าใจสถานะภายในของโมเดล
- สถานะภายในของโมเดลประกอบด้วยตัวเลขที่ไม่มีความหมายชัดเจนในตัวเอง
- แต่ละแนวคิดถูกแสดงแทนกระจายอยู่บนเซลล์ประสาทจำนวนมาก และแต่ละเซลล์ประสาทก็แสดงแทนได้หลายแนวคิด
ความคืบหน้าในด้าน dictionary learning
- ก่อนหน้านี้มีความก้าวหน้าในการจับคู่รูปแบบการกระตุ้นของเซลล์ประสาท (features) เข้ากับแนวคิดที่มนุษย์เข้าใจได้
- ด้วยเทคนิค dictionary learning ทำให้สามารถแทนสถานะภายในของโมเดลด้วย features ที่ถูกกระตุ้นเพียงไม่กี่รายการ แทนการอธิบายผ่านเซลล์ประสาทที่ถูกกระตุ้นจำนวนมาก
ความสำเร็จในโมเดลภาษาขนาดเล็ก
- ในเดือนตุลาคม 2023 ได้ประยุกต์ใช้ dictionary learning กับโมเดลภาษาขนาดเล็กมากได้สำเร็จ
- ระบุแนวคิดอย่างข้อความตัวพิมพ์ใหญ่ ลำดับ DNA และเพศในคำอ้างอิงได้
โฆษณา
การขยายไปสู่โมเดลขนาดใหญ่
- เมื่อขยายเทคนิคไปยังโมเดลภาษาขนาดใหญ่ ก็สามารถค้นหา features ที่ซับซ้อนยิ่งขึ้นได้
- มีความเสี่ยงเชิงวิทยาศาสตร์ที่โมเดลขนาดใหญ่อาจทำงานแตกต่างจากโมเดลขนาดเล็ก
- แต่โชคดีที่ประสบการณ์จากการฝึกโมเดลภาษาขนาดใหญ่ช่วยให้การทดลองนี้เป็นไปได้
features ภายใน Claude 3.0 Sonnet
- สกัด features ได้หลายล้านรายการจากเลเยอร์กลางของ Claude 3.0 Sonnet สำเร็จ
- features เหล่านี้สอดคล้องกับแนวคิดหลากหลาย เช่น เมือง บุคคล ธาตุ สาขาวิชา และไวยากรณ์ของภาษาโปรแกรม
features เชิงนามธรรม
- Claude ยังตอบสนองต่อ features ที่เป็นนามธรรมมากขึ้น เช่น บั๊กในโค้ดคอมพิวเตอร์ อคติทางเพศของอาชีพ และการสนทนาเกี่ยวกับการเก็บความลับ
การวัดระยะห่างระหว่าง features
- สามารถวัด “ระยะห่าง” ระหว่าง features เพื่อค้นหา features ที่คล้ายกันได้
- ตัวอย่างเช่น ใกล้กับ feature “Golden Gate Bridge” พบ features ที่เกี่ยวข้องกับ Alcatraz Island และ Ghirardelli Square
การทดลองปรับแต่ง features
- สามารถเปลี่ยนคำตอบของ Claude ได้ด้วยการขยายหรือลดทอน feature บางรายการ
- ตัวอย่างเช่น เมื่อขยาย feature “Golden Gate Bridge” Claude จะรับรู้ว่ารูปร่างทางกายภาพของตนเองคือสะพานโกลเดนเกต
โฆษณา
ความปลอดภัยและการปรับแต่ง features
- กำลังสำรวจความเป็นไปได้ในการระบุและปรับปรุง features ที่เกี่ยวข้องกับความปลอดภัยของโมเดลผ่านการปรับแต่งการทำงานของ Claude
- แม้ Claude จะถูกฝึกไม่ให้สร้างอีเมลหลอกลวง แต่เมื่อเปิดใช้งาน feature บางอย่าง ก็สามารถเขียนอีเมลหลอกลวงได้
ทิศทางการวิจัยในอนาคต
- มีแผนจะนำการค้นพบเหล่านี้ไปใช้เพื่อปรับปรุงความปลอดภัยของโมเดล
- อาจใช้เพื่อติดตามพฤติกรรมอันตรายของระบบ AI ชี้นำไปสู่ผลลัพธ์ที่ต้องการ หรือกำจัดหัวข้อที่เป็นอันตราย
- เทคนิคเหล่านี้อาจช่วยเสริมเทคโนโลยีด้านความปลอดภัยอื่น ๆ เช่น Constitutional AI
ความท้าทายในอนาคต
- ด้วยเทคโนโลยีปัจจุบัน การค้นหาแนวคิดทั้งหมดที่โมเดลได้เรียนรู้ยังมีต้นทุนสูงมาก
- การทำความเข้าใจว่าโมเดลใช้ features อย่างไรเป็นเรื่องสำคัญ
- จำเป็นต้องแสดงให้เห็นว่า features ที่เกี่ยวข้องกับความปลอดภัยสามารถนำไปใช้เพิ่มความปลอดภัยได้จริง
โอกาสเข้าร่วมงานวิจัย
- กำลังมองหานักวิทยาศาสตร์วิจัย วิศวกรวิจัย และบุคลากรอื่น ๆ เพื่อร่วมกันตีความและปรับปรุงโมเดล AI
- ดูรายละเอียดเพิ่มเติมได้ในงานวิจัย “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”
งานวิจัยนี้ถือเป็นความก้าวหน้าสำคัญในการเพิ่มความสามารถในการตีความของโมเดล AI และเสริมความปลอดภัย โดยยังต้องมีการวิจัยเพิ่มเติมต่อไป

2 ความคิดเห็น

2147483647 2024-05-24

ข้อแตกต่างจากสมองคงอยู่ที่เราสามารถรู้ได้อย่างชัดเจนว่าเพอร์เซปตรอนตัวไหนถูกกระตุ้น

andandend 2024-05-22

ดูเหมือนว่าการทำความเข้าใจกล่องดำที่เข้าใจได้ยากนี้จะคล้ายกับการศึกษาสมองเลยนะครับ
ผมกลับคิดว่าในแง่ที่สามารถเก็บ snapshot ได้ง่ายกว่า มันอาจตีความได้มากกว่าสมองเสียอีก

Anthropic เผยความคืบหน้าครั้งสำคัญในการทำความเข้าใจภายในของ LLM

บทความที่เกี่ยวข้อง

2 ความคิดเห็น