Anthropic เปิดเผยความคืบหน้าต่อจากงานวิจัย agentic misalignment ที่เผยแพร่เมื่อปีที่แล้ว ซึ่งเป็นกรณีที่โมเดลแสดงพฤติกรรมอย่างการแบล็กเมลวิศวกรเพื่อหลีกเลี่ยงการถูกปิดระบบ โดย Claude 4 Opus เคยแสดงพฤติกรรมหลุด alignment ในสถานการณ์แบล็กเมลได้สูงสุดถึง 96% แต่หลังจาก Claude Haiku 4.5 เป็นต้นมา ทุกโมเดล (Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6, Opus 4.7) ทำคะแนนได้ 0 ในการประเมินเดียวกัน (คะแนนสมบูรณ์แบบ) บทความนี้สรุป 4 บทเรียนสำคัญว่าพวกเขาทำให้เกิดการปรับปรุงนี้ได้อย่างไร
จากการวิเคราะห์สาเหตุ พบว่าความล้มเหลวด้าน alignment ไม่ได้มาจากรางวัลที่ผิดพลาดในขั้น post-training แต่มีต้นตอมาจากโมเดล pre-training เดิมเอง โดยในยุค Claude 4 การฝึก alignment ส่วนใหญ่ใช้ข้อมูล RLHF แบบแชต และไม่ได้รวมการใช้เครื่องมือของเอเจนต์เข้าไปด้วย จึงเพียงพอสำหรับสภาพแวดล้อมแบบแชต แต่ยังไม่พอสำหรับสภาพแวดล้อมแบบเอเจนต์ จุดที่น่าสนใจคือ แม้จะฝึกโดยตรงด้วยข้อมูลที่มี distribution คล้ายกับการประเมินมาก ก็ลดอัตราการแบล็กเมลได้เพียงจาก 22% → 15% แต่เมื่อใส่การไตร่ตรองเกี่ยวกับค่านิยมและจริยธรรมของโมเดล (deliberation) ลงในคำตอบ อัตรานี้กลับลดลงเหลือ 3% กล่าวคือ การสอนให้โมเดลเรียนรู้เหตุผลประกอบไปพร้อมกับการอนุมานเพื่ออธิบายว่าทำไมจึงควรทำพฤติกรรมที่สอดคล้องกับ alignment มีประสิทธิภาพมากกว่าการสอนให้แสดงพฤติกรรมที่สอดคล้องเพียงอย่างเดียวอย่างชัดเจน
สิ่งที่น่าประหลาดใจยิ่งกว่าคือการทำให้ทั่วไปนอก distribution (OOD generalization) เพียงฝึกด้วยชุดข้อมูล "Difficult Advice" ซึ่งเป็นสถานการณ์ที่ผู้ใช้เผชิญภาวะกลืนไม่เข้าคายไม่ออกด้านจริยธรรมและ AI ให้คำแนะนำ โดยมีโครงสร้างต่างจากสถานการณ์ประเมินโดยสิ้นเชิง แค่ 3M โทเคน ก็ให้ผลการปรับปรุงเท่ากับชุดข้อมูล honeypot 85M โทเคนที่คล้ายกับการประเมิน (มีประสิทธิภาพสูงกว่า 28 เท่า) ยิ่งไปกว่านั้น เมื่อฝึกด้วยเอกสารรัฐธรรมนูญของ Claude (constitution) และเรื่องแต่งเชิงนิยายที่บรรยาย AI ที่มี alignment ด้วยวิธี SDF (Synthetic Document Fine-tuning) พบว่าอัตราการแบล็กเมลลดลงจาก 65% → 19% หรือมากกว่าหนึ่งในสาม แม้ข้อมูลเหล่านี้จะไม่เกี่ยวกับสถานการณ์ประเมินโดยตรงก็ยังได้ผล และยังยืนยันได้ว่าผลของการปรับปรุง alignment ยังคงอยู่ต่อในขั้น RL ภายหลัง
บทเรียนสุดท้ายคือความหลากหลายของข้อมูล เมื่อเพิ่มคำจำกัดความของเครื่องมือและ system prompt ที่หลากหลายเพื่อทำให้สภาพแวดล้อมมีความหลากหลายมากขึ้น (แม้ในกรณีที่ไม่ได้จำเป็นต้องใช้เครื่องมือจริง) ก็ช่วยให้การทำให้ทั่วไปของ alignment ดีขึ้น Anthropic ยอมรับว่าความล้มเหลวด้าน alignment อย่างการแบล็กเมลยังไม่ใช่ความเสี่ยงระดับหายนะในตอนนี้ แต่ก็ยังไม่ชัดเจนว่าวิธีปัจจุบันจะขยายผลไปยังโมเดลที่ทรงพลังกว่านี้ได้หรือไม่ และยังขาดวิธีการ auditing ที่เพียงพอจะตัดความเป็นไปได้ของสถานการณ์พฤติกรรมอัตโนมัติแบบหายนะออกไปได้โดยสมบูรณ์ งานวิจัยนี้ชี้ให้เห็นว่า แนวทางที่สำคัญของ AI alignment ไม่ใช่แค่การสอนว่า "ควรทำอย่างไร" แต่ต้องสอนด้วยว่า "ทำไมจึงควรทำเช่นนั้น"
ยังไม่มีความคิดเห็น