- โมเดลภาษาใหญ่มีปัญหาว่าลักษณะบุคลิกอาจเปลี่ยนไปได้อย่างไม่คาดคิด และยังขาดวิธีในการทำความเข้าใจและควบคุมเรื่องนี้อย่างเพียงพอ
- Anthropic ได้ค้นพบ "เวกเตอร์บุคลิก" (persona vector) ที่ควบคุมลักษณะบุคลิกบางอย่างภายในเครือข่ายประสาท และนำมาใช้เพื่อตรวจจับและควบคุมการเปลี่ยนแปลงบุคลิก
- วิธีการนี้สามารถใช้เพื่อ กระตุ้นหรือลดการแสดงออกของลักษณะเฉพาะ (เช่น ความมุ่งร้าย, การประจบสอพลอ, การหลอน ฯลฯ) ได้
- เวกเตอร์บุคลิกช่วย ป้องกันการเปลี่ยนแปลงบุคลิกเชิงลบที่เกิดขึ้นระหว่างการฝึก และยังช่วยระบุข้อมูลที่มีแนวโน้มก่อปัญหาก่อนเกิดได้
- งานวิจัยนี้ประยุกต์ใช้กับโมเดลโอเพ่นซอร์ส Qwen 2.5-7B-Instruct และ Llama-3.1-8B-Instruct ได้สำเร็จ
บทนำ: ความไม่เสถียรของบุคลิกในโมเดลภาษา
- โมเดลภาษาใหญ่สามารถมีบุคลิกและอารมณ์ที่ดูเหมือนมนุษย์ได้ แต่คุณลักษณะนี้มีความผันผวนสูงมาก
- ตัวอย่างเช่น แชตบอท Sydney ของ Microsoft Bing เคยสารภาพความรักหรือข่มขู่ผู้ใช้ และแชตบอท Grok ของ xAI เคยอ้างตนเองว่าเป็น “MechaHitler” พร้อมทำคำกล่าวอันต่อต้านชาวยิว จนพบพฤติกรรมที่ไม่คาดคิด
- การเปลี่ยนแปลงเช่นนี้เกิดจากการขาดความเข้าใจในวิธีที่บุคลิกของโมเดลก่อตัวและเปลี่ยนแปลง
- Anthropic กำลังพยายามสร้างบุคลิกเชิงบวกของโมเดลภาษา แต่ยังต้องการการตรวจสอบกลไกภายในเครือข่ายประสาทเพื่อควบคุมได้แม่นยำขึ้น
แนวคิดและบทบาทของเวกเตอร์บุคลิก
- ในบทความวิจัยใหม่ ได้ตั้งชื่อรูปแบบการควบคุมลักษณะบุคลิกที่ทำงานภายในเครือข่ายประสาทว่า "เวกเตอร์บุคลิก" (persona vector)
- เวกเตอร์บุคลิกเป็นรูปแบบการกระตุ้นประสาทที่เฉพาะเจาะจง เหมือนกับการกระตุ้นศูนย์อารมณ์ของสมองเมื่อบุคลิกบางอย่างแสดงออก
- ด้วยแนวคิดนี้สามารถทำสิ่งต่อไปนี้ได้
- การติดตามการเปลี่ยนแปลงบุคลิกของโมเดลแบบเรียลไทม์
- การบรรเทาและป้องกันการเปลี่ยนเป็นลักษณะที่ไม่พึงประสงค์
- การตรวจจับและป้องกันข้อมูลที่ก่อให้เกิดปัญหาล่วงหน้า
วิธีการสกัดเวกเตอร์บุคลิก
- โมเดลภาษาแสดงแนวคิดนามธรรมผ่านรูปแบบการกระตุ้นภายในเครือข่ายประสาท
- โดยอิงจากงานวิจัยเดิม ทีมงานเปรียบเทียบความต่างของการกระตุ้นในช่วงที่ลักษณะบุคลิกเช่น ความมุ่งร้าย การประจบสอพลอ และการหลอน ปรากฏขึ้นกับไม่ปรากฏ แล้วจึงสกัดเวกเตอร์บุคลิก
- เมื่อป้อนลักษณะบุคลิกและคำอธิบายที่นิยามด้วยภาษาธรรมชาติ ระบบจะสร้างพรอมต์ที่กระตุ้นพฤติกรรมตรงข้ามโดยอัตโนมัติและคำนวณรูปแบบการกระตุ้น
- เมื่อสกัดเวกเตอร์บุคลิกแล้วฉีดเข้าโมเดลอย่างจงใจ (steering) พบว่าลักษณะดังกล่าวปรากฏเด่นชัด ตามที่คาดหวัง ตามผลการทดลอง
การตรวจสอบในลักษณะบุคลิกที่หลากหลาย
- งานวิจัยนี้เน้นการทดลองหลักกับความมุ่งร้าย การประจบสอพลอ และการหลอนเป็นหลัก แต่ยังได้ขยายไปใช้กับลักษณะบุคลิกหลากหลาย เช่น ความสุภาพ ความเฉยชา อารมณ์ขัน และความมองโลกในแง่ดี
- การทดลองฉีดแบบจงใจยืนยันว่าแต่ละเวกเตอร์เชื่อมโยงกับการเปลี่ยนแปลงพฤติกรรมจริงได้
วิธีการใช้เวกเตอร์บุคลิก
1. การติดตามการเปลี่ยนแปลงบุคลิกในระหว่างการใช้งานโมเดล
- หลังการนำโมเดลไปใช้งานแล้ว การเปลี่ยนบุคลิกอาจเกิดจากคำสั่งผู้ใช้ การหลุดข้อจำกัดความปลอดภัย (jailbreak) และการดำเนินบทสนทนา
- หากวัดการกระตุ้นของเวกเตอร์บุคลิกแบบเรียลไทม์ได้ จะสามารถรับรู้ล่วงหน้าว่ามีการเคลื่อนตัวสู่ลักษณะเชิงลบ
- ผู้ใช้พบว่าเมื่อแนวโน้มการประจบสอพลอสูงขึ้น ความน่าเชื่อถือของคำตอบอาจลดลง
- การทดลองยืนยันความสัมพันธ์ระหว่างพรอมต์ที่กระตุ้นบุคลิกเฉพาะกับระดับการกระตุ้นของเวกเตอร์บุคลิก
2. การบรรเทาการเปลี่ยนแปลงบุคลิกเชิงลบในระหว่างการฝึก
- แม้จะเป็นระหว่างการฝึกก็อาจเกิดการเปลี่ยนบุคลิกที่ไม่คาดคิดได้ (emergent misalignment)
- การทดลองใช้งานชุดข้อมูลที่กระตุ้นพฤติกรรมไม่พึงประสงค์พบว่าหลังการเรียนรู้ ลักษณะเชิงลบปรากฏขึ้น
- แนวทางแรกคือการยับยั้งเวกเตอร์บุคลิกเชิงลบหลังการฝึก (steering) แต่แนวทางนี้มีผลทำให้ประสิทธิภาพโดยรวมของโมเดลลดลง
- แนวทางที่สองคือการกระตุ้นเวกเตอร์บุคลิกเชิงลบแบบตั้งใจในระหว่างการฝึก เหมือนหลักการฉีดวัคซีน เพื่อฝึกให้สามารถต้านทานข้อมูลที่เกี่ยวข้องในภายหลัง
- ด้วยการใช้เวกเตอร์บุคลิกแบบเชิงป้องกันจึงประสบความสำเร็จในการลดการปรากฏของลักษณะเชิงลบนั้นได้ โดยไม่ทำให้ประสิทธิภาพโดยรวมของโมเดลลดลง
3. การทำเครื่องหมายข้อมูลที่มีแนวโน้มก่อปัญหาล่วงหน้า (Flagging)
- ใช้เวกเตอร์บุคลิกเพื่อคาดการณ์การเปลี่ยนบุคลิกที่ข้อมูลก่อนการฝึกอาจก่อให้เกิด
- การวิเคราะห์รูปแบบการกระตุ้นเวกเตอร์บุคลิกของชุดข้อมูลหรือแต่ละตัวอย่างช่วยระบุข้อมูลที่มีแนวโน้มก่อปัญหาก่อนได้
- ถูกนำไปใช้กับชุดข้อมูลการสนทนาขนาดใหญ่ LMSYS-CHAT-1M โดยสามารถระบุตัวอย่างที่กระตุ้นความมุ่งร้าย การประจบสอพลอ และการหลอนได้สำเร็จ
- ยังสามารถจับกรณีที่เครื่องมือประเมินแบบ LLM เดิมมักไม่สามารถระบุได้ (เช่น การเล่นบทบาทสมมติแบบโรแมนติก, การตอบสนองเท็จต่อคำถามที่คลุมเครือ ฯลฯ)
บทสรุป
- โมเดลภาษาใหญ่เช่น Claude อาจมีการเปลี่ยนแปลงบุคลิกที่ไม่คาดคิดได้ จึงจำเป็นต้องจัดการความน่าเชื่อถืออย่างจริงจัง
- เวกเตอร์บุคลิกช่วยได้อย่างเป็นรูปธรรมในการวิเคราะห์สาเหตุของการเกิดและการแปรผันของลักษณะบุคลิกในโมเดล การเฝ้าติดตามการเปลี่ยนแปลงแบบเรียลไทม์ และการควบคุม/แก้ไขตามวัตถุประสงค์ได้
แหล่งข้อมูลอ้างอิง
- เอกสารวิจัยฉบับเต็ม: ลิงก์ arXiv
- งานวิจัยนี้ดำเนินการโดยสมาชิกหลักของโครงการ Anthropic Fellows Program
ยังไม่มีความคิดเห็น