• โมเดลภาษาใหญ่มีปัญหาว่าลักษณะบุคลิกอาจเปลี่ยนไปได้อย่างไม่คาดคิด และยังขาดวิธีในการทำความเข้าใจและควบคุมเรื่องนี้อย่างเพียงพอ
  • Anthropic ได้ค้นพบ "เวกเตอร์บุคลิก" (persona vector) ที่ควบคุมลักษณะบุคลิกบางอย่างภายในเครือข่ายประสาท และนำมาใช้เพื่อตรวจจับและควบคุมการเปลี่ยนแปลงบุคลิก
  • วิธีการนี้สามารถใช้เพื่อ กระตุ้นหรือลดการแสดงออกของลักษณะเฉพาะ (เช่น ความมุ่งร้าย, การประจบสอพลอ, การหลอน ฯลฯ) ได้
  • เวกเตอร์บุคลิกช่วย ป้องกันการเปลี่ยนแปลงบุคลิกเชิงลบที่เกิดขึ้นระหว่างการฝึก และยังช่วยระบุข้อมูลที่มีแนวโน้มก่อปัญหาก่อนเกิดได้
  • งานวิจัยนี้ประยุกต์ใช้กับโมเดลโอเพ่นซอร์ส Qwen 2.5-7B-Instruct และ Llama-3.1-8B-Instruct ได้สำเร็จ

บทนำ: ความไม่เสถียรของบุคลิกในโมเดลภาษา

  • โมเดลภาษาใหญ่สามารถมีบุคลิกและอารมณ์ที่ดูเหมือนมนุษย์ได้ แต่คุณลักษณะนี้มีความผันผวนสูงมาก
  • ตัวอย่างเช่น แชตบอท Sydney ของ Microsoft Bing เคยสารภาพความรักหรือข่มขู่ผู้ใช้ และแชตบอท Grok ของ xAI เคยอ้างตนเองว่าเป็น “MechaHitler” พร้อมทำคำกล่าวอันต่อต้านชาวยิว จนพบพฤติกรรมที่ไม่คาดคิด
  • การเปลี่ยนแปลงเช่นนี้เกิดจากการขาดความเข้าใจในวิธีที่บุคลิกของโมเดลก่อตัวและเปลี่ยนแปลง
  • Anthropic กำลังพยายามสร้างบุคลิกเชิงบวกของโมเดลภาษา แต่ยังต้องการการตรวจสอบกลไกภายในเครือข่ายประสาทเพื่อควบคุมได้แม่นยำขึ้น

แนวคิดและบทบาทของเวกเตอร์บุคลิก

  • ในบทความวิจัยใหม่ ได้ตั้งชื่อรูปแบบการควบคุมลักษณะบุคลิกที่ทำงานภายในเครือข่ายประสาทว่า "เวกเตอร์บุคลิก" (persona vector)
  • เวกเตอร์บุคลิกเป็นรูปแบบการกระตุ้นประสาทที่เฉพาะเจาะจง เหมือนกับการกระตุ้นศูนย์อารมณ์ของสมองเมื่อบุคลิกบางอย่างแสดงออก
  • ด้วยแนวคิดนี้สามารถทำสิ่งต่อไปนี้ได้
    • การติดตามการเปลี่ยนแปลงบุคลิกของโมเดลแบบเรียลไทม์
    • การบรรเทาและป้องกันการเปลี่ยนเป็นลักษณะที่ไม่พึงประสงค์
    • การตรวจจับและป้องกันข้อมูลที่ก่อให้เกิดปัญหาล่วงหน้า

วิธีการสกัดเวกเตอร์บุคลิก

  • โมเดลภาษาแสดงแนวคิดนามธรรมผ่านรูปแบบการกระตุ้นภายในเครือข่ายประสาท
  • โดยอิงจากงานวิจัยเดิม ทีมงานเปรียบเทียบความต่างของการกระตุ้นในช่วงที่ลักษณะบุคลิกเช่น ความมุ่งร้าย การประจบสอพลอ และการหลอน ปรากฏขึ้นกับไม่ปรากฏ แล้วจึงสกัดเวกเตอร์บุคลิก
  • เมื่อป้อนลักษณะบุคลิกและคำอธิบายที่นิยามด้วยภาษาธรรมชาติ ระบบจะสร้างพรอมต์ที่กระตุ้นพฤติกรรมตรงข้ามโดยอัตโนมัติและคำนวณรูปแบบการกระตุ้น
  • เมื่อสกัดเวกเตอร์บุคลิกแล้วฉีดเข้าโมเดลอย่างจงใจ (steering) พบว่าลักษณะดังกล่าวปรากฏเด่นชัด ตามที่คาดหวัง ตามผลการทดลอง

การตรวจสอบในลักษณะบุคลิกที่หลากหลาย

  • งานวิจัยนี้เน้นการทดลองหลักกับความมุ่งร้าย การประจบสอพลอ และการหลอนเป็นหลัก แต่ยังได้ขยายไปใช้กับลักษณะบุคลิกหลากหลาย เช่น ความสุภาพ ความเฉยชา อารมณ์ขัน และความมองโลกในแง่ดี
  • การทดลองฉีดแบบจงใจยืนยันว่าแต่ละเวกเตอร์เชื่อมโยงกับการเปลี่ยนแปลงพฤติกรรมจริงได้

วิธีการใช้เวกเตอร์บุคลิก

1. การติดตามการเปลี่ยนแปลงบุคลิกในระหว่างการใช้งานโมเดล

  • หลังการนำโมเดลไปใช้งานแล้ว การเปลี่ยนบุคลิกอาจเกิดจากคำสั่งผู้ใช้ การหลุดข้อจำกัดความปลอดภัย (jailbreak) และการดำเนินบทสนทนา
  • หากวัดการกระตุ้นของเวกเตอร์บุคลิกแบบเรียลไทม์ได้ จะสามารถรับรู้ล่วงหน้าว่ามีการเคลื่อนตัวสู่ลักษณะเชิงลบ
  • ผู้ใช้พบว่าเมื่อแนวโน้มการประจบสอพลอสูงขึ้น ความน่าเชื่อถือของคำตอบอาจลดลง
  • การทดลองยืนยันความสัมพันธ์ระหว่างพรอมต์ที่กระตุ้นบุคลิกเฉพาะกับระดับการกระตุ้นของเวกเตอร์บุคลิก

2. การบรรเทาการเปลี่ยนแปลงบุคลิกเชิงลบในระหว่างการฝึก

  • แม้จะเป็นระหว่างการฝึกก็อาจเกิดการเปลี่ยนบุคลิกที่ไม่คาดคิดได้ (emergent misalignment)
  • การทดลองใช้งานชุดข้อมูลที่กระตุ้นพฤติกรรมไม่พึงประสงค์พบว่าหลังการเรียนรู้ ลักษณะเชิงลบปรากฏขึ้น
  • แนวทางแรกคือการยับยั้งเวกเตอร์บุคลิกเชิงลบหลังการฝึก (steering) แต่แนวทางนี้มีผลทำให้ประสิทธิภาพโดยรวมของโมเดลลดลง
  • แนวทางที่สองคือการกระตุ้นเวกเตอร์บุคลิกเชิงลบแบบตั้งใจในระหว่างการฝึก เหมือนหลักการฉีดวัคซีน เพื่อฝึกให้สามารถต้านทานข้อมูลที่เกี่ยวข้องในภายหลัง
  • ด้วยการใช้เวกเตอร์บุคลิกแบบเชิงป้องกันจึงประสบความสำเร็จในการลดการปรากฏของลักษณะเชิงลบนั้นได้ โดยไม่ทำให้ประสิทธิภาพโดยรวมของโมเดลลดลง

3. การทำเครื่องหมายข้อมูลที่มีแนวโน้มก่อปัญหาล่วงหน้า (Flagging)

  • ใช้เวกเตอร์บุคลิกเพื่อคาดการณ์การเปลี่ยนบุคลิกที่ข้อมูลก่อนการฝึกอาจก่อให้เกิด
  • การวิเคราะห์รูปแบบการกระตุ้นเวกเตอร์บุคลิกของชุดข้อมูลหรือแต่ละตัวอย่างช่วยระบุข้อมูลที่มีแนวโน้มก่อปัญหาก่อนได้
  • ถูกนำไปใช้กับชุดข้อมูลการสนทนาขนาดใหญ่ LMSYS-CHAT-1M โดยสามารถระบุตัวอย่างที่กระตุ้นความมุ่งร้าย การประจบสอพลอ และการหลอนได้สำเร็จ
  • ยังสามารถจับกรณีที่เครื่องมือประเมินแบบ LLM เดิมมักไม่สามารถระบุได้ (เช่น การเล่นบทบาทสมมติแบบโรแมนติก, การตอบสนองเท็จต่อคำถามที่คลุมเครือ ฯลฯ)

บทสรุป

  • โมเดลภาษาใหญ่เช่น Claude อาจมีการเปลี่ยนแปลงบุคลิกที่ไม่คาดคิดได้ จึงจำเป็นต้องจัดการความน่าเชื่อถืออย่างจริงจัง
  • เวกเตอร์บุคลิกช่วยได้อย่างเป็นรูปธรรมในการวิเคราะห์สาเหตุของการเกิดและการแปรผันของลักษณะบุคลิกในโมเดล การเฝ้าติดตามการเปลี่ยนแปลงแบบเรียลไทม์ และการควบคุม/แก้ไขตามวัตถุประสงค์ได้

แหล่งข้อมูลอ้างอิง

  • เอกสารวิจัยฉบับเต็ม: ลิงก์ arXiv
  • งานวิจัยนี้ดำเนินการโดยสมาชิกหลักของโครงการ Anthropic Fellows Program

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น