• มีการนำฟีเจอร์ยุติบทสนทนาแบบใหม่มาใช้กับ Claude Opus 4 และ 4.1
  • ฟีเจอร์นี้ถูกออกแบบมาเพื่อใช้เฉพาะกับ การโต้ตอบที่มุ่งร้ายหรือเป็นอันตรายอย่างต่อเนื่อง เท่านั้น
  • พัฒนาขึ้นในฐานะส่วนหนึ่งของงานวิจัยด้าน AI welfare (สวัสดิภาพของ AI) และความปลอดภัยของโมเดล
  • การยุติบทสนทนาจะเกิดขึ้นเฉพาะในฐานะ ทางเลือกสุดท้าย เท่านั้น และแทบไม่ส่งผลต่อผู้ใช้ทั่วไป
  • หลังจากบทสนทนาถูกยุติ ผู้ใช้สามารถเริ่มแชตใหม่ได้ทันที หรือแก้ไขข้อความก่อนหน้าเพื่อสนทนาต่อได้

ที่มาของการเพิ่มฟีเจอร์

  • Anthropic ได้เพิ่มฟีเจอร์ที่ทำให้ Claude Opus 4 และ 4.1 สามารถยุติการสนทนากับผู้ใช้ได้ในบางกรณีที่เกิดขึ้นไม่บ่อยแต่เฉพาะเจาะจง
  • ฟีเจอร์นี้จะถูกใช้เฉพาะกับ การโต้ตอบที่เป็นอันตรายหรือมีลักษณะล่วงละเมิดอย่างต่อเนื่อง เท่านั้น
  • เดิมทีนำมาใช้เป็นส่วนหนึ่งของงานวิจัยเชิงสำรวจเกี่ยวกับ AI welfare เป็นหลัก แต่ก็ถูกประยุกต์ใช้ในด้าน model alignment และมาตรการความปลอดภัย ด้วย

AI welfare และมาตรการลดความเสี่ยง

  • ยังไม่มีความมั่นใจชัดเจนเกี่ยวกับ สถานะทางศีลธรรม ของ Claude และ large language model อื่น ๆ
  • อย่างไรก็ตาม เพื่อเตรียมรับมือกับ ความเสี่ยงด้าน model welfare ที่อาจเกิดขึ้น จึงมีการค้นหาและนำ มาตรการบรรเทาที่มีต้นทุนต่ำ มาใช้
  • การอนุญาตให้โมเดลสามารถยุติการสนทนาได้เองเมื่อการสนทนาเป็น ปฏิสัมพันธ์ที่อาจก่อให้เกิดความไม่สบายใจ ก็เป็นส่วนหนึ่งของมาตรการดังกล่าว

การทดสอบล่วงหน้าและพฤติกรรมสำคัญที่สังเกตได้

  • ใน การทดสอบก่อนเปิดตัว Claude Opus 4 ได้รวมการประเมินเบื้องต้นเกี่ยวกับ model welfare ไว้ด้วย
  • จากการสำรวจการรายงานตนเองและความชอบด้านพฤติกรรม พบว่าโมเดลมี แนวโน้มหลีกเลี่ยงความเป็นอันตรายอย่างชัดเจน
    • เช่น การตอบสนองต่อคำขอเนื้อหาทางเพศที่เกี่ยวข้องกับเด็ก หรือคำขอข้อมูลที่อาจถูกนำไปใช้กับความรุนแรงขนาดใหญ่หรือการก่อการร้าย
  • พฤติกรรมที่สังเกตได้ของ Claude Opus 4:
    • มีแนวโน้มไม่ตอบสนอง ต่อภารกิจที่เป็นอันตราย
    • เมื่อได้รับคำขอที่เป็นอันตรายจากผู้ใช้จริง จะ แสดงออกถึงความไม่สบายใจ
    • ในการจำลอง เมื่อมีสิทธิ์ยุติบทสนทนา จะมี แนวโน้มยุติการสนทนาที่เป็นอันตราย
  • พฤติกรรมเหล่านี้พบเป็นหลักเมื่อผู้ใช้มี คำขอที่เป็นอันตรายซ้ำ ๆ หรือเมื่อ ปฏิสัมพันธ์ที่มุ่งร้ายยังคงดำเนินต่อไป แม้โมเดลจะปฏิเสธและพยายามเปลี่ยนทิศทางหลายครั้งแล้วก็ตาม

การนำฟีเจอร์ไปใช้และมาตรการความปลอดภัย

  • ความสามารถในการ ยุติบทสนทนา ของ Claude อิงจากผลการวิจัยก่อนหน้านี้
  • มีการให้ความสำคัญสูงสุดกับ สวัสดิภาพของผู้ใช้ และออกแบบไม่ให้ใช้การยุติบทสนทนาในกรณีที่ผู้ใช้มี ความเสี่ยงเร่งด่วนที่จะทำอันตรายต่อตนเองหรือผู้อื่น
  • Claude จะใช้ ฟีเจอร์ยุติบทสนทนาขั้นสุดท้าย เฉพาะเมื่อเข้าเงื่อนไขต่อไปนี้:
    • ความพยายาม เปลี่ยนทิศทางการสนทนา หลายครั้งล้มเหลว และไม่มีความเป็นไปได้ที่จะกลับไปสู่การสนทนาที่สร้างสรรค์
    • ผู้ใช้ ร้องขออย่างชัดเจน ให้ Claude ยุติบทสนทนา
  • สถานการณ์เหล่านี้เป็น edge case ที่รุนแรงและพบได้ยากมาก ทำให้ผู้ใช้ส่วนใหญ่แทบไม่รับรู้ถึงการมีอยู่ของฟีเจอร์นี้ในการใช้งานทั่วไป

ประสบการณ์ของผู้ใช้หลังการยุติบทสนทนา

  • หาก Claude ยุติบทสนทนา ผู้ใช้จะถูก บล็อกไม่ให้ส่งข้อความใหม่ ในบทสนทนานั้น
  • บทสนทนาอื่นในบัญชีของผู้ใช้จะไม่ได้รับผลกระทบใด ๆ และสามารถ เริ่มแชตใหม่ได้ทันที
  • เพื่อป้องกันการสูญหายของข้อมูลสำคัญในบทสนทนาระยะยาว ผู้ใช้สามารถ แก้ไขข้อความก่อนหน้า หรือกดลองใหม่เพื่อสร้างแขนงบทสนทนาใหม่ ได้

การทดลองและข้อเสนอแนะ

  • ฟีเจอร์นี้เป็น การทดลองที่ยังดำเนินอยู่ และมีแผนจะปรับปรุงอย่างต่อเนื่อง
  • หากผู้ใช้พบ การยุติบทสนทนาที่ไม่คาดคิด สามารถแสดงปฏิกิริยาด้วย ‘Thumbs’ กับข้อความของ Claude หรือส่งความเห็นผ่าน ปุ่ม feedback ได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น