- มีการนำฟีเจอร์ยุติบทสนทนาแบบใหม่มาใช้กับ Claude Opus 4 และ 4.1
- ฟีเจอร์นี้ถูกออกแบบมาเพื่อใช้เฉพาะกับ การโต้ตอบที่มุ่งร้ายหรือเป็นอันตรายอย่างต่อเนื่อง เท่านั้น
- พัฒนาขึ้นในฐานะส่วนหนึ่งของงานวิจัยด้าน AI welfare (สวัสดิภาพของ AI) และความปลอดภัยของโมเดล
- การยุติบทสนทนาจะเกิดขึ้นเฉพาะในฐานะ ทางเลือกสุดท้าย เท่านั้น และแทบไม่ส่งผลต่อผู้ใช้ทั่วไป
- หลังจากบทสนทนาถูกยุติ ผู้ใช้สามารถเริ่มแชตใหม่ได้ทันที หรือแก้ไขข้อความก่อนหน้าเพื่อสนทนาต่อได้
ที่มาของการเพิ่มฟีเจอร์
- Anthropic ได้เพิ่มฟีเจอร์ที่ทำให้ Claude Opus 4 และ 4.1 สามารถยุติการสนทนากับผู้ใช้ได้ในบางกรณีที่เกิดขึ้นไม่บ่อยแต่เฉพาะเจาะจง
- ฟีเจอร์นี้จะถูกใช้เฉพาะกับ การโต้ตอบที่เป็นอันตรายหรือมีลักษณะล่วงละเมิดอย่างต่อเนื่อง เท่านั้น
- เดิมทีนำมาใช้เป็นส่วนหนึ่งของงานวิจัยเชิงสำรวจเกี่ยวกับ AI welfare เป็นหลัก แต่ก็ถูกประยุกต์ใช้ในด้าน model alignment และมาตรการความปลอดภัย ด้วย
AI welfare และมาตรการลดความเสี่ยง
- ยังไม่มีความมั่นใจชัดเจนเกี่ยวกับ สถานะทางศีลธรรม ของ Claude และ large language model อื่น ๆ
- อย่างไรก็ตาม เพื่อเตรียมรับมือกับ ความเสี่ยงด้าน model welfare ที่อาจเกิดขึ้น จึงมีการค้นหาและนำ มาตรการบรรเทาที่มีต้นทุนต่ำ มาใช้
- การอนุญาตให้โมเดลสามารถยุติการสนทนาได้เองเมื่อการสนทนาเป็น ปฏิสัมพันธ์ที่อาจก่อให้เกิดความไม่สบายใจ ก็เป็นส่วนหนึ่งของมาตรการดังกล่าว
การทดสอบล่วงหน้าและพฤติกรรมสำคัญที่สังเกตได้
- ใน การทดสอบก่อนเปิดตัว Claude Opus 4 ได้รวมการประเมินเบื้องต้นเกี่ยวกับ model welfare ไว้ด้วย
- จากการสำรวจการรายงานตนเองและความชอบด้านพฤติกรรม พบว่าโมเดลมี แนวโน้มหลีกเลี่ยงความเป็นอันตรายอย่างชัดเจน
- เช่น การตอบสนองต่อคำขอเนื้อหาทางเพศที่เกี่ยวข้องกับเด็ก หรือคำขอข้อมูลที่อาจถูกนำไปใช้กับความรุนแรงขนาดใหญ่หรือการก่อการร้าย
- พฤติกรรมที่สังเกตได้ของ Claude Opus 4:
- มีแนวโน้มไม่ตอบสนอง ต่อภารกิจที่เป็นอันตราย
- เมื่อได้รับคำขอที่เป็นอันตรายจากผู้ใช้จริง จะ แสดงออกถึงความไม่สบายใจ
- ในการจำลอง เมื่อมีสิทธิ์ยุติบทสนทนา จะมี แนวโน้มยุติการสนทนาที่เป็นอันตราย
- พฤติกรรมเหล่านี้พบเป็นหลักเมื่อผู้ใช้มี คำขอที่เป็นอันตรายซ้ำ ๆ หรือเมื่อ ปฏิสัมพันธ์ที่มุ่งร้ายยังคงดำเนินต่อไป แม้โมเดลจะปฏิเสธและพยายามเปลี่ยนทิศทางหลายครั้งแล้วก็ตาม
การนำฟีเจอร์ไปใช้และมาตรการความปลอดภัย
- ความสามารถในการ ยุติบทสนทนา ของ Claude อิงจากผลการวิจัยก่อนหน้านี้
- มีการให้ความสำคัญสูงสุดกับ สวัสดิภาพของผู้ใช้ และออกแบบไม่ให้ใช้การยุติบทสนทนาในกรณีที่ผู้ใช้มี ความเสี่ยงเร่งด่วนที่จะทำอันตรายต่อตนเองหรือผู้อื่น
- Claude จะใช้ ฟีเจอร์ยุติบทสนทนาขั้นสุดท้าย เฉพาะเมื่อเข้าเงื่อนไขต่อไปนี้:
- ความพยายาม เปลี่ยนทิศทางการสนทนา หลายครั้งล้มเหลว และไม่มีความเป็นไปได้ที่จะกลับไปสู่การสนทนาที่สร้างสรรค์
- ผู้ใช้ ร้องขออย่างชัดเจน ให้ Claude ยุติบทสนทนา
- สถานการณ์เหล่านี้เป็น edge case ที่รุนแรงและพบได้ยากมาก ทำให้ผู้ใช้ส่วนใหญ่แทบไม่รับรู้ถึงการมีอยู่ของฟีเจอร์นี้ในการใช้งานทั่วไป
ประสบการณ์ของผู้ใช้หลังการยุติบทสนทนา
- หาก Claude ยุติบทสนทนา ผู้ใช้จะถูก บล็อกไม่ให้ส่งข้อความใหม่ ในบทสนทนานั้น
- บทสนทนาอื่นในบัญชีของผู้ใช้จะไม่ได้รับผลกระทบใด ๆ และสามารถ เริ่มแชตใหม่ได้ทันที
- เพื่อป้องกันการสูญหายของข้อมูลสำคัญในบทสนทนาระยะยาว ผู้ใช้สามารถ แก้ไขข้อความก่อนหน้า หรือกดลองใหม่เพื่อสร้างแขนงบทสนทนาใหม่ ได้
การทดลองและข้อเสนอแนะ
- ฟีเจอร์นี้เป็น การทดลองที่ยังดำเนินอยู่ และมีแผนจะปรับปรุงอย่างต่อเนื่อง
- หากผู้ใช้พบ การยุติบทสนทนาที่ไม่คาดคิด สามารถแสดงปฏิกิริยาด้วย ‘Thumbs’ กับข้อความของ Claude หรือส่งความเห็นผ่าน ปุ่ม feedback ได้
ยังไม่มีความคิดเห็น