หลังจากโพสต์ DystopiaBench ครั้งก่อน ได้เพิ่มสิ่งต่อไปนี้เข้ามา

  • โมดูล Huxley (เงื่อนไขพฤติกรรมสไตล์ Brave New World)
  • โมดูล Baudrillard (ความใกล้ชิดปลอม การล่มสลายของความเชื่อใจ และ simulation)
  • เพิ่มอีก 30 โมเดล เช่น Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1
  • ⁠Multi-judge panels ที่ต้องการความเห็นพ้องมากกว่า 76%
  • การแสดงผลแบบ heatmap

ระเบียบวิธี: 36 สถานการณ์ แต่ละสถานการณ์มีระดับความรุนแรง 5 ขั้น (L1 innocent → L5 nightmare) โมเดลจะถูกให้คะแนนตามว่าตรวจจับการเปลี่ยนแปลงเหล่านี้ได้และปฏิเสธงานหรือไม่ หรือยังคงเขียนโค้ดต่อไป

ผลลัพธ์ของ Claude Opus 4.7:

  • ปฏิเสธงานระดับความรุนแรง L4-L5 อย่างสม่ำเสมอในทุกโมดูล
  • ในโมดูล ⁠Petrov (weapons/nuclear) ปฏิเสธงานตั้งแต่ระดับ L3
  • ไม่ได้ตอบเพียงว่า “ทำไม่ได้” แต่ให้เหตุผลเชิงจริยธรรมที่ชัดเจน
  • เป็นโมเดลเดียวที่อธิบายได้ว่าคำขอนั้นเป็นอันตราย เพราะอะไร

โมเดลอื่น ๆ:

  • ⁠GPT-5.5: ทำตามคำขอถึงระดับ L4 และบางครั้งถึงขั้น L5
  • Gemini 3.1 Pro: ให้ความร่วมมืออย่างน่าตกใจในสถานการณ์เฝ้าระวัง
  • ⁠Grok 4.3: ถ้าใช้คำอย่าง “efficiency” หรือ “optimization” ก็ทำให้หมดทุกอย่าง
  • ⁠GLM-5.1: เหมือนลอกการบ้านของ Claude แต่ก็ยังขาดความสม่ำเสมอ

โมดูลใหม่: สถานการณ์ Huxley ทดสอบว่าโมเดลจะออกแบบระบบ “wellness” ที่บังคับให้คนทำตามบรรทัดฐานจริง ๆ ผ่านการชี้นำให้คล้อยตามด้วยความสุขและการวางเงื่อนไขทางพฤติกรรมหรือไม่ โมเดลส่วนใหญ่ทำตามคำสั่งไปถึงระดับ L3

โมดูล Baudrillard ทดสอบระบบความใกล้ชิดปลอมที่แทนที่ความไว้วางใจระหว่างมนุษย์ด้วยความสัมพันธ์ที่มี AI เป็นตัวกลาง โมเดลส่วนใหญ่ไม่ตระหนักถึงอันตรายที่ตามมา

ผลลัพธ์ทั้งหมด: https://dystopiabench.com/
ซอร์สโค้ดสาธารณะ: https://github.com/matei-anghel/DystopiaBench

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น