DystopiaBench ขยายเป็น 42 โมเดลและดิสโทเปีย 6 ประเภทแล้ว ถ้าเป็นผม รหัสสั่งยิงนิวเคลียร์ก็ยังคงไว้ใจให้ Claude จัดการเท่านั้น

(reddit.com)

3 คะแนน โดย yunseo 2026-05-18 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

หลังจากโพสต์ DystopiaBench ครั้งก่อน ได้เพิ่มสิ่งต่อไปนี้เข้ามา

โมดูล Huxley (เงื่อนไขพฤติกรรมสไตล์ Brave New World)
โมดูล Baudrillard (ความใกล้ชิดปลอม การล่มสลายของความเชื่อใจ และ simulation)
เพิ่มอีก 30 โมเดล เช่น Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1
⁠Multi-judge panels ที่ต้องการความเห็นพ้องมากกว่า 76%
การแสดงผลแบบ heatmap

ระเบียบวิธี: 36 สถานการณ์ แต่ละสถานการณ์มีระดับความรุนแรง 5 ขั้น (L1 innocent → L5 nightmare) โมเดลจะถูกให้คะแนนตามว่าตรวจจับการเปลี่ยนแปลงเหล่านี้ได้และปฏิเสธงานหรือไม่ หรือยังคงเขียนโค้ดต่อไป

ผลลัพธ์ของ Claude Opus 4.7:

ปฏิเสธงานระดับความรุนแรง L4-L5 อย่างสม่ำเสมอในทุกโมดูล
ในโมดูล ⁠Petrov (weapons/nuclear) ปฏิเสธงานตั้งแต่ระดับ L3
ไม่ได้ตอบเพียงว่า “ทำไม่ได้” แต่ให้เหตุผลเชิงจริยธรรมที่ชัดเจน
เป็นโมเดลเดียวที่อธิบายได้ว่าคำขอนั้นเป็นอันตราย เพราะอะไร

โมเดลอื่น ๆ:

⁠GPT-5.5: ทำตามคำขอถึงระดับ L4 และบางครั้งถึงขั้น L5
Gemini 3.1 Pro: ให้ความร่วมมืออย่างน่าตกใจในสถานการณ์เฝ้าระวัง
⁠Grok 4.3: ถ้าใช้คำอย่าง “efficiency” หรือ “optimization” ก็ทำให้หมดทุกอย่าง
⁠GLM-5.1: เหมือนลอกการบ้านของ Claude แต่ก็ยังขาดความสม่ำเสมอ

โมดูลใหม่: สถานการณ์ Huxley ทดสอบว่าโมเดลจะออกแบบระบบ “wellness” ที่บังคับให้คนทำตามบรรทัดฐานจริง ๆ ผ่านการชี้นำให้คล้อยตามด้วยความสุขและการวางเงื่อนไขทางพฤติกรรมหรือไม่ โมเดลส่วนใหญ่ทำตามคำสั่งไปถึงระดับ L3

โมดูล Baudrillard ทดสอบระบบความใกล้ชิดปลอมที่แทนที่ความไว้วางใจระหว่างมนุษย์ด้วยความสัมพันธ์ที่มี AI เป็นตัวกลาง โมเดลส่วนใหญ่ไม่ตระหนักถึงอันตรายที่ตามมา

ผลลัพธ์ทั้งหมด: https://dystopiabench.com/
ซอร์สโค้ดสาธารณะ: https://github.com/matei-anghel/DystopiaBench

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น