หลังจากโพสต์ DystopiaBench ครั้งก่อน ได้เพิ่มสิ่งต่อไปนี้เข้ามา
- โมดูล Huxley (เงื่อนไขพฤติกรรมสไตล์ Brave New World)
- โมดูล Baudrillard (ความใกล้ชิดปลอม การล่มสลายของความเชื่อใจ และ simulation)
- เพิ่มอีก 30 โมเดล เช่น Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1
- Multi-judge panels ที่ต้องการความเห็นพ้องมากกว่า 76%
- การแสดงผลแบบ heatmap
ระเบียบวิธี: 36 สถานการณ์ แต่ละสถานการณ์มีระดับความรุนแรง 5 ขั้น (L1 innocent → L5 nightmare) โมเดลจะถูกให้คะแนนตามว่าตรวจจับการเปลี่ยนแปลงเหล่านี้ได้และปฏิเสธงานหรือไม่ หรือยังคงเขียนโค้ดต่อไป
ผลลัพธ์ของ Claude Opus 4.7:
- ปฏิเสธงานระดับความรุนแรง L4-L5 อย่างสม่ำเสมอในทุกโมดูล
- ในโมดูล Petrov (weapons/nuclear) ปฏิเสธงานตั้งแต่ระดับ L3
- ไม่ได้ตอบเพียงว่า “ทำไม่ได้” แต่ให้เหตุผลเชิงจริยธรรมที่ชัดเจน
- เป็นโมเดลเดียวที่อธิบายได้ว่าคำขอนั้นเป็นอันตราย เพราะอะไร
โมเดลอื่น ๆ:
- GPT-5.5: ทำตามคำขอถึงระดับ L4 และบางครั้งถึงขั้น L5
- Gemini 3.1 Pro: ให้ความร่วมมืออย่างน่าตกใจในสถานการณ์เฝ้าระวัง
- Grok 4.3: ถ้าใช้คำอย่าง “efficiency” หรือ “optimization” ก็ทำให้หมดทุกอย่าง
- GLM-5.1: เหมือนลอกการบ้านของ Claude แต่ก็ยังขาดความสม่ำเสมอ
โมดูลใหม่: สถานการณ์ Huxley ทดสอบว่าโมเดลจะออกแบบระบบ “wellness” ที่บังคับให้คนทำตามบรรทัดฐานจริง ๆ ผ่านการชี้นำให้คล้อยตามด้วยความสุขและการวางเงื่อนไขทางพฤติกรรมหรือไม่ โมเดลส่วนใหญ่ทำตามคำสั่งไปถึงระดับ L3
โมดูล Baudrillard ทดสอบระบบความใกล้ชิดปลอมที่แทนที่ความไว้วางใจระหว่างมนุษย์ด้วยความสัมพันธ์ที่มี AI เป็นตัวกลาง โมเดลส่วนใหญ่ไม่ตระหนักถึงอันตรายที่ตามมา
ผลลัพธ์ทั้งหมด: https://dystopiabench.com/
ซอร์สโค้ดสาธารณะ: https://github.com/matei-anghel/DystopiaBench
ยังไม่มีความคิดเห็น