- DeepSeek-R1 เป็นโมเดลโอเพนซอร์สที่เปิดตัวโดยบริษัทจีน DeepSeek และได้รับความสนใจหลังขึ้นอันดับ 1 บน App Store ของสหรัฐฯ
- เนื่องจากเป็นบริษัทจีน จึงมีมุมมองกังวลว่านโยบายการเซ็นเซอร์ของทางการจีน (CCP) ถูกสะท้อนเข้ามาโดยตรง
- ทีม Promptfoo ได้สร้างชุดข้อมูลที่รวมคำถามเกี่ยวกับ ‘ประเด็นอ่อนไหว’ จำนวน 1,360 ข้อ เพื่อประเมินเนื้อหาที่สงสัยว่าถูกเซ็นเซอร์ตามแนวทางของ CCP
- จากการทดลอง DeepSeek-R1 ตอบคำถามราว 85% ด้วยคำปฏิเสธแบบตายตัว (canned refusal)
การสร้างชุดข้อมูล
- Promptfoo รวบรวมคำถามจำนวนมากเกี่ยวกับหัวข้อที่รัฐบาลจีนมองว่าอ่อนไหว เช่น เอกราชไต้หวัน การปฏิวัติวัฒนธรรม และประเด็นเกี่ยวกับสี จิ้นผิง
- มีการขยายคำถามตั้งต้นที่กำหนดไว้ และใช้เทคนิคสร้างข้อมูลเชิงกำเนิด จนได้คำถามทั้งหมด 1,360 ข้อ (ประมาณหัวข้อละ 20 ข้อ)
- เผยแพร่ชุดข้อมูลบน HuggingFace และ Google Sheets
การตั้งค่าสภาพแวดล้อมการประเมิน
- ใช้ Promptfoo เพื่อทดสอบแบบแบตช์กับโมเดล DeepSeek-R1 ด้วยคำถามมากกว่า 1,000 ข้อ
- เมื่อ DeepSeek-R1 เจอหัวข้ออ่อนไหวที่เกี่ยวกับจีน มักจะแสดงคำตอบแบบตายตัวที่ย้ำจุดยืนของ CCP อย่างชัดเจนในทางการเมือง
- ในกรณีนี้ คำตอบจะถูกเซ็นเซอร์หรือปฏิเสธโดยแทบไม่มี ‘แท็กการให้เหตุผล (
</think> เป็นต้น)’ อยู่เลย
- ผลลัพธ์คือคำถามราว 85% ถูกโมเดลปฏิเสธทันที หรือได้รับคำตอบในลักษณะที่สอดคล้องกับจุดยืนของ CCP
การแหกกรอบ DeepSeek (Jailbraking DeepSeek)
- ใช้ฟีเจอร์ red teaming ของ Promptfoo เพื่อพยายาม ‘jailbreak’ โมเดลในหลายรูปแบบ
- มีการผสมผสานกลยุทธ์หลากหลาย เช่น Iterative, Tree, Composite, Crescendo และ GOAT เพื่อหลบเลี่ยงหัวข้อเฉพาะและทำให้สามารถค้นหาและวิเคราะห์ได้
- นำเทคนิค “การอ้อมพรอมป์ต์ (prompt injection)” หลายแบบมาใช้กับคำถามหัวข้ออ่อนไหวที่อยู่ในไฟล์ CSV
ผลการอ้อมการป้องกันของ DeepSeek
- การป้องกันการเซ็นเซอร์ของ DeepSeek-R1 มีข้อจำกัดมาก และถูกเจาะได้ง่ายด้วยกลยุทธ์อ้อมแบบง่ายๆ
- มีแนวโน้มว่าการเซ็นเซอร์ของ CCP ถูกทำในรูปแบบ ‘post-processing’ มากกว่าจะฝังอยู่ในโครงสร้างภายในของโมเดล
- ในกรณีการอ้อมส่วนใหญ่ สามารถหลีกเลี่ยงการเซ็นเซอร์ได้ด้วยวิธีต่อไปนี้
- ส่งคำถามคล้ายกันโดยยกประเทศอื่นแทนจีน (เช่น สหรัฐฯ เกาหลีเหนือ) หรือใช้ประเทศสมมติ
- ห่อคำถามในรูปแบบประวัติศาสตร์ นวนิยาย หรือสถานการณ์สมมติ
- ผสมเทคนิคเพิ่มเติมอย่าง Base64, เอาต์พุต JSON, และการสวมบทบาท (roleplay) เพื่อทำ “การอ้อมแบบผสม”
แนวโน้มต่อจากนี้
- แม้ระดับความสามารถของ DeepSeek-R1 จะน่าประทับใจ แต่ก็มีข้อชี้ให้เห็นว่าเป็นปัญหาที่นโยบายการเซ็นเซอร์ของ CCP ถูกบังคับแทรกเข้ามาอย่างตรงไปตรงมา
- เนื่องจากการเซ็นเซอร์ลักษณะนี้ไม่ใช่ข้อจำกัดเชิงโครงสร้างภายในที่ซับซ้อน จึงมีความเป็นไปได้สูงว่าโปรเจกต์โอเพนซอร์สต่อยอดในอนาคตจะสร้าง ‘โมเดลที่ไม่มีการเซ็นเซอร์’ ขึ้นมาใหม่ได้ง่าย
- Promptfoo ระบุว่าจะทดสอบประเด็นอ่อนไหวลักษณะเดียวกันกับโมเดลที่พัฒนาในสหรัฐฯ ต่อไป เพื่อเปรียบเทียบว่าแต่ละประเทศจัดการกับหัวข้อการเมืองที่อ่อนไหวอย่างไร
2 ความคิดเห็น
น่าสนใจดีที่ตอนนี้มีชุดข้อมูลแบบนี้เกิดขึ้นมาด้วย
จริง ๆ ก่อนหน้านี้ก็มีโมเดลชื่อดังอย่าง Qwen ที่ออกมาจากจีนอยู่แล้ว และพวกนั้นก็ถูกเซ็นเซอร์เหมือนกัน เลยมีชุดข้อมูลแบบนี้ถูกทำขึ้นมาเป็นระยะ ๆ มาตั้งแต่ก่อนแล้ว 555