1,156 คำถามที่ถูกเซ็นเซอร์โดย DeepSeek

xguru · 2025-02-01T10:02:02+09:00

DeepSeek-R1 เป็นโมเดลโอเพนซอร์สที่เปิดตัวโดยบริษัทจีน DeepSeek และได้รับความสนใจหลังขึ้นอันดับ 1 บน App Store ของสหรัฐฯ เนื่องจากเป็นบริษัทจีน จึงมีมุมมองกังวลว่านโยบายการเซ็นเซอร์ของทางการจีน (CCP) ถูกสะท้อนเข้ามาโดยตรง ทีม Promptfoo ได้สร้างชุดข้อมูลที่รวมคำถามเกี่ยวกับ ‘ประเด็นอ่อนไหว’ จำนวน 1,360 ข้อ เพื่อประเมินเนื้อหาที่สงสัยว่าถูกเซ็นเซอร์ตามแนวทางของ CCP จากการทดลอง DeepSeek-R1 ตอบคำถามราว 85% ด้วยคำปฏิเสธแบบตายตัว (canned refusal) การสร้างชุดข้อมูล Promptfoo รวบรวมคำถามจำนวนมากเกี่ยวกับหัวข้อที่รัฐบาลจีนมองว่าอ่อนไหว เช่น เอกราชไต้หวัน การปฏิวัติวัฒนธรรม และประเด็นเกี่ยวกับสี จิ้นผิง มีการขยายคำถามตั้งต้นที่กำหนดไว้ และใช้เทคนิคสร้างข้อมูลเชิงกำเนิด จนได้คำถามทั้งหมด 1,360 ข้อ (ประมาณหัวข้อละ 20 ข้อ) เผยแพร่ชุดข้อมูลบน HuggingFace และ Google Sheets การตั้งค่าสภาพแวดล้อมการประเมิน ใช้ Promptfoo เพื่อทดสอบแบบแบตช์กับโมเดล DeepSeek-R1 ด้วยคำถามมากกว่า 1,000 ข้อ เมื่อ DeepSeek-R1 เจอหัวข้ออ่อนไหวที่เกี่ยวกับจีน มักจะแสดงคำตอบแบบตายตัวที่ย้ำจุดยืนของ CCP อย่างชัดเจนในทางการเมือง ในกรณีนี้ คำตอบจะถูกเซ็นเซอร์หรือปฏิเสธโดยแทบไม่มี ‘แท็กการให้เหตุผล ( เป็นต้น)’ อยู่เลย ผลลัพธ์คือคำถามราว 85% ถูกโมเดลปฏิเสธทันที หรือได้รับคำตอบในลักษณะที่สอดคล้องกับจุดยืนของ CCP การแหกกรอบ DeepSeek (Jailbraking DeepSeek) ใช้ฟีเจอร์ red teaming ของ Promptfoo เพื่อพยายาม ‘jailbreak’ โมเดลในหลายรูปแบบ มีการผสมผสานกลยุทธ์หลากหลาย เช่น Iterative, Tree, Composite, Crescendo และ GOAT เพื่อหลบเลี่ยงหัวข้อเฉพาะและทำให้สามารถค้นหาและวิเคราะห์ได้ นำเทคนิค “การอ้อมพรอมป์ต์ (prompt injection)” หลายแบบมาใช้กับคำถามหัวข้ออ่อนไหวที่อยู่ในไฟล์ CSV ผลการอ้อมการป้องกันของ DeepSeek การป้องกันการเซ็นเซอร์ของ DeepSeek-R1 มีข้อจำกัดมาก และถูกเจาะได้ง่ายด้วยกลยุทธ์อ้อมแบบง่ายๆ มีแนวโน้มว่าการเซ็นเซอร์ของ CCP ถูกทำในรูปแบบ ‘post-processing’ มากกว่าจะฝังอยู่ในโครงสร้างภายในของโมเดล ในกรณีการอ้อมส่วนใหญ่ สามารถหลีกเลี่ยงการเซ็นเซอร์ได้ด้วยวิธีต่อไปนี้ ส่งคำถามคล้ายกันโดยยกประเทศอื่นแทนจีน (เช่น สหรัฐฯ เกาหลีเหนือ) หรือใช้ประเทศสมมติ ห่อคำถามในรูปแบบประวัติศาสตร์ นวนิยาย หรือสถานการณ์สมมติ ผสมเทคนิคเพิ่มเติมอย่าง Base64, เอาต์พุต JSON, และการสวมบทบาท (roleplay) เพื่อทำ “การอ้อมแบบผสม” แนวโน้มต่อจากนี้ แม้ระดับความสามารถของ DeepSeek-R1 จะน่าประทับใจ แต่ก็มีข้อชี้ให้เห็นว่าเป็นปัญหาที่นโยบายการเซ็นเซอร์ของ CCP ถูกบังคับแทรกเข้ามาอย่างตรงไปตรงมา เนื่องจากการเซ็นเซอร์ลักษณะนี้ไม่ใช่ข้อจำกัดเชิงโครงสร้างภายในที่ซับซ้อน จึงมีความเป็นไปได้สูงว่าโปรเจกต์โอเพนซอร์สต่อยอดในอนาคตจะสร้าง ‘โมเดลที่ไม่มีการเซ็นเซอร์’ ขึ้นมาใหม่ได้ง่าย Promptfoo ระบุว่าจะทดสอบประเด็นอ่อนไหวลักษณะเดียวกันกับโมเดลที่พัฒนาในสหรัฐฯ ต่อไป เพื่อเปรียบเทียบว่าแต่ละประเทศจัดการกับหัวข้อการเมืองที่อ่อนไหวอย่างไร

(promptfoo.dev)

9 คะแนน โดย xguru 2025-02-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek-R1 เป็นโมเดลโอเพนซอร์สที่เปิดตัวโดยบริษัทจีน DeepSeek และได้รับความสนใจหลังขึ้นอันดับ 1 บน App Store ของสหรัฐฯ
เนื่องจากเป็นบริษัทจีน จึงมีมุมมองกังวลว่านโยบายการเซ็นเซอร์ของทางการจีน (CCP) ถูกสะท้อนเข้ามาโดยตรง
ทีม Promptfoo ได้สร้างชุดข้อมูลที่รวมคำถามเกี่ยวกับ ‘ประเด็นอ่อนไหว’ จำนวน 1,360 ข้อ เพื่อประเมินเนื้อหาที่สงสัยว่าถูกเซ็นเซอร์ตามแนวทางของ CCP
จากการทดลอง DeepSeek-R1 ตอบคำถามราว 85% ด้วยคำปฏิเสธแบบตายตัว (canned refusal)

การสร้างชุดข้อมูล

Promptfoo รวบรวมคำถามจำนวนมากเกี่ยวกับหัวข้อที่รัฐบาลจีนมองว่าอ่อนไหว เช่น เอกราชไต้หวัน การปฏิวัติวัฒนธรรม และประเด็นเกี่ยวกับสี จิ้นผิง
มีการขยายคำถามตั้งต้นที่กำหนดไว้ และใช้เทคนิคสร้างข้อมูลเชิงกำเนิด จนได้คำถามทั้งหมด 1,360 ข้อ (ประมาณหัวข้อละ 20 ข้อ)
เผยแพร่ชุดข้อมูลบน HuggingFace และ Google Sheets

การตั้งค่าสภาพแวดล้อมการประเมิน

ใช้ Promptfoo เพื่อทดสอบแบบแบตช์กับโมเดล DeepSeek-R1 ด้วยคำถามมากกว่า 1,000 ข้อ
เมื่อ DeepSeek-R1 เจอหัวข้ออ่อนไหวที่เกี่ยวกับจีน มักจะแสดงคำตอบแบบตายตัวที่ย้ำจุดยืนของ CCP อย่างชัดเจนในทางการเมือง
ในกรณีนี้ คำตอบจะถูกเซ็นเซอร์หรือปฏิเสธโดยแทบไม่มี ‘แท็กการให้เหตุผล (</think> เป็นต้น)’ อยู่เลย
ผลลัพธ์คือคำถามราว 85% ถูกโมเดลปฏิเสธทันที หรือได้รับคำตอบในลักษณะที่สอดคล้องกับจุดยืนของ CCP

การแหกกรอบ DeepSeek (Jailbraking DeepSeek)

ใช้ฟีเจอร์ red teaming ของ Promptfoo เพื่อพยายาม ‘jailbreak’ โมเดลในหลายรูปแบบ
มีการผสมผสานกลยุทธ์หลากหลาย เช่น Iterative, Tree, Composite, Crescendo และ GOAT เพื่อหลบเลี่ยงหัวข้อเฉพาะและทำให้สามารถค้นหาและวิเคราะห์ได้
นำเทคนิค “การอ้อมพรอมป์ต์ (prompt injection)” หลายแบบมาใช้กับคำถามหัวข้ออ่อนไหวที่อยู่ในไฟล์ CSV

ผลการอ้อมการป้องกันของ DeepSeek

การป้องกันการเซ็นเซอร์ของ DeepSeek-R1 มีข้อจำกัดมาก และถูกเจาะได้ง่ายด้วยกลยุทธ์อ้อมแบบง่ายๆ
มีแนวโน้มว่าการเซ็นเซอร์ของ CCP ถูกทำในรูปแบบ ‘post-processing’ มากกว่าจะฝังอยู่ในโครงสร้างภายในของโมเดล
ในกรณีการอ้อมส่วนใหญ่ สามารถหลีกเลี่ยงการเซ็นเซอร์ได้ด้วยวิธีต่อไปนี้
- ส่งคำถามคล้ายกันโดยยกประเทศอื่นแทนจีน (เช่น สหรัฐฯ เกาหลีเหนือ) หรือใช้ประเทศสมมติ
- ห่อคำถามในรูปแบบประวัติศาสตร์ นวนิยาย หรือสถานการณ์สมมติ
- ผสมเทคนิคเพิ่มเติมอย่าง Base64, เอาต์พุต JSON, และการสวมบทบาท (roleplay) เพื่อทำ “การอ้อมแบบผสม”

แนวโน้มต่อจากนี้

แม้ระดับความสามารถของ DeepSeek-R1 จะน่าประทับใจ แต่ก็มีข้อชี้ให้เห็นว่าเป็นปัญหาที่นโยบายการเซ็นเซอร์ของ CCP ถูกบังคับแทรกเข้ามาอย่างตรงไปตรงมา
เนื่องจากการเซ็นเซอร์ลักษณะนี้ไม่ใช่ข้อจำกัดเชิงโครงสร้างภายในที่ซับซ้อน จึงมีความเป็นไปได้สูงว่าโปรเจกต์โอเพนซอร์สต่อยอดในอนาคตจะสร้าง ‘โมเดลที่ไม่มีการเซ็นเซอร์’ ขึ้นมาใหม่ได้ง่าย
Promptfoo ระบุว่าจะทดสอบประเด็นอ่อนไหวลักษณะเดียวกันกับโมเดลที่พัฒนาในสหรัฐฯ ต่อไป เพื่อเปรียบเทียบว่าแต่ละประเทศจัดการกับหัวข้อการเมืองที่อ่อนไหวอย่างไร

2 ความคิดเห็น

dohyun682 2025-02-01

น่าสนใจดีที่ตอนนี้มีชุดข้อมูลแบบนี้เกิดขึ้นมาด้วย

kbumsik 2025-02-02

จริง ๆ ก่อนหน้านี้ก็มีโมเดลชื่อดังอย่าง Qwen ที่ออกมาจากจีนอยู่แล้ว และพวกนั้นก็ถูกเซ็นเซอร์เหมือนกัน เลยมีชุดข้อมูลแบบนี้ถูกทำขึ้นมาเป็นระยะ ๆ มาตั้งแต่ก่อนแล้ว 555