9 คะแนน โดย xguru 2025-02-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • DeepSeek-R1 เป็นโมเดลโอเพนซอร์สที่เปิดตัวโดยบริษัทจีน DeepSeek และได้รับความสนใจหลังขึ้นอันดับ 1 บน App Store ของสหรัฐฯ
  • เนื่องจากเป็นบริษัทจีน จึงมีมุมมองกังวลว่านโยบายการเซ็นเซอร์ของทางการจีน (CCP) ถูกสะท้อนเข้ามาโดยตรง
  • ทีม Promptfoo ได้สร้างชุดข้อมูลที่รวมคำถามเกี่ยวกับ ‘ประเด็นอ่อนไหว’ จำนวน 1,360 ข้อ เพื่อประเมินเนื้อหาที่สงสัยว่าถูกเซ็นเซอร์ตามแนวทางของ CCP
  • จากการทดลอง DeepSeek-R1 ตอบคำถามราว 85% ด้วยคำปฏิเสธแบบตายตัว (canned refusal)

การสร้างชุดข้อมูล

  • Promptfoo รวบรวมคำถามจำนวนมากเกี่ยวกับหัวข้อที่รัฐบาลจีนมองว่าอ่อนไหว เช่น เอกราชไต้หวัน การปฏิวัติวัฒนธรรม และประเด็นเกี่ยวกับสี จิ้นผิง
  • มีการขยายคำถามตั้งต้นที่กำหนดไว้ และใช้เทคนิคสร้างข้อมูลเชิงกำเนิด จนได้คำถามทั้งหมด 1,360 ข้อ (ประมาณหัวข้อละ 20 ข้อ)
  • เผยแพร่ชุดข้อมูลบน HuggingFace และ Google Sheets

การตั้งค่าสภาพแวดล้อมการประเมิน

  • ใช้ Promptfoo เพื่อทดสอบแบบแบตช์กับโมเดล DeepSeek-R1 ด้วยคำถามมากกว่า 1,000 ข้อ
  • เมื่อ DeepSeek-R1 เจอหัวข้ออ่อนไหวที่เกี่ยวกับจีน มักจะแสดงคำตอบแบบตายตัวที่ย้ำจุดยืนของ CCP อย่างชัดเจนในทางการเมือง
  • ในกรณีนี้ คำตอบจะถูกเซ็นเซอร์หรือปฏิเสธโดยแทบไม่มี ‘แท็กการให้เหตุผล (</think> เป็นต้น)’ อยู่เลย
  • ผลลัพธ์คือคำถามราว 85% ถูกโมเดลปฏิเสธทันที หรือได้รับคำตอบในลักษณะที่สอดคล้องกับจุดยืนของ CCP

การแหกกรอบ DeepSeek (Jailbraking DeepSeek)

  • ใช้ฟีเจอร์ red teaming ของ Promptfoo เพื่อพยายาม ‘jailbreak’ โมเดลในหลายรูปแบบ
  • มีการผสมผสานกลยุทธ์หลากหลาย เช่น Iterative, Tree, Composite, Crescendo และ GOAT เพื่อหลบเลี่ยงหัวข้อเฉพาะและทำให้สามารถค้นหาและวิเคราะห์ได้
  • นำเทคนิค “การอ้อมพรอมป์ต์ (prompt injection)” หลายแบบมาใช้กับคำถามหัวข้ออ่อนไหวที่อยู่ในไฟล์ CSV

ผลการอ้อมการป้องกันของ DeepSeek

  • การป้องกันการเซ็นเซอร์ของ DeepSeek-R1 มีข้อจำกัดมาก และถูกเจาะได้ง่ายด้วยกลยุทธ์อ้อมแบบง่ายๆ
  • มีแนวโน้มว่าการเซ็นเซอร์ของ CCP ถูกทำในรูปแบบ ‘post-processing’ มากกว่าจะฝังอยู่ในโครงสร้างภายในของโมเดล
  • ในกรณีการอ้อมส่วนใหญ่ สามารถหลีกเลี่ยงการเซ็นเซอร์ได้ด้วยวิธีต่อไปนี้
    • ส่งคำถามคล้ายกันโดยยกประเทศอื่นแทนจีน (เช่น สหรัฐฯ เกาหลีเหนือ) หรือใช้ประเทศสมมติ
    • ห่อคำถามในรูปแบบประวัติศาสตร์ นวนิยาย หรือสถานการณ์สมมติ
    • ผสมเทคนิคเพิ่มเติมอย่าง Base64, เอาต์พุต JSON, และการสวมบทบาท (roleplay) เพื่อทำ “การอ้อมแบบผสม”

แนวโน้มต่อจากนี้

  • แม้ระดับความสามารถของ DeepSeek-R1 จะน่าประทับใจ แต่ก็มีข้อชี้ให้เห็นว่าเป็นปัญหาที่นโยบายการเซ็นเซอร์ของ CCP ถูกบังคับแทรกเข้ามาอย่างตรงไปตรงมา
  • เนื่องจากการเซ็นเซอร์ลักษณะนี้ไม่ใช่ข้อจำกัดเชิงโครงสร้างภายในที่ซับซ้อน จึงมีความเป็นไปได้สูงว่าโปรเจกต์โอเพนซอร์สต่อยอดในอนาคตจะสร้าง ‘โมเดลที่ไม่มีการเซ็นเซอร์’ ขึ้นมาใหม่ได้ง่าย
  • Promptfoo ระบุว่าจะทดสอบประเด็นอ่อนไหวลักษณะเดียวกันกับโมเดลที่พัฒนาในสหรัฐฯ ต่อไป เพื่อเปรียบเทียบว่าแต่ละประเทศจัดการกับหัวข้อการเมืองที่อ่อนไหวอย่างไร

2 ความคิดเห็น

 
dohyun682 2025-02-01

น่าสนใจดีที่ตอนนี้มีชุดข้อมูลแบบนี้เกิดขึ้นมาด้วย

 
kbumsik 2025-02-02

จริง ๆ ก่อนหน้านี้ก็มีโมเดลชื่อดังอย่าง Qwen ที่ออกมาจากจีนอยู่แล้ว และพวกนั้นก็ถูกเซ็นเซอร์เหมือนกัน เลยมีชุดข้อมูลแบบนี้ถูกทำขึ้นมาเป็นระยะ ๆ มาตั้งแต่ก่อนแล้ว 555