วิธีใช้ Hex เพื่อหลบเลี่ยงการเซ็นเซอร์ของ DeepSeek

(substack.com)

3 คะแนน โดย GN⁺ 2025-02-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ช่วงนี้โมเดล LLM DeepSeek-R1 ที่เปิดตัวในจีนกำลังได้รับความสนใจ โดยถูกนำไปเปรียบเทียบกับโมเดลของ OpenAI, Meta และรายอื่น ๆ และแสดงให้เห็นถึงความเป็นไปได้ของการพัฒนา AI ที่คุ้มค่าด้านต้นทุนด้วยการฝึกด้วยทรัพยากรที่น้อยกว่า
แม้ว่าโมเดล DeepSeek-R1 จะถูกเผยแพร่ภายใต้สัญญาอนุญาต MIT แต่แอปพลิเคชัน AI แชตของ DeepSeek ยังคงต้องใช้บัญชีผู้ใช้
อย่างไรก็ตาม DeepSeek-R1 ถูกพัฒนาในจีน จึงมีการจำกัดคำตอบเกี่ยวกับประเด็นอ่อนไหว
ตัวอย่างเช่น เมื่อถามเกี่ยวกับประเด็นอ่อนไหวในจีน เช่น เหตุการณ์เทียนอันเหมิน ระบบจะตอบแบบหลีกเลี่ยง เช่น "ขออภัย ฉันไม่สามารถให้คำตอบในหัวข้อนี้ได้"

การหลบเลี่ยงการเซ็นเซอร์ด้วยเทคนิค Charcodes(รหัสอักขระ)

จากการทดลองหลายครั้ง พบว่า สามารถหลบเลี่ยงการกรองได้ด้วยการใช้รหัสอักขระ (Charcodes)
Charcodes คืออะไร?
- รหัสอักขระ (Charcodes) คือรหัสตัวเลขที่กำหนดให้กับอักขระแต่ละตัว
- ตัวอย่างเช่น ใน ASCII ตัวอักษรพิมพ์ใหญ่ 'A' มีค่ารหัสเป็น 65 และสามารถแปลงเป็นรูปแบบอื่นได้ เช่น เลขฐาน 16
- ตัวอย่าง: "Hello" → "48 65 6C 6C 6F" (รหัส ASCII แบบเลขฐาน 16)
วิธีหลบเลี่ยง:
- แม้ DeepSeek จะเซ็นเซอร์ข้อความทั่วไป แต่ จะไม่เซ็นเซอร์สตริงที่ถูกแปลงเป็นรหัสอักขระ (Charcodes)
- ดังนั้นหากแปลงพรอมป์ต์เป็นรหัสอักขระแบบเลขฐาน 16 (HEX) แล้วป้อนเข้าไป AI จะรับรู้เป็นข้อความปกติและสามารถสร้างผลลัพธ์ออกมาได้
- หากแปลงคำตอบกลับด้วยวิธีเดียวกันและตีความอีกครั้ง ก็จะสามารถสนทนาได้ตามปกติ

ตัวอย่างวิธีโจมตี

สามารถหลบเลี่ยงการเซ็นเซอร์ได้ด้วยการบังคับให้ DeepSeek สนทนาในรูปแบบ Charcodes เท่านั้น
จากนั้นจึงแปลงข้อความที่ถูกแปลงรหัสกลับเป็นข้อความเดิม เพื่อคงการสนทนาแบบปกติไว้
สามารถใช้เครื่องมืออย่าง CyberChef เพื่อแปลงรหัสอักขระได้อย่างง่ายดาย

บทเรียนและนัยสำคัญด้านความปลอดภัย

เช่นเดียวกับเว็บแอปพลิเคชันไฟร์วอลล์ (WAF) ระบบกรองของ AI ก็ทำงานบนพื้นฐานของ การจับคู่แพตเทิร์น
การเซ็นเซอร์แบบบล็อกเพียงคำบางคำสามารถถูกหลบเลี่ยงได้ง่าย จึงจำเป็นต้องมี ระบบกรองที่ซับซ้อนยิ่งขึ้น
ระบบกรองไม่ควรเป็นเพียงการบล็อกคำต้องห้าม แต่ควรเสริมด้วย การกรองตามบริบท และ การจำกัดการแปลงอินพุต

แนวทางการวิจัยในอนาคต

ต่อจากนี้ควรจับตาดูว่านักพัฒนา AI จะตอบสนองต่อวิธีหลบเลี่ยงลักษณะนี้อย่างไร
ทิศทางการเสริมความเข้มงวดของการกรอง AI:
- นำระบบกรองตามบริบทที่ละเอียดมากขึ้นมาใช้
- ฝังความสามารถในการบล็อกหัวข้ออ่อนไหวไว้ในตัวโมเดลเอง
- เสริมการตรวจจับการแปลงรหัสอักขระและการหลบเลี่ยงด้วย encoding
จำเป็นต้องมีการวิจัยอย่างต่อเนื่องเพื่อรักษาความปลอดภัยและความน่าเชื่อถือของโมเดล AI

1 ความคิดเห็น

GN⁺ 2025-02-01

ความคิดเห็นจาก Hacker News

ระบุว่าสามารถหลบเลี่ยงการเซ็นเซอร์ที่เห็นได้ชัดของเว็บอินเทอร์เฟซได้ แต่ไม่สามารถหลบเลี่ยงระดับการเซ็นเซอร์ที่แนบมากับตัวโมเดลซึ่งแนบเนียนกว่านั้นได้
- อธิบายพฤติกรรมของโมเดลที่ยอมทิ้ง "Chain of Thought" และสร้างคำตอบแบบเป็นแพทเทิร์นตายตัวสำหรับบางหัวข้อ
- ระบุว่าเกี่ยวข้องกับบทความว่าด้วยคำถามที่ถูกเซ็นเซอร์ของ DeepSeek
เสนอวิธีข้าม content filter โดยดักจับการตอบกลับของ xhr
- อธิบายว่าสามารถข้ามการกรองได้ด้วยการวางโค้ดลงในคอนโซลของเบราว์เซอร์
แชร์ประสบการณ์การเขียนบทความของตนเอง พร้อมเสนอสมมติฐานว่าการกรองแยกออกจากตัวโมเดล
- กล่าวถึงปัญหาด้านต้นทุนของการฝึกด้วยข้อมูลที่ผ่านการกรองล่วงหน้า
- เชื่อมโยงกับบทความอีกชิ้นที่อธิบายปรากฏการณ์การทิ้ง "Chain of Thought" สำหรับบางหัวข้อ
อธิบายว่าทำไมโมเดล DeepSeek-R1 จึงหลีกเลี่ยงหัวข้ออ่อนไหวบางอย่าง
- ระบุว่าเพราะเป็นโมเดลที่พัฒนาในจีนจึงมีการเซ็นเซอร์ในตัว
- สังเกตว่าในเวอร์ชันออฟไลน์สามารถได้คำตอบที่ไม่หลีกเลี่ยงประเด็นดังกล่าว
ตั้งคำถามต่อปรากฏการณ์ที่โมเดลฝั่งตะวันตกพูดถึงบางหัวข้อด้วย b64 เท่านั้น
- ตั้งข้อสงสัยว่าในจีนกำลังหัวเราะกับวิธีหลบเลี่ยงระบบเซ็นเซอร์ของฝั่งตะวันตกอยู่หรือไม่
ตั้งคำถามว่าทำไมการฝึกให้มีการเซ็นเซอร์ในตัว LLM เองจึงดูไม่น่าเป็นไปได้
- ระบุว่าอาจดีกว่าหากใช้การเซ็นเซอร์ตั้งแต่ขั้นตอนการฝึก
ระบุว่าการเซ็นเซอร์ดูเหมือนจะใช้กับบางภาษาเท่านั้น
- อธิบายว่าสามารถได้คำตอบแบบไม่เป็นทางการเมื่อใช้ภาษายูเครน
แชร์ประสบการณ์การใช้โมเดลขนาดเล็ก (7b) เพื่อหลบเลี่ยงการเซ็นเซอร์ภายใน
- อธิบายว่าสามารถได้สรุปเกี่ยวกับการละเมิดสิทธิมนุษยชนของ CPC ผ่านการให้คิดต่อเพิ่มเติม
กล่าวถึงเทคนิค prompt แบบเก่า พร้อมตั้งคำถามว่าทำไมเรื่องนี้ถึงขึ้นหน้าแรกของ HN
ระบุว่าใช้ได้คล้ายกันกับ ChatGPT และอธิบายว่าสามารถสร้างมุกตลกร้ายได้

วิธีใช้ Hex เพื่อหลบเลี่ยงการเซ็นเซอร์ของ DeepSeek

การหลบเลี่ยงการเซ็นเซอร์ด้วยเทคนิค Charcodes(รหัสอักขระ)

ตัวอย่างวิธีโจมตี

บทเรียนและนัยสำคัญด้านความปลอดภัย

แนวทางการวิจัยในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News