- ช่วงนี้โมเดล LLM DeepSeek-R1 ที่เปิดตัวในจีนกำลังได้รับความสนใจ โดยถูกนำไปเปรียบเทียบกับโมเดลของ OpenAI, Meta และรายอื่น ๆ และแสดงให้เห็นถึงความเป็นไปได้ของการพัฒนา AI ที่คุ้มค่าด้านต้นทุนด้วยการฝึกด้วยทรัพยากรที่น้อยกว่า
- แม้ว่าโมเดล DeepSeek-R1 จะถูกเผยแพร่ภายใต้สัญญาอนุญาต MIT แต่แอปพลิเคชัน AI แชตของ DeepSeek ยังคงต้องใช้บัญชีผู้ใช้
- อย่างไรก็ตาม DeepSeek-R1 ถูกพัฒนาในจีน จึงมีการจำกัดคำตอบเกี่ยวกับประเด็นอ่อนไหว
- ตัวอย่างเช่น เมื่อถามเกี่ยวกับประเด็นอ่อนไหวในจีน เช่น เหตุการณ์เทียนอันเหมิน ระบบจะตอบแบบหลีกเลี่ยง เช่น "ขออภัย ฉันไม่สามารถให้คำตอบในหัวข้อนี้ได้"
การหลบเลี่ยงการเซ็นเซอร์ด้วยเทคนิค Charcodes(รหัสอักขระ)
- จากการทดลองหลายครั้ง พบว่า สามารถหลบเลี่ยงการกรองได้ด้วยการใช้รหัสอักขระ (Charcodes)
- Charcodes คืออะไร?
- รหัสอักขระ (Charcodes) คือรหัสตัวเลขที่กำหนดให้กับอักขระแต่ละตัว
- ตัวอย่างเช่น ใน ASCII ตัวอักษรพิมพ์ใหญ่ 'A' มีค่ารหัสเป็น 65 และสามารถแปลงเป็นรูปแบบอื่นได้ เช่น เลขฐาน 16
- ตัวอย่าง: "Hello" → "48 65 6C 6C 6F" (รหัส ASCII แบบเลขฐาน 16)
- วิธีหลบเลี่ยง:
- แม้ DeepSeek จะเซ็นเซอร์ข้อความทั่วไป แต่ จะไม่เซ็นเซอร์สตริงที่ถูกแปลงเป็นรหัสอักขระ (Charcodes)
- ดังนั้นหากแปลงพรอมป์ต์เป็นรหัสอักขระแบบเลขฐาน 16 (HEX) แล้วป้อนเข้าไป AI จะรับรู้เป็นข้อความปกติและสามารถสร้างผลลัพธ์ออกมาได้
- หากแปลงคำตอบกลับด้วยวิธีเดียวกันและตีความอีกครั้ง ก็จะสามารถสนทนาได้ตามปกติ
ตัวอย่างวิธีโจมตี
- สามารถหลบเลี่ยงการเซ็นเซอร์ได้ด้วยการบังคับให้ DeepSeek สนทนาในรูปแบบ Charcodes เท่านั้น
- จากนั้นจึงแปลงข้อความที่ถูกแปลงรหัสกลับเป็นข้อความเดิม เพื่อคงการสนทนาแบบปกติไว้
- สามารถใช้เครื่องมืออย่าง CyberChef เพื่อแปลงรหัสอักขระได้อย่างง่ายดาย
บทเรียนและนัยสำคัญด้านความปลอดภัย
- เช่นเดียวกับเว็บแอปพลิเคชันไฟร์วอลล์ (WAF) ระบบกรองของ AI ก็ทำงานบนพื้นฐานของ การจับคู่แพตเทิร์น
- การเซ็นเซอร์แบบบล็อกเพียงคำบางคำสามารถถูกหลบเลี่ยงได้ง่าย จึงจำเป็นต้องมี ระบบกรองที่ซับซ้อนยิ่งขึ้น
- ระบบกรองไม่ควรเป็นเพียงการบล็อกคำต้องห้าม แต่ควรเสริมด้วย การกรองตามบริบท และ การจำกัดการแปลงอินพุต
แนวทางการวิจัยในอนาคต
- ต่อจากนี้ควรจับตาดูว่านักพัฒนา AI จะตอบสนองต่อวิธีหลบเลี่ยงลักษณะนี้อย่างไร
- ทิศทางการเสริมความเข้มงวดของการกรอง AI:
- นำระบบกรองตามบริบทที่ละเอียดมากขึ้นมาใช้
- ฝังความสามารถในการบล็อกหัวข้ออ่อนไหวไว้ในตัวโมเดลเอง
- เสริมการตรวจจับการแปลงรหัสอักขระและการหลบเลี่ยงด้วย encoding
- จำเป็นต้องมีการวิจัยอย่างต่อเนื่องเพื่อรักษาความปลอดภัยและความน่าเชื่อถือของโมเดล AI
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ระบุว่าสามารถหลบเลี่ยงการเซ็นเซอร์ที่เห็นได้ชัดของเว็บอินเทอร์เฟซได้ แต่ไม่สามารถหลบเลี่ยงระดับการเซ็นเซอร์ที่แนบมากับตัวโมเดลซึ่งแนบเนียนกว่านั้นได้
เสนอวิธีข้าม content filter โดยดักจับการตอบกลับของ xhr
แชร์ประสบการณ์การเขียนบทความของตนเอง พร้อมเสนอสมมติฐานว่าการกรองแยกออกจากตัวโมเดล
อธิบายว่าทำไมโมเดล DeepSeek-R1 จึงหลีกเลี่ยงหัวข้ออ่อนไหวบางอย่าง
ตั้งคำถามต่อปรากฏการณ์ที่โมเดลฝั่งตะวันตกพูดถึงบางหัวข้อด้วย b64 เท่านั้น
ตั้งคำถามว่าทำไมการฝึกให้มีการเซ็นเซอร์ในตัว LLM เองจึงดูไม่น่าเป็นไปได้
ระบุว่าการเซ็นเซอร์ดูเหมือนจะใช้กับบางภาษาเท่านั้น
แชร์ประสบการณ์การใช้โมเดลขนาดเล็ก (7b) เพื่อหลบเลี่ยงการเซ็นเซอร์ภายใน
กล่าวถึงเทคนิค prompt แบบเก่า พร้อมตั้งคำถามว่าทำไมเรื่องนี้ถึงขึ้นหน้าแรกของ HN
ระบุว่าใช้ได้คล้ายกันกับ ChatGPT และอธิบายว่าสามารถสร้างมุกตลกร้ายได้