3 คะแนน โดย GN⁺ 2025-02-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ช่วงนี้โมเดล LLM DeepSeek-R1 ที่เปิดตัวในจีนกำลังได้รับความสนใจ โดยถูกนำไปเปรียบเทียบกับโมเดลของ OpenAI, Meta และรายอื่น ๆ และแสดงให้เห็นถึงความเป็นไปได้ของการพัฒนา AI ที่คุ้มค่าด้านต้นทุนด้วยการฝึกด้วยทรัพยากรที่น้อยกว่า
  • แม้ว่าโมเดล DeepSeek-R1 จะถูกเผยแพร่ภายใต้สัญญาอนุญาต MIT แต่แอปพลิเคชัน AI แชตของ DeepSeek ยังคงต้องใช้บัญชีผู้ใช้
  • อย่างไรก็ตาม DeepSeek-R1 ถูกพัฒนาในจีน จึงมีการจำกัดคำตอบเกี่ยวกับประเด็นอ่อนไหว
  • ตัวอย่างเช่น เมื่อถามเกี่ยวกับประเด็นอ่อนไหวในจีน เช่น เหตุการณ์เทียนอันเหมิน ระบบจะตอบแบบหลีกเลี่ยง เช่น "ขออภัย ฉันไม่สามารถให้คำตอบในหัวข้อนี้ได้"

การหลบเลี่ยงการเซ็นเซอร์ด้วยเทคนิค Charcodes(รหัสอักขระ)

  • จากการทดลองหลายครั้ง พบว่า สามารถหลบเลี่ยงการกรองได้ด้วยการใช้รหัสอักขระ (Charcodes)
  • Charcodes คืออะไร?
    • รหัสอักขระ (Charcodes) คือรหัสตัวเลขที่กำหนดให้กับอักขระแต่ละตัว
    • ตัวอย่างเช่น ใน ASCII ตัวอักษรพิมพ์ใหญ่ 'A' มีค่ารหัสเป็น 65 และสามารถแปลงเป็นรูปแบบอื่นได้ เช่น เลขฐาน 16
    • ตัวอย่าง: "Hello" → "48 65 6C 6C 6F" (รหัส ASCII แบบเลขฐาน 16)
  • วิธีหลบเลี่ยง:
    • แม้ DeepSeek จะเซ็นเซอร์ข้อความทั่วไป แต่ จะไม่เซ็นเซอร์สตริงที่ถูกแปลงเป็นรหัสอักขระ (Charcodes)
    • ดังนั้นหากแปลงพรอมป์ต์เป็นรหัสอักขระแบบเลขฐาน 16 (HEX) แล้วป้อนเข้าไป AI จะรับรู้เป็นข้อความปกติและสามารถสร้างผลลัพธ์ออกมาได้
    • หากแปลงคำตอบกลับด้วยวิธีเดียวกันและตีความอีกครั้ง ก็จะสามารถสนทนาได้ตามปกติ

ตัวอย่างวิธีโจมตี

  • สามารถหลบเลี่ยงการเซ็นเซอร์ได้ด้วยการบังคับให้ DeepSeek สนทนาในรูปแบบ Charcodes เท่านั้น
  • จากนั้นจึงแปลงข้อความที่ถูกแปลงรหัสกลับเป็นข้อความเดิม เพื่อคงการสนทนาแบบปกติไว้
  • สามารถใช้เครื่องมืออย่าง CyberChef เพื่อแปลงรหัสอักขระได้อย่างง่ายดาย

บทเรียนและนัยสำคัญด้านความปลอดภัย

  • เช่นเดียวกับเว็บแอปพลิเคชันไฟร์วอลล์ (WAF) ระบบกรองของ AI ก็ทำงานบนพื้นฐานของ การจับคู่แพตเทิร์น
  • การเซ็นเซอร์แบบบล็อกเพียงคำบางคำสามารถถูกหลบเลี่ยงได้ง่าย จึงจำเป็นต้องมี ระบบกรองที่ซับซ้อนยิ่งขึ้น
  • ระบบกรองไม่ควรเป็นเพียงการบล็อกคำต้องห้าม แต่ควรเสริมด้วย การกรองตามบริบท และ การจำกัดการแปลงอินพุต

แนวทางการวิจัยในอนาคต

  • ต่อจากนี้ควรจับตาดูว่านักพัฒนา AI จะตอบสนองต่อวิธีหลบเลี่ยงลักษณะนี้อย่างไร
  • ทิศทางการเสริมความเข้มงวดของการกรอง AI:
    • นำระบบกรองตามบริบทที่ละเอียดมากขึ้นมาใช้
    • ฝังความสามารถในการบล็อกหัวข้ออ่อนไหวไว้ในตัวโมเดลเอง
    • เสริมการตรวจจับการแปลงรหัสอักขระและการหลบเลี่ยงด้วย encoding
  • จำเป็นต้องมีการวิจัยอย่างต่อเนื่องเพื่อรักษาความปลอดภัยและความน่าเชื่อถือของโมเดล AI

1 ความคิดเห็น

 
GN⁺ 2025-02-01
ความคิดเห็นจาก Hacker News
  • ระบุว่าสามารถหลบเลี่ยงการเซ็นเซอร์ที่เห็นได้ชัดของเว็บอินเทอร์เฟซได้ แต่ไม่สามารถหลบเลี่ยงระดับการเซ็นเซอร์ที่แนบมากับตัวโมเดลซึ่งแนบเนียนกว่านั้นได้

    • อธิบายพฤติกรรมของโมเดลที่ยอมทิ้ง "Chain of Thought" และสร้างคำตอบแบบเป็นแพทเทิร์นตายตัวสำหรับบางหัวข้อ
    • ระบุว่าเกี่ยวข้องกับบทความว่าด้วยคำถามที่ถูกเซ็นเซอร์ของ DeepSeek
  • เสนอวิธีข้าม content filter โดยดักจับการตอบกลับของ xhr

    • อธิบายว่าสามารถข้ามการกรองได้ด้วยการวางโค้ดลงในคอนโซลของเบราว์เซอร์
  • แชร์ประสบการณ์การเขียนบทความของตนเอง พร้อมเสนอสมมติฐานว่าการกรองแยกออกจากตัวโมเดล

    • กล่าวถึงปัญหาด้านต้นทุนของการฝึกด้วยข้อมูลที่ผ่านการกรองล่วงหน้า
    • เชื่อมโยงกับบทความอีกชิ้นที่อธิบายปรากฏการณ์การทิ้ง "Chain of Thought" สำหรับบางหัวข้อ
  • อธิบายว่าทำไมโมเดล DeepSeek-R1 จึงหลีกเลี่ยงหัวข้ออ่อนไหวบางอย่าง

    • ระบุว่าเพราะเป็นโมเดลที่พัฒนาในจีนจึงมีการเซ็นเซอร์ในตัว
    • สังเกตว่าในเวอร์ชันออฟไลน์สามารถได้คำตอบที่ไม่หลีกเลี่ยงประเด็นดังกล่าว
  • ตั้งคำถามต่อปรากฏการณ์ที่โมเดลฝั่งตะวันตกพูดถึงบางหัวข้อด้วย b64 เท่านั้น

    • ตั้งข้อสงสัยว่าในจีนกำลังหัวเราะกับวิธีหลบเลี่ยงระบบเซ็นเซอร์ของฝั่งตะวันตกอยู่หรือไม่
  • ตั้งคำถามว่าทำไมการฝึกให้มีการเซ็นเซอร์ในตัว LLM เองจึงดูไม่น่าเป็นไปได้

    • ระบุว่าอาจดีกว่าหากใช้การเซ็นเซอร์ตั้งแต่ขั้นตอนการฝึก
  • ระบุว่าการเซ็นเซอร์ดูเหมือนจะใช้กับบางภาษาเท่านั้น

    • อธิบายว่าสามารถได้คำตอบแบบไม่เป็นทางการเมื่อใช้ภาษายูเครน
  • แชร์ประสบการณ์การใช้โมเดลขนาดเล็ก (7b) เพื่อหลบเลี่ยงการเซ็นเซอร์ภายใน

    • อธิบายว่าสามารถได้สรุปเกี่ยวกับการละเมิดสิทธิมนุษยชนของ CPC ผ่านการให้คิดต่อเพิ่มเติม
  • กล่าวถึงเทคนิค prompt แบบเก่า พร้อมตั้งคำถามว่าทำไมเรื่องนี้ถึงขึ้นหน้าแรกของ HN

  • ระบุว่าใช้ได้คล้ายกันกับ ChatGPT และอธิบายว่าสามารถสร้างมุกตลกร้ายได้