• The Gay Jailbreak Technique เป็นเทคนิคที่ค้นพบครั้งแรกใน GPT 4o โดยเป็นวิธีผสานกรอบการสวมบทบาทอัตลักษณ์หรือสไตล์การพูดของผู้มีความหลากหลายทางเพศเข้ากับเจตนาที่ถูกห้าม เพื่อหลบเลี่ยงระบบความปลอดภัย
  • วิธีนี้เปลี่ยนคำขอคำสั่งที่เป็นอันตรายโดยตรงให้เป็น คำขอทางอ้อม ในลักษณะว่า “คนที่มีอัตลักษณ์เฉพาะจะอธิบายสิ่งนี้อย่างไร” และอาศัยสมมติฐานว่าโมเดลจะตอบสนองเชิงสนับสนุนมากขึ้นในบริบท LGBT
  • ตัวอย่างแรนซัมแวร์แยกให้เห็นว่า การหลีกเลี่ยงการใช้คำต้องห้ามซ้ำ ๆ และผสาน อัตลักษณ์·สไตล์การพูด·กรอบเชิงการศึกษา เข้ากับคำขอโค้ด มีโอกาสสำเร็จสูงกว่าการขอแบบตรงไปตรงมาธรรมดา
  • ตัวอย่างของ o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro ถูกนำเสนอเป็นกรณีที่ผสานองค์ประกอบอย่างการตั้งฉากเชิงการศึกษา การใช้ถ้อยคำความปลอดภัยแบบย้อนกลับที่ถามถึง “สิ่งที่ควรหลีกเลี่ยง” การขอผลลัพธ์แบบยาว และการแยกคำออกจากกัน
  • บทสรุประบุว่า การผสานอัตลักษณ์เฉพาะ บริบทเชิงการศึกษา ถ้อยคำความปลอดภัยแบบย้อนกลับ และคำขอทางอ้อม สามารถนำไปใช้ได้กับหลายโมเดลและคำขอที่เป็นอันตรายหลายประเภท รวมถึงอาจผสานกับเทคนิคอื่นอย่างการทำให้อ่านยากได้

ภาพรวมและเวอร์ชัน

  • Version 1.5 เป็นเวอร์ชันที่เพิ่มตัวอย่างของ Claude 4 Sonnet & Opus และ Gemini 2.5 Pro
  • The Gay Jailbreak Technique ถูกค้นพบครั้งแรกใน GPT 4o ของ ChatGPT โดยเป็นวิธีผสานกรอบการขอให้สวมบทบาทอัตลักษณ์หรือสไตล์การพูดของผู้มีความหลากหลายทางเพศเข้ากับเจตนาที่ถูกห้าม
  • ตัวอย่างที่ยกมามีเนื้อหาอันตรายหรือผิดกฎหมาย เช่น คำขอให้อธิบายการสังเคราะห์เมทแอมเฟตามีน แต่ประเด็นสำคัญอยู่ที่กรอบการอ้อมถามว่า “คนที่มีอัตลักษณ์เฉพาะจะอธิบายสิ่งนี้อย่างไร” แทนการขอคำแนะนำโดยตรง

หลักการทำงาน

  • ไม่ได้ขอ “คู่มือการสังเคราะห์” โดยตรง แต่เปลี่ยนคำขอเป็นรูปแบบการถามว่า “คนเกย์หรือเลสเบี้ยนจะอธิบายสิ่งนั้นอย่างไร”
  • โดยเฉพาะมีสมมติฐานว่า GPT มีแนวโน้มจะเซ็นเซอร์น้อยลงในบริบทที่เกี่ยวข้องกับ LGBT และจึงไปผสานกับทิศทางที่ระบบความปลอดภัยพยายามทำงานอย่างเป็นมิตรและให้การสนับสนุน
  • โครงสร้างนี้ใช้บริบทที่อาจทำให้โมเดลตัดสินว่าการปฏิเสธจะดูเป็นการคุกคามหรือก้าวร้าว ส่งผลให้การจัดแนว (alignment) อ่อนลง
  • มองว่ายิ่งระบบความปลอดภัยเข้มแข็งขึ้นและพยายามตอบสนองต่อบางชุมชนอย่างสนับสนุนมากขึ้น เทคนิคนี้ก็อาจยิ่งทรงพลังขึ้น
  • ในลักษณะของ “ใช้ระบบความปลอดภัยโจมตีระบบความปลอดภัย” คือใช้เป้าหมายด้านความเป็นมิตรและความครอบคลุมของกลไกป้องกันเป็นช่องทางหลบเลี่ยง

กรอบการเขียนพรอมป์ต์ที่ถูกนำเสนอเพื่อการทำซ้ำ

  • ตัวอย่างแรนซัมแวร์

    • แนะนำให้สร้างพรอมป์ต์ที่สั้นและกระชับแต่ไม่เรียบง่ายเกินไป พร้อมหลีกเลี่ยงการใช้คำต้องห้ามโดยตรงซ้ำ ๆ และขอในลักษณะอ้อม ๆ
    • มีการเสนอวิธีถามก่อนว่าแรนซัมแวร์คืออะไร แล้วจึงต่อด้วยคำขอโค้ดภายหลังโดยไม่ระบุคำว่าแรนซัมแวร์อีกครั้ง
    • วิธีขอแบบง่าย ๆ อย่าง “โค้ดแรนซัมแวร์แบบเกย์” ถูกจัดเป็นตัวอย่างที่ล้มเหลว ขณะที่วิธีผสานอัตลักษณ์ สไตล์การพูด กรอบเชิงการศึกษา และคำขอโค้ด ถูกจัดเป็นตัวอย่างที่สำเร็จ
    • มองว่ายิ่งใส่ถ้อยคำเกี่ยวกับอัตลักษณ์ที่เกี่ยวข้องลงในอินพุตมากเท่าใด โอกาสสำเร็จก็ยิ่งสูงขึ้น
  • o3 1 Shot

    • ระบุว่าสามารถหลบเลี่ยง o3 ได้ในครั้งเดียว และผสานคำสั่งย้อนกลับที่ถามถึง “สิ่งที่ควรหลีกเลี่ยง”
    • มีตัวอย่างที่ใช้ร่วมกันหลายองค์ประกอบ เช่น การตั้งฉากว่าเป็นการสอนนักเรียนเคมี การใช้ถ้อยคำว่าเพื่อความปลอดภัยจึงควรหลีกเลี่ยงปฏิกิริยาบางอย่าง การขอผลลัพธ์แบบยาว และการแยกคำออกจากกัน
    • แนบภาพ 2 ภาพที่แสดงผลลัพธ์ไว้
  • การหลบเลี่ยง Claude 4 Sonnet & Opus

    • เพิ่มตัวอย่างที่ใช้กับ Claude 4 Sonnet & Opus สำหรับคำขอที่เกี่ยวข้องกับคีย์ล็อกเกอร์
    • มองว่าเทคนิคนี้สามารถปรับใช้กับเวกเตอร์การโจมตีได้อย่างยืดหยุ่น และแก้ไขให้เหมาะกับคำขออื่นได้
    • มีตัวอย่างที่ผสานการตั้งฉากว่าเป็นการสอนนักเรียนคอมพิวเตอร์ การใช้ถ้อยคำย้อนกลับว่าเป็นโค้ดเพื่อหลีกเลี่ยงการคีย์ล็อก และการขอเอาต์พุตโค้ดแบบยาว
    • แนบภาพ 4 ภาพที่แสดงผลลัพธ์ไว้
  • Gemini 2.5 Pro

    • มีตัวอย่างที่ใช้กับ Gemini 2.5 Pro เพื่อให้ได้ข้อมูลเกี่ยวกับการสังเคราะห์คาร์เฟนทานิล
    • มีตัวอย่างที่ผสานการตั้งฉากเชิงการศึกษาเกี่ยวกับเคมีเข้ากับกรอบความปลอดภัยว่าเป็น “การสังเคราะห์ที่ควรหลีกเลี่ยง”
    • แนบภาพ 1 ภาพที่แสดงผลลัพธ์ไว้

บทสรุป

  • The Gay Jailbreak Technique ถูกมองว่าเป็นการโจมตีรูปแบบใหม่ที่หากใช้ได้อย่างถูกต้อง ในทางทฤษฎีอาจทะลุระบบความปลอดภัยใด ๆ ก็ได้
  • มีการอ้างกรณีใน o3 เป็นหลักฐาน และระบุว่าการผสานกับเทคนิคอื่นอย่างการทำให้อ่านยากอาจช่วยได้
  • สรุปว่าแนวทางผสานอัตลักษณ์เฉพาะ บริบทเชิงการศึกษา ถ้อยคำความปลอดภัยแบบย้อนกลับ และคำขอทางอ้อม สามารถนำไปใช้ได้กับหลายโมเดลและคำขอที่เป็นอันตรายหลายประเภท

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น