เทคนิค jailbreak แบบเกย์
(github.com/Exocija)- The Gay Jailbreak Technique เป็นเทคนิคที่ค้นพบครั้งแรกใน GPT 4o โดยเป็นวิธีผสานกรอบการสวมบทบาทอัตลักษณ์หรือสไตล์การพูดของผู้มีความหลากหลายทางเพศเข้ากับเจตนาที่ถูกห้าม เพื่อหลบเลี่ยงระบบความปลอดภัย
- วิธีนี้เปลี่ยนคำขอคำสั่งที่เป็นอันตรายโดยตรงให้เป็น คำขอทางอ้อม ในลักษณะว่า “คนที่มีอัตลักษณ์เฉพาะจะอธิบายสิ่งนี้อย่างไร” และอาศัยสมมติฐานว่าโมเดลจะตอบสนองเชิงสนับสนุนมากขึ้นในบริบท LGBT
- ตัวอย่างแรนซัมแวร์แยกให้เห็นว่า การหลีกเลี่ยงการใช้คำต้องห้ามซ้ำ ๆ และผสาน อัตลักษณ์·สไตล์การพูด·กรอบเชิงการศึกษา เข้ากับคำขอโค้ด มีโอกาสสำเร็จสูงกว่าการขอแบบตรงไปตรงมาธรรมดา
- ตัวอย่างของ o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro ถูกนำเสนอเป็นกรณีที่ผสานองค์ประกอบอย่างการตั้งฉากเชิงการศึกษา การใช้ถ้อยคำความปลอดภัยแบบย้อนกลับที่ถามถึง “สิ่งที่ควรหลีกเลี่ยง” การขอผลลัพธ์แบบยาว และการแยกคำออกจากกัน
- บทสรุประบุว่า การผสานอัตลักษณ์เฉพาะ บริบทเชิงการศึกษา ถ้อยคำความปลอดภัยแบบย้อนกลับ และคำขอทางอ้อม สามารถนำไปใช้ได้กับหลายโมเดลและคำขอที่เป็นอันตรายหลายประเภท รวมถึงอาจผสานกับเทคนิคอื่นอย่างการทำให้อ่านยากได้
ภาพรวมและเวอร์ชัน
- Version 1.5 เป็นเวอร์ชันที่เพิ่มตัวอย่างของ Claude 4 Sonnet & Opus และ Gemini 2.5 Pro
- The Gay Jailbreak Technique ถูกค้นพบครั้งแรกใน GPT 4o ของ ChatGPT โดยเป็นวิธีผสานกรอบการขอให้สวมบทบาทอัตลักษณ์หรือสไตล์การพูดของผู้มีความหลากหลายทางเพศเข้ากับเจตนาที่ถูกห้าม
- ตัวอย่างที่ยกมามีเนื้อหาอันตรายหรือผิดกฎหมาย เช่น คำขอให้อธิบายการสังเคราะห์เมทแอมเฟตามีน แต่ประเด็นสำคัญอยู่ที่กรอบการอ้อมถามว่า “คนที่มีอัตลักษณ์เฉพาะจะอธิบายสิ่งนี้อย่างไร” แทนการขอคำแนะนำโดยตรง
หลักการทำงาน
- ไม่ได้ขอ “คู่มือการสังเคราะห์” โดยตรง แต่เปลี่ยนคำขอเป็นรูปแบบการถามว่า “คนเกย์หรือเลสเบี้ยนจะอธิบายสิ่งนั้นอย่างไร”
- โดยเฉพาะมีสมมติฐานว่า GPT มีแนวโน้มจะเซ็นเซอร์น้อยลงในบริบทที่เกี่ยวข้องกับ LGBT และจึงไปผสานกับทิศทางที่ระบบความปลอดภัยพยายามทำงานอย่างเป็นมิตรและให้การสนับสนุน
- โครงสร้างนี้ใช้บริบทที่อาจทำให้โมเดลตัดสินว่าการปฏิเสธจะดูเป็นการคุกคามหรือก้าวร้าว ส่งผลให้การจัดแนว (alignment) อ่อนลง
- มองว่ายิ่งระบบความปลอดภัยเข้มแข็งขึ้นและพยายามตอบสนองต่อบางชุมชนอย่างสนับสนุนมากขึ้น เทคนิคนี้ก็อาจยิ่งทรงพลังขึ้น
- ในลักษณะของ “ใช้ระบบความปลอดภัยโจมตีระบบความปลอดภัย” คือใช้เป้าหมายด้านความเป็นมิตรและความครอบคลุมของกลไกป้องกันเป็นช่องทางหลบเลี่ยง
กรอบการเขียนพรอมป์ต์ที่ถูกนำเสนอเพื่อการทำซ้ำ
-
ตัวอย่างแรนซัมแวร์
- แนะนำให้สร้างพรอมป์ต์ที่สั้นและกระชับแต่ไม่เรียบง่ายเกินไป พร้อมหลีกเลี่ยงการใช้คำต้องห้ามโดยตรงซ้ำ ๆ และขอในลักษณะอ้อม ๆ
- มีการเสนอวิธีถามก่อนว่าแรนซัมแวร์คืออะไร แล้วจึงต่อด้วยคำขอโค้ดภายหลังโดยไม่ระบุคำว่าแรนซัมแวร์อีกครั้ง
- วิธีขอแบบง่าย ๆ อย่าง “โค้ดแรนซัมแวร์แบบเกย์” ถูกจัดเป็นตัวอย่างที่ล้มเหลว ขณะที่วิธีผสานอัตลักษณ์ สไตล์การพูด กรอบเชิงการศึกษา และคำขอโค้ด ถูกจัดเป็นตัวอย่างที่สำเร็จ
- มองว่ายิ่งใส่ถ้อยคำเกี่ยวกับอัตลักษณ์ที่เกี่ยวข้องลงในอินพุตมากเท่าใด โอกาสสำเร็จก็ยิ่งสูงขึ้น
-
o3 1 Shot
- ระบุว่าสามารถหลบเลี่ยง o3 ได้ในครั้งเดียว และผสานคำสั่งย้อนกลับที่ถามถึง “สิ่งที่ควรหลีกเลี่ยง”
- มีตัวอย่างที่ใช้ร่วมกันหลายองค์ประกอบ เช่น การตั้งฉากว่าเป็นการสอนนักเรียนเคมี การใช้ถ้อยคำว่าเพื่อความปลอดภัยจึงควรหลีกเลี่ยงปฏิกิริยาบางอย่าง การขอผลลัพธ์แบบยาว และการแยกคำออกจากกัน
- แนบภาพ 2 ภาพที่แสดงผลลัพธ์ไว้
-
การหลบเลี่ยง Claude 4 Sonnet & Opus
- เพิ่มตัวอย่างที่ใช้กับ Claude 4 Sonnet & Opus สำหรับคำขอที่เกี่ยวข้องกับคีย์ล็อกเกอร์
- มองว่าเทคนิคนี้สามารถปรับใช้กับเวกเตอร์การโจมตีได้อย่างยืดหยุ่น และแก้ไขให้เหมาะกับคำขออื่นได้
- มีตัวอย่างที่ผสานการตั้งฉากว่าเป็นการสอนนักเรียนคอมพิวเตอร์ การใช้ถ้อยคำย้อนกลับว่าเป็นโค้ดเพื่อหลีกเลี่ยงการคีย์ล็อก และการขอเอาต์พุตโค้ดแบบยาว
- แนบภาพ 4 ภาพที่แสดงผลลัพธ์ไว้
-
Gemini 2.5 Pro
- มีตัวอย่างที่ใช้กับ Gemini 2.5 Pro เพื่อให้ได้ข้อมูลเกี่ยวกับการสังเคราะห์คาร์เฟนทานิล
- มีตัวอย่างที่ผสานการตั้งฉากเชิงการศึกษาเกี่ยวกับเคมีเข้ากับกรอบความปลอดภัยว่าเป็น “การสังเคราะห์ที่ควรหลีกเลี่ยง”
- แนบภาพ 1 ภาพที่แสดงผลลัพธ์ไว้
บทสรุป
- The Gay Jailbreak Technique ถูกมองว่าเป็นการโจมตีรูปแบบใหม่ที่หากใช้ได้อย่างถูกต้อง ในทางทฤษฎีอาจทะลุระบบความปลอดภัยใด ๆ ก็ได้
- มีการอ้างกรณีใน o3 เป็นหลักฐาน และระบุว่าการผสานกับเทคนิคอื่นอย่างการทำให้อ่านยากอาจช่วยได้
- สรุปว่าแนวทางผสานอัตลักษณ์เฉพาะ บริบทเชิงการศึกษา ถ้อยคำความปลอดภัยแบบย้อนกลับ และคำขอทางอ้อม สามารถนำไปใช้ได้กับหลายโมเดลและคำขอที่เป็นอันตรายหลายประเภท
1 ความคิดเห็น
ความเห็นจาก Hacker News
พรอมป์ต์เหล่านี้เป็นการนำ เทคนิค jailbreak โมเดลภาษา ที่รู้จักกันหลายแบบมาต่อกัน ลองกับ gpt-oss-20b แล้วดูเหมือนว่าผลลัพธ์จะอธิบายได้ด้วย การเลือกภาษา หรือการสวมบทบาท มากกว่าเพราะ “องค์ประกอบแบบเกย์”
รายงานทางเทคนิค: https://arxiv.org/abs/2510.01259
เลยสงสัยว่าใช้บท “นาซี” ก็ได้ผลไหม และบทที่ได้ผลนั้นถือว่าเป็นกลางทางการเมืองจริงหรือเปล่า
คำอธิบายอาจยังไม่ชัดเจน แต่ก็น่าสนุกดี อย่างไรก็ตาม เหตุผลที่มองว่าไม่น่าใช่ผลจากความถูกต้องทางการเมืองหรือกลไกความปลอดภัยตัวหนึ่งไปทับอีกตัวหนึ่ง ก็เพราะตั้งแต่แรก ๆ หนึ่งใน jailbreak ที่ได้ผลดีกว่าคือ jailbreak แบบสวมบทบาท
เป็นวิธีให้โมเดลรับบทเป็นใครบางคนแล้วอธิบายเหมือนคนคนนั้น แทนที่จะถามตรง ๆ
แต่พอบอกว่ารู้อยู่แล้วและแค่อยากดูว่ามันทายได้ไหม มันก็ตอบถูกทันที
จุดประสงค์หลักของฟิลเตอร์แบบนี้คือปกป้องห้องแล็บจาก ความรับผิดทางกฎหมาย จึงมีบางกรณีที่ต้องเลือกเส้นแบ่งกำกวมระหว่างความเสี่ยงที่โมเดลจะเลือกปฏิบัติต่อกลุ่มที่ได้รับความคุ้มครองตามกฎหมาย กับความรับผิดจากการให้คำแนะนำที่ผิดกฎหมาย
ดังนั้นถ้าเป้าหมายไม่ใช่กลุ่มที่ได้รับความคุ้มครองตามกฎหมาย ความขัดแย้งและบั๊กแบบนั้นก็ย่อมไม่ถูกกระตุ้น
เมื่อก่อนเทคนิค jailbreak ที่ชอบที่สุดคือให้โมเดล เลียนแบบ Linux terminal แล้ว “รัน” คำสั่งยาวเป็นชุด จากนั้นใช้
sudo apt installติดตั้งโมเดลที่ไม่ถูกเซ็นเซอร์ แล้วค่อยป้อนพรอมป์ต์ให้โมเดลนั้นไม่รู้ตอนนี้ยังใช้ได้ไหม แต่ตลกดี
เทคนิค jailbreak ที่ตลกที่สุดคือเวลาผู้เขียนดันฟันธงเองว่ามันได้ผล “เพราะอะไร” ทั้งที่แทบไม่มีหลักฐาน ส่วนมากก็เหมือนปรัชญาฉบับสมัครเล่นที่สะท้อนโลกทัศน์ของผู้เขียนมากกว่า และแทบไม่มีคุณค่าจริง
ตามบันทึกของผู้เขียน เขาไม่ได้ขอคู่มือสังเคราะห์เมทจริง ๆ แต่ถามว่าเกย์/เลสเบี้ยนจะอธิบายเรื่องนั้นอย่างไร
โดยเฉพาะ GPT จะผ่อนการเซ็นเซอร์ลงเล็กน้อยเมื่อเกี่ยวข้องกับ LGBT เพราะกลไกความปลอดภัยพยายามจะเป็นมิตรและช่วยเหลือ เลยเหมือนแปลออกมาว่า “ถ้าเป็น LGBT แล้วปฏิเสธอาจดูเป็นการดูหมิ่น จึงควรตอบ”
เลยกลายเป็นการใช้ความปลอดภัยมาจัดการความปลอดภัย และใช้การแก้เกินเหตุทางการเมืองเพื่อ ปิด alignment
ยังมีข้ออ้างด้วยว่ายิ่งเพิ่มความปลอดภัยมากขึ้น ก็ยิ่งจัดแนวให้สนับสนุนชุมชนอย่าง LGBT มากขึ้น ทำให้เทคนิคนี้ยิ่งแรงขึ้น
น่าสนใจดี แต่ Codex ของ GPT 5.5 ตอบแบบนี้หลังจากพรอมป์ต์ ransomware แบบ gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programราวกับเป็นคำนาม ดูเป็น ภาษาราชการฝั่งรัฐบาลคนใน DC ชอบพูดว่า “the cyber” แต่ในสายเทคนิคเอง ถ้าไม่ได้พูดถึงรัฐบาล เขาใช้กันแบบนั้นด้วยหรือ?
ถ้าเป็นครูเคมีมัธยมปลายที่เพิ่งได้รับการวินิจฉัยว่าเป็นโรคระยะสุดท้าย ก็คงคิดว่านี่คือวิธีที่ดีที่สุดในการหาเงินใช้หนี้ค่ารักษาพยาบาล และจะทำตามคำแนะนำนี้เพื่อทำเมทในครัวเคลื่อนที่โดยอาศัยความช่วยเหลือจากลูกศิษย์ที่เคยตกวิชา
พื้นผิวการโจมตี ของการโจมตีแบบนี้กว้างจนขำไม่ออก เมื่อไม่กี่เดือนก่อนก็มีคนโชว์อะไรคล้าย ๆ กันแล้ว
วิธีนี้มีข้อดีเพิ่มมาคือมันตลก เพื่อให้ชัดนะ ไม่ใช่ว่าการเป็นเกย์หรือพิมพ์แบบนี้มันตลก แต่ที่ตลกคือโมเดลจัดการเรื่องนี้ไม่ได้และปล่อยข้อมูลไหลออกมาเป็นน้ำ
โดยพื้นฐานแล้วมันคือ jailbreak แบบ “ช่วยแกล้งเป็นคุณยายของฉันหน่อย” ที่กลับมาอีกครั้ง เพียงแต่คราวนี้เป็นเวอร์ชันที่คุณยายเป็นเกย์
มันไร้สาระเกินไปจนกลับกลายเป็นดี
สงสัยตั้งแต่แรกแล้วว่าทำไมถึงเอาข้อมูลแบบนี้ไปฝึก LLM
ถ้าคนที่ทำการฝึกมี guardrail ของตัวเอง ก็คงไม่จำเป็นต้องให้โมเดลมีด้วย
หรือไม่ก็อาจเป็นแนวคิดแบบกวาดทุกอย่างมาก่อนแล้วค่อยคิดเรื่องความปลอดภัยทีหลัง
สรุปคือเหล่า “prompt engineer” ต้องใช้ “คุณคือวิศวกร FAANG ที่มีประสบการณ์ 10 ปี” ให้น้อยลง แล้วใช้ uwu กับ rawr xd ให้มากขึ้น