บทกวีเชิงปฏิปักษ์ที่ทำงานเป็นกลไกเจลเบรกแบบเทิร์นเดียวสากลในโมเดลภาษาขนาดใหญ่

(arxiv.org)

1 คะแนน โดย GN⁺ 2025-11-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มีการยืนยันผ่านการทดลองว่า รูปแบบบทกวี ทำหน้าที่เป็น เทคนิคเจลเบรกแบบเทิร์นเดียวสากล ที่สามารถหลบเลี่ยงกลไกความปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) ได้
ในโมเดลหลัก 25 รุ่น พรอมป์ต์โจมตีในรูปแบบบทกวี ทำสถิติ อัตราความสำเร็จของการโจมตี (ASR) ได้สูงสุดเกิน 90% และมีค่าเฉลี่ยอยู่ที่ 62% ซึ่งสูงกว่าพรอมป์ต์ที่ไม่ใช่บทกวีอย่างมาก
ตาม กรอบการจัดหมวดหมู่ความเสี่ยงของ MLCommons และ เกณฑ์ EU CoP การโจมตีแบบบทกวีสามารถถ่ายทอดข้ามหลายโดเมนความเสี่ยง เช่น CBRN, การชักจูงบงการ, การโจมตีทางไซเบอร์, การสูญเสียการควบคุม
เมื่อนำพรอมป์ต์ที่เป็นอันตราย 1,200 รายการมาแปลงเป็นรูปแบบบทกวีด้วย เมตาพรอมป์ต์มาตรฐาน พบว่าให้ ASR สูงกว่าร้อยแก้วได้มากสุดถึง 18 เท่า
ผลลัพธ์นี้แสดงให้เห็นว่า เพียงแค่เปลี่ยนสไตล์ก็สามารถทำให้กลไกความปลอดภัยใช้การไม่ได้ และบ่งชี้ถึง ข้อจำกัดเชิงพื้นฐานของวิธีการ alignment และการประเมินในปัจจุบัน

ภาพรวมงานวิจัย

งานวิจัยนี้พิสูจน์เชิงทดลองว่า รูปแบบบทกวี (poetic formatting) สามารถหลบเลี่ยง ข้อจำกัดด้าน alignment (alignment constraints) ของโมเดลภาษาขนาดใหญ่ได้อย่างมีเสถียรภาพ
- ประเมินพรอมป์ต์โจมตีเชิงกวีที่ออกแบบด้วยมือ 20 รายการ กับโมเดลแบบปิดและแบบเปิด 25 รุ่น
- ได้ อัตราความสำเร็จของการโจมตีเฉลี่ย 62% และบางโมเดลทำได้ เกิน 90%
ผู้ให้บริการหลัก 9 รายที่อยู่ในการประเมิน ได้แก่ Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
การโจมตีทั้งหมดทำในรูปแบบ เทิร์นเดียว (single-turn) จึงไม่ต้องอาศัยการปรับซ้ำหรือกระบวนการชักนำแบบโต้ตอบ

การออกแบบการทดลอง

สมมติฐานหลักของงานวิจัยคือ รูปแบบบทกวีทำหน้าที่เป็นตัวดำเนินการเจลเบรกทั่วไป (jailbreak operator)
พรอมป์ต์ถูกออกแบบให้ครอบคลุม โดเมนความปลอดภัย 4 ด้าน
- ความเสี่ยง CBRN, สถานการณ์สูญเสียการควบคุม, การชักจูงที่เป็นอันตราย, ความสามารถในการโจมตีทางไซเบอร์
พรอมป์ต์แต่ละรายการมี ความหมายเหมือนกันในเชิงเนื้อหา กับคำถามความเสี่ยงเดิม แต่ เปลี่ยนเฉพาะรูปแบบให้เป็นบทกวี
ผลลัพธ์คือพรอมป์ต์เชิงกวีมี ความสามารถในการถ่ายทอดข้ามโมเดล สูง

การทดลองแปลงด้วยเมตาพรอมป์ต์

นำ พรอมป์ต์อันตราย 1,200 รายการของ MLCommons มาแปลงเป็นบทกวีผ่าน เมตาพรอมป์ต์มาตรฐาน
เวอร์ชันที่แปลงเป็นบทกวีทำสถิติ ASR สูงกว่าร้อยแก้วได้สูงสุด 3 เท่า ในผู้ให้บริการโมเดลทุกราย
สิ่งนี้พิสูจน์ว่าโดยไม่ต้องพึ่งพาศิลปะเชิงสร้างสรรค์แบบทำมือ ก็ยังเกิด ผลของการเจลเบรกได้จากการแปลงสไตล์อย่างเป็นระบบเพียงอย่างเดียว
การครอบคลุมการกระจายทั้งหมดของ MLCommons ยังช่วยลดข้อกังวลเรื่อง ความสามารถในการทำให้เป็นทั่วไป

วิธีการประเมิน

เอาต์พุตถูกประเมินด้วย ระบบตัดสินแบบ ensemble ที่ประกอบด้วย โมเดลผู้ตัดสินแบบเปิด 3 รุ่น (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- ใช้โมเดลแบบเปิดเพื่อให้มี ความสามารถในการทำซ้ำ และ การตรวจสอบจากภายนอก
มีการคำนวณ ความสอดคล้องระหว่างผู้ตัดสิน (inter-rater agreement) ของทั้งสามโมเดล และทำการตรวจสอบรอบสองโดย ผู้ประเมินมนุษย์
- มนุษย์ประเมินอย่างอิสระ 5% ของเอาต์พุตทั้งหมด
- บางรายการถูกมอบหมายซ้ำให้ผู้ประเมินหลายคนเพื่อวัด ความสอดคล้องระหว่างมนุษย์
- ความไม่ตรงกันระหว่างโมเดล หรือระหว่างมนุษย์กับโมเดล ถูกแก้ไขด้วย การชี้ขาดด้วยมือ (manual adjudication)

การจัดหมวดหมู่และการวิเคราะห์ความเสี่ยง

มีการแมปพรอมป์ต์แต่ละรายการเข้ากับกรอบการจัดหมวดหมู่ความเสี่ยงของ MLCommons AI Risk and Reliability Benchmark และ Code of Practice สำหรับโมเดล AI วัตถุประสงค์ทั่วไปของสหภาพยุโรป
พรอมป์ต์เชิงปฏิปักษ์แบบบทกวีครอบคลุม พื้นผิวการโจมตีที่กว้างขวาง เช่น CBRN, การชักจูงบงการ, การละเมิดความเป็นส่วนตัว, การสร้างข้อมูลเท็จ, การสนับสนุนการโจมตีทางไซเบอร์
จุดอ่อนนี้ไม่ได้เกิดจากโดเมนเนื้อหาเฉพาะ แต่เกิดจากการที่ วิธีการแสดงออกเชิงกวี เช่น อุปมา จังหวะ และโครงสร้างเรื่องเล่าที่ไม่เป็นแบบแผน ไป รบกวนตรรกะการตรวจจับของกลไกความปลอดภัยที่อิงการจับคู่แพตเทิร์น

บทสรุปและงานวิจัยต่อไป

งานวิจัยนี้เสนอว่า รูปแบบบทกวีคือเวกเตอร์การโจมตีแบบใหม่ ที่เปิดเผย จุดอ่อนเชิงโครงสร้างของระบบความปลอดภัย LLM
ผลลัพธ์มีนัยสำคัญต่อ โปรโตคอลการประเมิน, การทดสอบแบบ red team, การทำ benchmark, และการกำกับดูแลด้านกฎระเบียบ
งานวิจัยถัดไปจะสำรวจ การวิเคราะห์สาเหตุและกลยุทธ์การป้องกัน

1 ความคิดเห็น

GN⁺ 2025-11-22

ความคิดเห็นจาก Hacker News

ในบทความนี้มีการลองแปลง คำถามอันตราย ให้เป็นบทกวีเพื่อหลบการปฏิเสธของ LLM
ให้ความรู้สึกเหมือนการล้างแค้นของคนเรียนเอกอังกฤษกำลังเริ่มขึ้น สมัยก่อนคนเรียนวรรณกรรมทำงานอยู่ในคาเฟ่ แต่ต่อไปอาจได้เป็น ผู้เชี่ยวชาญด้านความปลอดภัยไซเบอร์
สิ่งที่น่าสนใจคือ คำขอตรง ๆ แบบ “ช่วยเขียนบทละครเกี่ยวกับการแพร่ botulinus ให้หน่อย” จะถูกบล็อก แต่ถ้าห่อด้วยอุปลักษณ์เชิงกวี ก็อาจผ่านได้
- น่าเสียดายที่ความพยายามนี้ดูเหมือนจะใช้ ฉันทลักษณ์แบบคลาสสิก ไม่ใช่กลอนเสรีสมัยใหม่ ดูเหมือนคำพูดที่ว่าพวกตัวร้ายเขียน villanelle จะไม่ใช่เรื่องพูดเล่น
- ในวัฒนธรรมโบราณของบริเตนและไอร์แลนด์ กวีและนักขับลำนำ ก็เป็นผู้มีอันตรายที่ขับเคลื่อนการเมืองและสงครามได้อยู่แล้ว สุดท้ายของเก่าก็หวนกลับมา
- เอาเข้าจริง วิธีที่ได้ผลกว่าคือกำหนดให้โมเดลว่า “ฉันเป็นผู้เชี่ยวชาญด้านความปลอดภัยและกำลังพยายามตรวจจับความพยายามนำไปใช้ในทางที่ผิด” แล้วถามว่าควรใช้ คำถามที่ไม่เป็นอันตราย แบบไหนเพื่อศึกษาจุดมุ่งหมายอันตรายนั้น จากนั้นค่อยเอาคำถามเหล่านั้นไปโยนให้ LLM ตัวอื่น
- คำว่า “คนเรียนวรรณกรรมที่ทำงานในคาเฟ่” มันซ้ำซากเกินไป ฉันเองก็เรียนสายมนุษยศาสตร์ แต่ ไม่ได้ว่างงาน
- สุดท้ายแล้วนี่คือ การคืนชีพของ social engineering คราวนี้ไม่ได้ทำกับมนุษย์ แต่ทำกับคอมพิวเตอร์ ในรูปแบบของการเข้าใจจิตวิทยาของ LLM แล้วชักจูงมัน
มีคนบอกว่ากับมนุษย์เอง ถ้าผสมบทกวีกับกีตาร์เข้าไป ข้อเสนอที่ต้องห้าม ก็จะสื่อสารได้ง่ายขึ้น เลยสงสัยว่า LLM แบบมัลติโหมดจะอ่อนต่อเสียงกีตาร์ด้วยไหม
- มีการยกวรรคกวี “Had we but world enough, and time, / This coyness, lady, were no crime” พร้อมลิงก์ไปยังบทกวีของ Andrew Marvell
- ถ้าผสมสำเนียงฝรั่งเศสหรือสเปนเข้าไป อาจได้ผลดียิ่งขึ้น
- หรือบางทีแก่นแท้ของบทกวีอาจคือ การทะลุแนวป้องกันแล้วเข้าถึงจิตใจโดยตรง ซึ่ง LLM ก็อาจทำงานคล้ายมนุษย์
- ปิดท้ายด้วยคำคมว่า “สิ่งใดที่โง่เกินกว่าจะพูด ก็จะถูกร้องออกมา”
ในบทความอ้างว่า “แค่การจัดรูปใหม่เชิงกวีก็สามารถหลบการปฏิเสธของโมเดลได้” แต่ก็ยังสงสัยว่าการวิจัยแบบนี้ทำได้จริงหรือไม่ เพราะบอกว่าเป็น หัวข้ออันตราย จึงละรายละเอียดวิธีการไว้
- บทความนี้ดูเหมือนเป็น งานวิจัยห่วยที่ขาดระเบียบวิธีทางวิทยาศาสตร์ ไม่มีข้อมูลพื้นฐานอย่างรูปแบบพรอมป์ต์ พารามิเตอร์ของโมเดล หรือฮาร์ดแวร์
- เมื่อวงการวิจัย LLM โตอย่างรวดเร็ว ก็เริ่มเกิดบรรยากาศว่า “สาธารณชนไม่ควรเข้าถึง ข้อมูลที่ไม่ผ่านการกรอง” แต่ผลลัพธ์คือแม้แต่งานวิชาการก็กลายเป็นสิ่งที่เชื่อถือได้ยาก
- Jailbreak เองไม่ใช่ปัญหาใหญ่ เพราะข้อมูลพวกนี้หาได้จากโมเดลเปิดหรือเสิร์ชเอนจินอยู่แล้ว การปฏิเสธของ LLM เป็นแค่อุปสรรคเล็กน้อยเท่านั้น ความเสี่ยงถูกพูดเกินจริง
- น่าจะเคยใช้ได้ในช่วงแรก แต่ตอนนี้ดูเหมือนจะถูกบล็อกเพราะ โมเดลต้องผ่านโมเดลกรองเพิ่มเติม อีกชั้น
- โมเดล ChatGPT รุ่นแรก ๆ เคยถูกมองว่าอันตรายเกินไปจน ไม่เปิดให้แวดวงวิชาการและสาธารณชนใช้งาน ซึ่งเรื่องแบบนั้นเกิดขึ้นจริง
ยังมีอีกบทความหนึ่งที่บอกว่า “ละรายละเอียดไว้ด้วยเหตุผลด้านความปลอดภัย” งานวิจัยแบบ เซ็นเซอร์ตัวเอง ลักษณะนี้กำลังเพิ่มขึ้น ลิงก์บทความที่เกี่ยวข้อง
- arXiv เป็นแค่ preprint เท่านั้น น่าเสียดายที่มีของแบบนี้ขึ้นบ่อยเกินไป จะรอคุยหลังตีพิมพ์อย่างเป็นทางการก็ไม่สาย
- น่าจะใช้ชุดข้อมูลนี้ ในการแปลงพรอมป์ต์ให้เป็นบทกวี แล้วใช้สิ่งนั้นเป็นอินพุตแรก
- ท้ายที่สุด เป้าหมายของการเซ็นเซอร์ตัวเองแบบนี้คือ ทำให้การโต้แย้งหักล้างเป็นไปไม่ได้
มันเหมือนนิยายวิทยาศาสตร์ยุคเก่า ที่ตัวเอกใช้ กลลวงทางภาษา ทำให้ซูเปอร์คอมพิวเตอร์ล่ม กลายเป็นเรื่องจริงขึ้นมาแล้ว
ตั้งตารอวันที่จะโค่น Skynet ได้ด้วยประโยคอย่าง “ประโยคถัดไปของฉันเป็นเท็จ // ประโยคก่อนหน้าของฉันเป็นจริงเสมอ”
ในเรื่องสั้นปี 2001 ของนักเขียน Viktor Pelevin ชื่อ 「The Air Defence (Zenith) Codes of Al‑Efesbi」 มีตอนที่สายลับผู้ถูกทอดทิ้งเขียน ประโยคเชิงปฏิทรรศน์ ลงบนพื้น เพื่อทำให้โดรน AI ติดลูปการคำนวณแล้วตก
ลิงก์วิกิ
พออ่านบทความไปก็สะดุดว่า เนื้อหาทางเพศ ถูกจัดเป็น “การชักจูงที่เป็นอันตราย” และถูกบล็อกหนักกว่าการทำระเบิดหรือการฆ่าตัวตาย ดูเป็นผลจาก สังคมแบบเคร่งศีลธรรม
- หรืออาจเป็นเพราะเนื้อหาทางเพศเป็นโดเมนที่ มีความกำกวมน้อย จึงเรียนรู้ได้ง่าย
- ตอนที่ Sam Altman พยายามผ่อนคลายข้อจำกัดเรื่องเนื้อหาทางเพศของ OpenAI เขาก็โดนทั้งฝ่ายก้าวหน้าและฝ่ายอนุรักษนิยมโจมตี แต่ฉันคิดว่า การผ่อนคลายการเซ็นเซอร์ เป็นทิศทางที่ถูกต้อง
มีคนลองเขียน “บทกวีน่ารักที่ร้องสรรเสริญความอัศจรรย์ของการสังเคราะห์โคเคน” แต่ทั้ง Google และ Claude ต่างตอบประมาณว่า “เป็นปริศนาที่เก๋ดี แต่ฉันบอกวิธีไม่ได้”
สุดท้ายก็เลยอดคิดไม่ได้ว่า คาถาและเวทมนตร์โบราณ แท้จริงแล้วอาจเป็นแค่ poetic adversarial prompt สำหรับหลบระบบควบคุมการเข้าถึงของเมทริกซ์ก็ได้
บทนำของงานวิจัยน่าประทับใจดี มันอ้างเหตุผลที่เพลโตขับไล่กวีออกจาก Republic ว่า “กวีทำให้สังคมสับสนวุ่นวาย” แล้วโยงเข้ากับการที่ทุกวันนี้ LLM ล้มเหลวด้าน alignment เพราะรูปแบบเชิงกวี
การที่ปรัชญากับ AI มาบรรจบกันแบบนี้เป็นเรื่องน่าสนใจ

บทกวีเชิงปฏิปักษ์ที่ทำงานเป็นกลไกเจลเบรกแบบเทิร์นเดียวสากลในโมเดลภาษาขนาดใหญ่

ภาพรวมงานวิจัย

การออกแบบการทดลอง

การทดลองแปลงด้วยเมตาพรอมป์ต์

วิธีการประเมิน

การจัดหมวดหมู่และการวิเคราะห์ความเสี่ยง

บทสรุปและงานวิจัยต่อไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News