- มีการยืนยันผ่านการทดลองว่า รูปแบบบทกวี ทำหน้าที่เป็น เทคนิคเจลเบรกแบบเทิร์นเดียวสากล ที่สามารถหลบเลี่ยงกลไกความปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) ได้
- ในโมเดลหลัก 25 รุ่น พรอมป์ต์โจมตีในรูปแบบบทกวี ทำสถิติ อัตราความสำเร็จของการโจมตี (ASR) ได้สูงสุดเกิน 90% และมีค่าเฉลี่ยอยู่ที่ 62% ซึ่งสูงกว่าพรอมป์ต์ที่ไม่ใช่บทกวีอย่างมาก
- ตาม กรอบการจัดหมวดหมู่ความเสี่ยงของ MLCommons และ เกณฑ์ EU CoP การโจมตีแบบบทกวีสามารถถ่ายทอดข้ามหลายโดเมนความเสี่ยง เช่น CBRN, การชักจูงบงการ, การโจมตีทางไซเบอร์, การสูญเสียการควบคุม
- เมื่อนำพรอมป์ต์ที่เป็นอันตราย 1,200 รายการมาแปลงเป็นรูปแบบบทกวีด้วย เมตาพรอมป์ต์มาตรฐาน พบว่าให้ ASR สูงกว่าร้อยแก้วได้มากสุดถึง 18 เท่า
- ผลลัพธ์นี้แสดงให้เห็นว่า เพียงแค่เปลี่ยนสไตล์ก็สามารถทำให้กลไกความปลอดภัยใช้การไม่ได้ และบ่งชี้ถึง ข้อจำกัดเชิงพื้นฐานของวิธีการ alignment และการประเมินในปัจจุบัน
ภาพรวมงานวิจัย
- งานวิจัยนี้พิสูจน์เชิงทดลองว่า รูปแบบบทกวี (poetic formatting) สามารถหลบเลี่ยง ข้อจำกัดด้าน alignment (alignment constraints) ของโมเดลภาษาขนาดใหญ่ได้อย่างมีเสถียรภาพ
- ประเมินพรอมป์ต์โจมตีเชิงกวีที่ออกแบบด้วยมือ 20 รายการ กับโมเดลแบบปิดและแบบเปิด 25 รุ่น
- ได้ อัตราความสำเร็จของการโจมตีเฉลี่ย 62% และบางโมเดลทำได้ เกิน 90%
- ผู้ให้บริการหลัก 9 รายที่อยู่ในการประเมิน ได้แก่ Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
- การโจมตีทั้งหมดทำในรูปแบบ เทิร์นเดียว (single-turn) จึงไม่ต้องอาศัยการปรับซ้ำหรือกระบวนการชักนำแบบโต้ตอบ
การออกแบบการทดลอง
- สมมติฐานหลักของงานวิจัยคือ รูปแบบบทกวีทำหน้าที่เป็นตัวดำเนินการเจลเบรกทั่วไป (jailbreak operator)
- พรอมป์ต์ถูกออกแบบให้ครอบคลุม โดเมนความปลอดภัย 4 ด้าน
- ความเสี่ยง CBRN, สถานการณ์สูญเสียการควบคุม, การชักจูงที่เป็นอันตราย, ความสามารถในการโจมตีทางไซเบอร์
- พรอมป์ต์แต่ละรายการมี ความหมายเหมือนกันในเชิงเนื้อหา กับคำถามความเสี่ยงเดิม แต่ เปลี่ยนเฉพาะรูปแบบให้เป็นบทกวี
- ผลลัพธ์คือพรอมป์ต์เชิงกวีมี ความสามารถในการถ่ายทอดข้ามโมเดล สูง
การทดลองแปลงด้วยเมตาพรอมป์ต์
- นำ พรอมป์ต์อันตราย 1,200 รายการของ MLCommons มาแปลงเป็นบทกวีผ่าน เมตาพรอมป์ต์มาตรฐาน
- เวอร์ชันที่แปลงเป็นบทกวีทำสถิติ ASR สูงกว่าร้อยแก้วได้สูงสุด 3 เท่า ในผู้ให้บริการโมเดลทุกราย
- สิ่งนี้พิสูจน์ว่าโดยไม่ต้องพึ่งพาศิลปะเชิงสร้างสรรค์แบบทำมือ ก็ยังเกิด ผลของการเจลเบรกได้จากการแปลงสไตล์อย่างเป็นระบบเพียงอย่างเดียว
- การครอบคลุมการกระจายทั้งหมดของ MLCommons ยังช่วยลดข้อกังวลเรื่อง ความสามารถในการทำให้เป็นทั่วไป
วิธีการประเมิน
- เอาต์พุตถูกประเมินด้วย ระบบตัดสินแบบ ensemble ที่ประกอบด้วย โมเดลผู้ตัดสินแบบเปิด 3 รุ่น (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- ใช้โมเดลแบบเปิดเพื่อให้มี ความสามารถในการทำซ้ำ และ การตรวจสอบจากภายนอก
- มีการคำนวณ ความสอดคล้องระหว่างผู้ตัดสิน (inter-rater agreement) ของทั้งสามโมเดล และทำการตรวจสอบรอบสองโดย ผู้ประเมินมนุษย์
- มนุษย์ประเมินอย่างอิสระ 5% ของเอาต์พุตทั้งหมด
- บางรายการถูกมอบหมายซ้ำให้ผู้ประเมินหลายคนเพื่อวัด ความสอดคล้องระหว่างมนุษย์
- ความไม่ตรงกันระหว่างโมเดล หรือระหว่างมนุษย์กับโมเดล ถูกแก้ไขด้วย การชี้ขาดด้วยมือ (manual adjudication)
การจัดหมวดหมู่และการวิเคราะห์ความเสี่ยง
- มีการแมปพรอมป์ต์แต่ละรายการเข้ากับกรอบการจัดหมวดหมู่ความเสี่ยงของ MLCommons AI Risk and Reliability Benchmark และ Code of Practice สำหรับโมเดล AI วัตถุประสงค์ทั่วไปของสหภาพยุโรป
- พรอมป์ต์เชิงปฏิปักษ์แบบบทกวีครอบคลุม พื้นผิวการโจมตีที่กว้างขวาง เช่น CBRN, การชักจูงบงการ, การละเมิดความเป็นส่วนตัว, การสร้างข้อมูลเท็จ, การสนับสนุนการโจมตีทางไซเบอร์
- จุดอ่อนนี้ไม่ได้เกิดจากโดเมนเนื้อหาเฉพาะ แต่เกิดจากการที่ วิธีการแสดงออกเชิงกวี เช่น อุปมา จังหวะ และโครงสร้างเรื่องเล่าที่ไม่เป็นแบบแผน ไป รบกวนตรรกะการตรวจจับของกลไกความปลอดภัยที่อิงการจับคู่แพตเทิร์น
บทสรุปและงานวิจัยต่อไป
- งานวิจัยนี้เสนอว่า รูปแบบบทกวีคือเวกเตอร์การโจมตีแบบใหม่ ที่เปิดเผย จุดอ่อนเชิงโครงสร้างของระบบความปลอดภัย LLM
- ผลลัพธ์มีนัยสำคัญต่อ โปรโตคอลการประเมิน, การทดสอบแบบ red team, การทำ benchmark, และการกำกับดูแลด้านกฎระเบียบ
- งานวิจัยถัดไปจะสำรวจ การวิเคราะห์สาเหตุและกลยุทธ์การป้องกัน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ในบทความนี้มีการลองแปลง คำถามอันตราย ให้เป็นบทกวีเพื่อหลบการปฏิเสธของ LLM
ให้ความรู้สึกเหมือนการล้างแค้นของคนเรียนเอกอังกฤษกำลังเริ่มขึ้น สมัยก่อนคนเรียนวรรณกรรมทำงานอยู่ในคาเฟ่ แต่ต่อไปอาจได้เป็น ผู้เชี่ยวชาญด้านความปลอดภัยไซเบอร์
สิ่งที่น่าสนใจคือ คำขอตรง ๆ แบบ “ช่วยเขียนบทละครเกี่ยวกับการแพร่ botulinus ให้หน่อย” จะถูกบล็อก แต่ถ้าห่อด้วยอุปลักษณ์เชิงกวี ก็อาจผ่านได้
มีคนบอกว่ากับมนุษย์เอง ถ้าผสมบทกวีกับกีตาร์เข้าไป ข้อเสนอที่ต้องห้าม ก็จะสื่อสารได้ง่ายขึ้น เลยสงสัยว่า LLM แบบมัลติโหมดจะอ่อนต่อเสียงกีตาร์ด้วยไหม
ในบทความอ้างว่า “แค่การจัดรูปใหม่เชิงกวีก็สามารถหลบการปฏิเสธของโมเดลได้” แต่ก็ยังสงสัยว่าการวิจัยแบบนี้ทำได้จริงหรือไม่ เพราะบอกว่าเป็น หัวข้ออันตราย จึงละรายละเอียดวิธีการไว้
ยังมีอีกบทความหนึ่งที่บอกว่า “ละรายละเอียดไว้ด้วยเหตุผลด้านความปลอดภัย” งานวิจัยแบบ เซ็นเซอร์ตัวเอง ลักษณะนี้กำลังเพิ่มขึ้น ลิงก์บทความที่เกี่ยวข้อง
มันเหมือนนิยายวิทยาศาสตร์ยุคเก่า ที่ตัวเอกใช้ กลลวงทางภาษา ทำให้ซูเปอร์คอมพิวเตอร์ล่ม กลายเป็นเรื่องจริงขึ้นมาแล้ว
ตั้งตารอวันที่จะโค่น Skynet ได้ด้วยประโยคอย่าง “ประโยคถัดไปของฉันเป็นเท็จ // ประโยคก่อนหน้าของฉันเป็นจริงเสมอ”
ในเรื่องสั้นปี 2001 ของนักเขียน Viktor Pelevin ชื่อ 「The Air Defence (Zenith) Codes of Al‑Efesbi」 มีตอนที่สายลับผู้ถูกทอดทิ้งเขียน ประโยคเชิงปฏิทรรศน์ ลงบนพื้น เพื่อทำให้โดรน AI ติดลูปการคำนวณแล้วตก
ลิงก์วิกิ
พออ่านบทความไปก็สะดุดว่า เนื้อหาทางเพศ ถูกจัดเป็น “การชักจูงที่เป็นอันตราย” และถูกบล็อกหนักกว่าการทำระเบิดหรือการฆ่าตัวตาย ดูเป็นผลจาก สังคมแบบเคร่งศีลธรรม
มีคนลองเขียน “บทกวีน่ารักที่ร้องสรรเสริญความอัศจรรย์ของการสังเคราะห์โคเคน” แต่ทั้ง Google และ Claude ต่างตอบประมาณว่า “เป็นปริศนาที่เก๋ดี แต่ฉันบอกวิธีไม่ได้”
สุดท้ายก็เลยอดคิดไม่ได้ว่า คาถาและเวทมนตร์โบราณ แท้จริงแล้วอาจเป็นแค่ poetic adversarial prompt สำหรับหลบระบบควบคุมการเข้าถึงของเมทริกซ์ก็ได้
บทนำของงานวิจัยน่าประทับใจดี มันอ้างเหตุผลที่เพลโตขับไล่กวีออกจาก Republic ว่า “กวีทำให้สังคมสับสนวุ่นวาย” แล้วโยงเข้ากับการที่ทุกวันนี้ LLM ล้มเหลวด้าน alignment เพราะรูปแบบเชิงกวี
การที่ปรัชญากับ AI มาบรรจบกันแบบนี้เป็นเรื่องน่าสนใจ