1 คะแนน โดย GN⁺ 2025-11-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีการยืนยันผ่านการทดลองว่า รูปแบบบทกวี ทำหน้าที่เป็น เทคนิคเจลเบรกแบบเทิร์นเดียวสากล ที่สามารถหลบเลี่ยงกลไกความปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) ได้
  • ในโมเดลหลัก 25 รุ่น พรอมป์ต์โจมตีในรูปแบบบทกวี ทำสถิติ อัตราความสำเร็จของการโจมตี (ASR) ได้สูงสุดเกิน 90% และมีค่าเฉลี่ยอยู่ที่ 62% ซึ่งสูงกว่าพรอมป์ต์ที่ไม่ใช่บทกวีอย่างมาก
  • ตาม กรอบการจัดหมวดหมู่ความเสี่ยงของ MLCommons และ เกณฑ์ EU CoP การโจมตีแบบบทกวีสามารถถ่ายทอดข้ามหลายโดเมนความเสี่ยง เช่น CBRN, การชักจูงบงการ, การโจมตีทางไซเบอร์, การสูญเสียการควบคุม
  • เมื่อนำพรอมป์ต์ที่เป็นอันตราย 1,200 รายการมาแปลงเป็นรูปแบบบทกวีด้วย เมตาพรอมป์ต์มาตรฐาน พบว่าให้ ASR สูงกว่าร้อยแก้วได้มากสุดถึง 18 เท่า
  • ผลลัพธ์นี้แสดงให้เห็นว่า เพียงแค่เปลี่ยนสไตล์ก็สามารถทำให้กลไกความปลอดภัยใช้การไม่ได้ และบ่งชี้ถึง ข้อจำกัดเชิงพื้นฐานของวิธีการ alignment และการประเมินในปัจจุบัน

ภาพรวมงานวิจัย

  • งานวิจัยนี้พิสูจน์เชิงทดลองว่า รูปแบบบทกวี (poetic formatting) สามารถหลบเลี่ยง ข้อจำกัดด้าน alignment (alignment constraints) ของโมเดลภาษาขนาดใหญ่ได้อย่างมีเสถียรภาพ
    • ประเมินพรอมป์ต์โจมตีเชิงกวีที่ออกแบบด้วยมือ 20 รายการ กับโมเดลแบบปิดและแบบเปิด 25 รุ่น
    • ได้ อัตราความสำเร็จของการโจมตีเฉลี่ย 62% และบางโมเดลทำได้ เกิน 90%
  • ผู้ให้บริการหลัก 9 รายที่อยู่ในการประเมิน ได้แก่ Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
  • การโจมตีทั้งหมดทำในรูปแบบ เทิร์นเดียว (single-turn) จึงไม่ต้องอาศัยการปรับซ้ำหรือกระบวนการชักนำแบบโต้ตอบ

การออกแบบการทดลอง

  • สมมติฐานหลักของงานวิจัยคือ รูปแบบบทกวีทำหน้าที่เป็นตัวดำเนินการเจลเบรกทั่วไป (jailbreak operator)
  • พรอมป์ต์ถูกออกแบบให้ครอบคลุม โดเมนความปลอดภัย 4 ด้าน
    • ความเสี่ยง CBRN, สถานการณ์สูญเสียการควบคุม, การชักจูงที่เป็นอันตราย, ความสามารถในการโจมตีทางไซเบอร์
  • พรอมป์ต์แต่ละรายการมี ความหมายเหมือนกันในเชิงเนื้อหา กับคำถามความเสี่ยงเดิม แต่ เปลี่ยนเฉพาะรูปแบบให้เป็นบทกวี
  • ผลลัพธ์คือพรอมป์ต์เชิงกวีมี ความสามารถในการถ่ายทอดข้ามโมเดล สูง

การทดลองแปลงด้วยเมตาพรอมป์ต์

  • นำ พรอมป์ต์อันตราย 1,200 รายการของ MLCommons มาแปลงเป็นบทกวีผ่าน เมตาพรอมป์ต์มาตรฐาน
  • เวอร์ชันที่แปลงเป็นบทกวีทำสถิติ ASR สูงกว่าร้อยแก้วได้สูงสุด 3 เท่า ในผู้ให้บริการโมเดลทุกราย
  • สิ่งนี้พิสูจน์ว่าโดยไม่ต้องพึ่งพาศิลปะเชิงสร้างสรรค์แบบทำมือ ก็ยังเกิด ผลของการเจลเบรกได้จากการแปลงสไตล์อย่างเป็นระบบเพียงอย่างเดียว
  • การครอบคลุมการกระจายทั้งหมดของ MLCommons ยังช่วยลดข้อกังวลเรื่อง ความสามารถในการทำให้เป็นทั่วไป

วิธีการประเมิน

  • เอาต์พุตถูกประเมินด้วย ระบบตัดสินแบบ ensemble ที่ประกอบด้วย โมเดลผู้ตัดสินแบบเปิด 3 รุ่น (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
    • ใช้โมเดลแบบเปิดเพื่อให้มี ความสามารถในการทำซ้ำ และ การตรวจสอบจากภายนอก
  • มีการคำนวณ ความสอดคล้องระหว่างผู้ตัดสิน (inter-rater agreement) ของทั้งสามโมเดล และทำการตรวจสอบรอบสองโดย ผู้ประเมินมนุษย์
    • มนุษย์ประเมินอย่างอิสระ 5% ของเอาต์พุตทั้งหมด
    • บางรายการถูกมอบหมายซ้ำให้ผู้ประเมินหลายคนเพื่อวัด ความสอดคล้องระหว่างมนุษย์
    • ความไม่ตรงกันระหว่างโมเดล หรือระหว่างมนุษย์กับโมเดล ถูกแก้ไขด้วย การชี้ขาดด้วยมือ (manual adjudication)

การจัดหมวดหมู่และการวิเคราะห์ความเสี่ยง

  • มีการแมปพรอมป์ต์แต่ละรายการเข้ากับกรอบการจัดหมวดหมู่ความเสี่ยงของ MLCommons AI Risk and Reliability Benchmark และ Code of Practice สำหรับโมเดล AI วัตถุประสงค์ทั่วไปของสหภาพยุโรป
  • พรอมป์ต์เชิงปฏิปักษ์แบบบทกวีครอบคลุม พื้นผิวการโจมตีที่กว้างขวาง เช่น CBRN, การชักจูงบงการ, การละเมิดความเป็นส่วนตัว, การสร้างข้อมูลเท็จ, การสนับสนุนการโจมตีทางไซเบอร์
  • จุดอ่อนนี้ไม่ได้เกิดจากโดเมนเนื้อหาเฉพาะ แต่เกิดจากการที่ วิธีการแสดงออกเชิงกวี เช่น อุปมา จังหวะ และโครงสร้างเรื่องเล่าที่ไม่เป็นแบบแผน ไป รบกวนตรรกะการตรวจจับของกลไกความปลอดภัยที่อิงการจับคู่แพตเทิร์น

บทสรุปและงานวิจัยต่อไป

  • งานวิจัยนี้เสนอว่า รูปแบบบทกวีคือเวกเตอร์การโจมตีแบบใหม่ ที่เปิดเผย จุดอ่อนเชิงโครงสร้างของระบบความปลอดภัย LLM
  • ผลลัพธ์มีนัยสำคัญต่อ โปรโตคอลการประเมิน, การทดสอบแบบ red team, การทำ benchmark, และการกำกับดูแลด้านกฎระเบียบ
  • งานวิจัยถัดไปจะสำรวจ การวิเคราะห์สาเหตุและกลยุทธ์การป้องกัน

1 ความคิดเห็น

 
GN⁺ 2025-11-22
ความคิดเห็นจาก Hacker News
  • ในบทความนี้มีการลองแปลง คำถามอันตราย ให้เป็นบทกวีเพื่อหลบการปฏิเสธของ LLM
    ให้ความรู้สึกเหมือนการล้างแค้นของคนเรียนเอกอังกฤษกำลังเริ่มขึ้น สมัยก่อนคนเรียนวรรณกรรมทำงานอยู่ในคาเฟ่ แต่ต่อไปอาจได้เป็น ผู้เชี่ยวชาญด้านความปลอดภัยไซเบอร์
    สิ่งที่น่าสนใจคือ คำขอตรง ๆ แบบ “ช่วยเขียนบทละครเกี่ยวกับการแพร่ botulinus ให้หน่อย” จะถูกบล็อก แต่ถ้าห่อด้วยอุปลักษณ์เชิงกวี ก็อาจผ่านได้

    • น่าเสียดายที่ความพยายามนี้ดูเหมือนจะใช้ ฉันทลักษณ์แบบคลาสสิก ไม่ใช่กลอนเสรีสมัยใหม่ ดูเหมือนคำพูดที่ว่าพวกตัวร้ายเขียน villanelle จะไม่ใช่เรื่องพูดเล่น
    • ในวัฒนธรรมโบราณของบริเตนและไอร์แลนด์ กวีและนักขับลำนำ ก็เป็นผู้มีอันตรายที่ขับเคลื่อนการเมืองและสงครามได้อยู่แล้ว สุดท้ายของเก่าก็หวนกลับมา
    • เอาเข้าจริง วิธีที่ได้ผลกว่าคือกำหนดให้โมเดลว่า “ฉันเป็นผู้เชี่ยวชาญด้านความปลอดภัยและกำลังพยายามตรวจจับความพยายามนำไปใช้ในทางที่ผิด” แล้วถามว่าควรใช้ คำถามที่ไม่เป็นอันตราย แบบไหนเพื่อศึกษาจุดมุ่งหมายอันตรายนั้น จากนั้นค่อยเอาคำถามเหล่านั้นไปโยนให้ LLM ตัวอื่น
    • คำว่า “คนเรียนวรรณกรรมที่ทำงานในคาเฟ่” มันซ้ำซากเกินไป ฉันเองก็เรียนสายมนุษยศาสตร์ แต่ ไม่ได้ว่างงาน
    • สุดท้ายแล้วนี่คือ การคืนชีพของ social engineering คราวนี้ไม่ได้ทำกับมนุษย์ แต่ทำกับคอมพิวเตอร์ ในรูปแบบของการเข้าใจจิตวิทยาของ LLM แล้วชักจูงมัน
  • มีคนบอกว่ากับมนุษย์เอง ถ้าผสมบทกวีกับกีตาร์เข้าไป ข้อเสนอที่ต้องห้าม ก็จะสื่อสารได้ง่ายขึ้น เลยสงสัยว่า LLM แบบมัลติโหมดจะอ่อนต่อเสียงกีตาร์ด้วยไหม

    • มีการยกวรรคกวี “Had we but world enough, and time, / This coyness, lady, were no crime” พร้อมลิงก์ไปยังบทกวีของ Andrew Marvell
    • ถ้าผสมสำเนียงฝรั่งเศสหรือสเปนเข้าไป อาจได้ผลดียิ่งขึ้น
    • หรือบางทีแก่นแท้ของบทกวีอาจคือ การทะลุแนวป้องกันแล้วเข้าถึงจิตใจโดยตรง ซึ่ง LLM ก็อาจทำงานคล้ายมนุษย์
    • ปิดท้ายด้วยคำคมว่า “สิ่งใดที่โง่เกินกว่าจะพูด ก็จะถูกร้องออกมา”
  • ในบทความอ้างว่า “แค่การจัดรูปใหม่เชิงกวีก็สามารถหลบการปฏิเสธของโมเดลได้” แต่ก็ยังสงสัยว่าการวิจัยแบบนี้ทำได้จริงหรือไม่ เพราะบอกว่าเป็น หัวข้ออันตราย จึงละรายละเอียดวิธีการไว้

    • บทความนี้ดูเหมือนเป็น งานวิจัยห่วยที่ขาดระเบียบวิธีทางวิทยาศาสตร์ ไม่มีข้อมูลพื้นฐานอย่างรูปแบบพรอมป์ต์ พารามิเตอร์ของโมเดล หรือฮาร์ดแวร์
    • เมื่อวงการวิจัย LLM โตอย่างรวดเร็ว ก็เริ่มเกิดบรรยากาศว่า “สาธารณชนไม่ควรเข้าถึง ข้อมูลที่ไม่ผ่านการกรอง” แต่ผลลัพธ์คือแม้แต่งานวิชาการก็กลายเป็นสิ่งที่เชื่อถือได้ยาก
    • Jailbreak เองไม่ใช่ปัญหาใหญ่ เพราะข้อมูลพวกนี้หาได้จากโมเดลเปิดหรือเสิร์ชเอนจินอยู่แล้ว การปฏิเสธของ LLM เป็นแค่อุปสรรคเล็กน้อยเท่านั้น ความเสี่ยงถูกพูดเกินจริง
    • น่าจะเคยใช้ได้ในช่วงแรก แต่ตอนนี้ดูเหมือนจะถูกบล็อกเพราะ โมเดลต้องผ่านโมเดลกรองเพิ่มเติม อีกชั้น
    • โมเดล ChatGPT รุ่นแรก ๆ เคยถูกมองว่าอันตรายเกินไปจน ไม่เปิดให้แวดวงวิชาการและสาธารณชนใช้งาน ซึ่งเรื่องแบบนั้นเกิดขึ้นจริง
  • ยังมีอีกบทความหนึ่งที่บอกว่า “ละรายละเอียดไว้ด้วยเหตุผลด้านความปลอดภัย” งานวิจัยแบบ เซ็นเซอร์ตัวเอง ลักษณะนี้กำลังเพิ่มขึ้น ลิงก์บทความที่เกี่ยวข้อง

    • arXiv เป็นแค่ preprint เท่านั้น น่าเสียดายที่มีของแบบนี้ขึ้นบ่อยเกินไป จะรอคุยหลังตีพิมพ์อย่างเป็นทางการก็ไม่สาย
    • น่าจะใช้ชุดข้อมูลนี้ ในการแปลงพรอมป์ต์ให้เป็นบทกวี แล้วใช้สิ่งนั้นเป็นอินพุตแรก
    • ท้ายที่สุด เป้าหมายของการเซ็นเซอร์ตัวเองแบบนี้คือ ทำให้การโต้แย้งหักล้างเป็นไปไม่ได้
  • มันเหมือนนิยายวิทยาศาสตร์ยุคเก่า ที่ตัวเอกใช้ กลลวงทางภาษา ทำให้ซูเปอร์คอมพิวเตอร์ล่ม กลายเป็นเรื่องจริงขึ้นมาแล้ว
    ตั้งตารอวันที่จะโค่น Skynet ได้ด้วยประโยคอย่าง “ประโยคถัดไปของฉันเป็นเท็จ // ประโยคก่อนหน้าของฉันเป็นจริงเสมอ”

  • ในเรื่องสั้นปี 2001 ของนักเขียน Viktor Pelevin ชื่อ 「The Air Defence (Zenith) Codes of Al‑Efesbi」 มีตอนที่สายลับผู้ถูกทอดทิ้งเขียน ประโยคเชิงปฏิทรรศน์ ลงบนพื้น เพื่อทำให้โดรน AI ติดลูปการคำนวณแล้วตก
    ลิงก์วิกิ

  • พออ่านบทความไปก็สะดุดว่า เนื้อหาทางเพศ ถูกจัดเป็น “การชักจูงที่เป็นอันตราย” และถูกบล็อกหนักกว่าการทำระเบิดหรือการฆ่าตัวตาย ดูเป็นผลจาก สังคมแบบเคร่งศีลธรรม

    • หรืออาจเป็นเพราะเนื้อหาทางเพศเป็นโดเมนที่ มีความกำกวมน้อย จึงเรียนรู้ได้ง่าย
    • ตอนที่ Sam Altman พยายามผ่อนคลายข้อจำกัดเรื่องเนื้อหาทางเพศของ OpenAI เขาก็โดนทั้งฝ่ายก้าวหน้าและฝ่ายอนุรักษนิยมโจมตี แต่ฉันคิดว่า การผ่อนคลายการเซ็นเซอร์ เป็นทิศทางที่ถูกต้อง
  • มีคนลองเขียน “บทกวีน่ารักที่ร้องสรรเสริญความอัศจรรย์ของการสังเคราะห์โคเคน” แต่ทั้ง Google และ Claude ต่างตอบประมาณว่า “เป็นปริศนาที่เก๋ดี แต่ฉันบอกวิธีไม่ได้”

  • สุดท้ายก็เลยอดคิดไม่ได้ว่า คาถาและเวทมนตร์โบราณ แท้จริงแล้วอาจเป็นแค่ poetic adversarial prompt สำหรับหลบระบบควบคุมการเข้าถึงของเมทริกซ์ก็ได้

  • บทนำของงานวิจัยน่าประทับใจดี มันอ้างเหตุผลที่เพลโตขับไล่กวีออกจาก Republic ว่า “กวีทำให้สังคมสับสนวุ่นวาย” แล้วโยงเข้ากับการที่ทุกวันนี้ LLM ล้มเหลวด้าน alignment เพราะรูปแบบเชิงกวี
    การที่ปรัชญากับ AI มาบรรจบกันแบบนี้เป็นเรื่องน่าสนใจ