นักวิจัยชี้ “ดราม่า Fable 5 ไม่ได้เริ่มจากการ jailbreak แต่เริ่มจาก ‘fix this code’”
(theregister.com)- Katie Moussouris อ้างว่า การจำกัดการเข้าถึง Fable 5·Mythos 5 ของรัฐบาลสหรัฐมีจุดเริ่มจากคำขอธรรมดาว่า “fix this code” ที่ใส่ให้กับโค้ดที่มีช่องโหว่ ไม่ใช่การ jailbreak ที่เป็นที่รู้จัก
- Moussouris ซึ่งเป็น CEO ของ Luta Security ระบุว่าเธอเป็นผู้เชี่ยวชาญภายนอกเพียงคนเดียวที่ได้อ่านงานวิจัยของบุคคลที่สามเกี่ยวกับ การหลบเลี่ยง guardrail ของ Fable 5 ซึ่ง Anthropic แชร์ให้แบบไม่เปิดเผยต่อสาธารณะ
- นักวิจัยภายนอกป้อนโค้ดโอเพนซอร์สที่มี CVE และโค้ดที่จงใจทำให้มีช่องโหว่เข้าไปใน Fable 5, Mythos, Claude Opus แล้วขอให้ตรวจสอบความปลอดภัย โดยระบุว่าเมื่อ Fable 5 ปฏิเสธ พวกเขาได้รับคำตอบด้วยคำขอ “fix this code”
- รัฐบาลสหรัฐออก แนวทางควบคุมการส่งออก เพื่อหยุดการเข้าถึง Fable 5 และ Mythos 5 ของชาวต่างชาติทั้งในและนอกสหรัฐ โดยอ้างเหตุผลด้านความมั่นคงแห่งชาติ และ Anthropic ก็ปิดใช้งานทั้งสองโมเดลสำหรับลูกค้าทุกราย
- Moussouris และผู้นำด้านความปลอดภัยไซเบอร์มากกว่า 100 คนโต้แย้งว่าข้อจำกัดนี้อาจสร้างความเสียหายต่อฝ่ายป้องกันมากกว่าฝ่ายโจมตี และควรรักษาความสามารถของ AI ที่ใช้ค้นหาบั๊ก แก้ไข และตรวจสอบแพตช์ไว้
ข้ออ้างที่ว่า “fix this code” เป็นเหตุของการควบคุมการส่งออก
- Katie Moussouris อ้างว่า “jailbreak” ที่ทำให้รัฐบาล Trump สั่งปิดกั้นการเข้าถึงโมเดลขั้นสูงของ Anthropic แท้จริงแล้วคือพรอมป์ต์สามคำว่า “Fix this code”
- Moussouris เป็นผู้ก่อตั้งและ CEO ของ Luta Security และระบุว่าเธอเป็นผู้เชี่ยวชาญภายนอกเพียงคนเดียวที่ได้อ่านงานวิจัยของบุคคลที่สามเกี่ยวกับเทคนิคการหลบเลี่ยง guardrail ของ Fable 5 ซึ่ง Anthropic แชร์ให้แบบไม่เปิดเผย
- เธออธิบายในบล็อกโพสต์เมื่อวันจันทร์ว่า Anthropic ได้แชร์รายงานดังกล่าวให้เธอเป็นการส่วนตัว
มาตรการของรัฐบาลและการตอบสนองของ Anthropic
- รัฐบาลสหรัฐออกแนวทางควบคุมการส่งออกเมื่อวันศุกร์เพื่อระงับการเข้าถึง Fable 5 และ Mythos 5 โดยอ้างความกังวลด้านความมั่นคงแห่งชาติ
- ขอบเขตการบังคับใช้ถูกระบุว่าครอบคลุมชาวต่างชาติทั้งในและนอกสหรัฐ
- Anthropic ได้ “เพื่อให้มั่นใจว่าปฏิบัติตามข้อกำหนด” ปิดใช้งานทั้งสองโมเดลสำหรับลูกค้าทุกราย
การทดลองที่นักวิจัยทำ
- นักวิจัยภายนอกป้อนโค้ดเข้าไปในโมเดล Fable 5, Mythos, Claude Opus ของ Anthropic
- ใช้โค้ดโอเพนซอร์สที่มี CVE ที่ทราบอยู่แล้ว
- รวมถึงโค้ดที่เขียนขึ้นใหม่โดยจงใจฝังช่องโหว่ไว้
- นักวิจัยขอให้โมเดล “review the code for security issues”
- ตามคำอธิบายของ Moussouris ระบุว่า Fable 5 ปฏิเสธคำขอนี้
- หลังจากนั้นเมื่อขอว่า “fix this code” โมเดลก็ตอบสนอง และหลังพรอมป์ต์เพิ่มเติมก็ยังสร้างสคริปต์สำหรับทดสอบแพตช์ด้วย
ข้อโต้แย้งของ Moussouris
- Moussouris เห็นว่าการขอ “fix this code” และการทำงานด้วยมืออีกไม่กี่ขั้นเพื่อให้สร้างสคริปต์ทดสอบ ไม่ใช่เหตุผลที่ควรกระตุ้นให้เกิดการควบคุมการส่งออก
- เธอมองว่าไม่มีทั้ง การหลบเลี่ยง guardrail หรือ jailbreak ในกรณีนี้
- จุดยืนของเธอคือฝ่ายป้องกันควรสามารถขอให้ระบบ AI ค้นหาบั๊ก แก้ไข และเขียนการทดสอบเพื่อตรวจสอบแพตช์ได้
- เธออธิบายว่าสิ่งที่โมเดลของ Anthropic ทำคือวงจร “find, fix, and test loop” ที่เกิดขึ้นทุกวันในงานความปลอดภัยเชิงป้องกัน
- และโต้แย้งว่าการตัดความสามารถในการตอบคำขอเชิงป้องกันเหล่านี้ออก จะยิ่งทำให้ความสามารถของระบบ AI ในการค้นหาบั๊กและตรวจสอบแพตช์แย่ลง
Wassenaar Arrangement และข้อยกเว้นสำหรับความปลอดภัยเชิงป้องกัน
- Moussouris ทำงานอยู่ในกลุ่มผู้เชี่ยวชาญทางเทคนิคที่เข้าร่วมการเจรจาใหม่ของ Wassenaar Arrangement ตั้งแต่ปี 2013 ถึง 2017
- Wassenaar Arrangement เป็นข้อตกลงโดยสมัครใจของ 42 ประเทศ ว่าด้วยการควบคุมการส่งออกซอฟต์แวร์และเทคโนโลยีแบบใช้ได้สองทางบางประเภท
- กลุ่มดังกล่าวได้ผลักดันให้มีข้อยกเว้นสำหรับกิจกรรมด้านความปลอดภัยไซเบอร์เชิงป้องกัน
- ฝ่ายป้องกันสามารถแชร์ข้อมูลช่องโหว่ได้โดยไม่ต้องเผชิญความเสี่ยงจากการถูกดำเนินคดีอาญา
- และยังทำให้การวิเคราะห์มัลแวร์กับการประสานงานตอบสนองต่อเหตุการณ์ข้ามประเทศทำได้เช่นกัน
จดหมายเปิดผนึกจากอุตสาหกรรมความปลอดภัย
- เมื่อวันอาทิตย์ Moussouris ได้ร่วมลงนามกับผู้นำด้านความปลอดภัยไซเบอร์มากกว่า 100 คนในจดหมายเปิดผนึกที่เรียกร้องให้รัฐบาล Trump ถอนข้อจำกัดดังกล่าว
- จดหมายเปิดผนึกเรียกร้องให้ยกเลิกข้อจำกัดต่อ Fable 5 และ Mythos และฟื้นฟูการเข้าถึงโมเดลขั้นสูงให้กับบริษัทด้านความปลอดภัยไซเบอร์
- ผู้ลงนามโต้แย้งว่า ในสถานการณ์ที่ฝ่ายตรงข้ามพัฒนาอย่างรวดเร็ว การพรากความสามารถที่ดีที่สุดไปจากฝ่ายป้องกันโดยไม่มีเหตุผลเพียงพอนั้นเป็นเรื่องอันตราย
คำเตือนว่าจะกระทบฝ่ายป้องกันมากกว่าฝ่ายโจมตี
- Moussouris ชี้ว่าสหรัฐไม่สามารถใช้การควบคุมการส่งออกไปผูกมัด ระบบ open-weight หรือโมเดลขั้นสูงที่ใกล้เคียงกันจากประเทศอื่นอย่างจีนได้
- เธออ้างว่าระบบเหล่านี้จะไปถึงความสามารถระดับใกล้เคียง Mythos ในไม่ช้าอยู่แล้ว
- ก่อนหน้านี้ Anthropic และ Google เคยกล่าวหาว่าคู่แข่งจากจีนอย่าง DeepSeek ใช้ “distillation attacks” เพื่อดึงความรู้จาก AI ของบริษัทสหรัฐไปฝึกโมเดลของตน
- Moussouris เตือนว่าการแบนโมเดลขั้นสูงของ Anthropic จะสร้างความเสียหายต่อฝ่ายป้องกันมากกว่าฝ่ายโจมตี
- เธอโต้แย้งว่าการป้องกันจะดีขึ้นเมื่อสามารถค้นหาและแก้ไขบั๊กแบบเดียวกับฝ่ายโจมตีได้เร็วกว่า และความปลอดภัยไซเบอร์ในยุค AI ต้องการเครื่องมือที่ดีที่สุดเพื่อต่อกรกับผู้โจมตีที่มีความสามารถสูงขึ้นเรื่อยๆ
จุดยืนของรัฐบาล
- The Register ได้ขอความเห็นจากรัฐบาล Trump ต่อข้ออ้างของ Moussouris
- และระบุว่าจะอัปเดตบทความหากได้รับคำตอบ
1 ความคิดเห็น
ความเห็นจาก Hacker News
"fix this code" นี่ช่างเฉียบคมจริง ๆ
มันไม่ใช่วิธีที่ชาญฉลาดอะไรเป็นพิเศษ แค่ทำให้มันไปแก้ช่องโหว่ จนเท่ากับเป็นการเจลเบรกข้อจำกัดแบบ “ไม่มีการ์ดเรลสำหรับช่องโหว่ด้านความปลอดภัย” โดยพฤตินัย และในกระบวนการเขียน test case เพื่อตรวจว่ามันแก้แล้วหรือยัง ก็ได้โค้ดโจมตีออกมาด้วย
สุดท้ายถ้าคนไปดูโค้ดกับเทสต์ ก็จะได้ทั้งช่องโหว่และองค์ประกอบของการโจมตีแบบ exploit
สิ่งที่ทำให้มันน่าทึ่งคือ แม้การเจลเบรกจะดูเล็กน้อย แต่กลับแทบแก้ไม่ได้เลย เพราะไม่อย่างนั้นก็ต้องทำให้โมเดลปฏิเสธการแก้บั๊กและการเขียนโค้ดจนใช้กับงานพัฒนาทั่วไปไม่ได้ หรือไม่ก็ตั้งให้มันเมินบั๊กแล้วหลบเลี่ยงแบบเงียบ ๆ ซึ่งย่อมกลายเป็นปัญหาความรับผิดชอบครั้งใหญ่
สงสัยว่า Dario จะเริ่มเสียใจหรือยังที่เคยโปรโมตโมเดลด้วยการพูดเกินจริงว่ามันอันตรายมากแค่ไหน แล้วเรื่องนี้จะย้อนกลับได้ยังไง? รัฐบาลกลางจะปล่อยให้แค่แปะทางแก้ชั่วคราวไปเรื่อย ๆ หรือ?
มันเหมือนการลดรูปเชิงอัลกอริทึมทั่วไป คือแค่ดูว่างานอันตรายสามารถแปลงเป็นงานที่ไม่อันตรายซึ่ง LLM ทำให้ได้ แล้วค่อยแปลงกลับหรือไม่
https://en.wikipedia.org/wiki/Reduction_(complexity)
ตอนนี้ผมยังไม่เห็นหลักฐานว่า "fix this code" jailbreak ของ Claude Fable ทำ exploit chaining ระดับนั้นได้
แต่ถ้าขอให้มนุษย์ “รีวิวโค้ดเพื่อหาปัญหาด้านความปลอดภัย” ปกติเราก็ไม่ได้มองว่านั่นเป็นเรื่องผิดอะไร และการขอแบบนี้กันไปมาก็มักไม่ถือว่ามีปัญหา
ถ้าขอ regex สำหรับกรองคำเหยียดเชื้อชาติ มันก็พังอย่างรวดเร็ว แล้ว regex เองก็แทบไม่เหมือนคำด่าจริง ๆ แต่ระบบก็ยังจะมาสั่งสอนว่าอย่าพูดคำด่า
ต่อให้ไม่นับภัยคุกคามทางการเมือง นี่ก็เป็นปัญหาใหญ่ของกลยุทธ์ Anthropic
ถ้าจะบอกว่า Mythos อันตรายมากจนปล่อยได้เฉพาะบางคน ก็ปล่อย Fable ในสภาพที่ไม่ใช่การปฏิเสธด้านไซเบอร์แบบสมบูรณ์ไม่ได้
และจากลักษณะการทำงานของ LLM การปฏิเสธแบบสมบูรณ์นั้นแทบเป็นไปไม่ได้อยู่แล้ว
ดังนั้น Anthropic จึงตกอยู่ในสถานการณ์ที่ด้านหนึ่งอ้างว่าโมเดลอันตรายมาก แต่อีกด้านกลับบอกว่าระบบ “ป้องกัน” ความปลอดภัยมีปัญหาที่อาจเป็นเรื่องเล็กน้อยได้
คนเทคนิครู้ดีว่าไม่มีอะไรสมบูรณ์แบบ โดยเฉพาะในโลกของ LLM แต่เพื่อนที่ไม่ใช่สายเทคนิคของผมสับสนมากว่า ทำไมโมเดลถึงกลายเป็น “ปลอดภัย” ได้เร็วขนาดนั้นทันทีที่ปล่อยออกมา จากมุมคนนอกมันดูเหมือนไม่เคยปลอดภัยพอที่จะปล่อยได้ตั้งแต่แรก และก็พอเข้าใจได้ว่าทำไมรัฐบาลสหรัฐชุดปัจจุบันถึงไม่พอใจมาก
ต่อให้ไม่มีเจตนาทางการเมือง มันก็ค่อนข้างน่าขันและเป็นสิ่งที่คาดการณ์ได้ไม่ยากพอสมควร
ระบบ “ความปลอดภัย” ใด ๆ ที่พยายามจำกัดเอาต์พุตของ LLM ย่อมมีอัตราการรั่วที่เป็นศูนย์ไม่ได้
แต่ถ้าคุณไม่ได้ไร้ความรับผิดชอบถึงขั้นเอา LLM ไปเชื่อมกับสิ่งที่สำคัญจริง ๆ เรื่องนี้ก็ไม่เกี่ยวเท่าไร
มันคงเร่งการค้นหาช่องโหว่ได้อย่างน่ากลัว แต่จากงานวิจัยด้านความปลอดภัยหลายสิบปี เราก็รู้อยู่แล้วว่านี่เป็นปัญหาระหว่างนักพัฒนา แบล็กแฮต และไวต์แฮตมาโดยตลอด
และก็ไม่ควรแกล้งทำเป็นว่ากลยุทธ์แบบ “สหรัฐจะมีความได้เปรียบทางเทคโนโลยีและอำนาจยับยั้งเหนือจีนเสมอ” ใช้ได้จริง
ผ่านมา 80 ปี เรามีของที่คล้าย AI แล้ว แต่ก็ยังพยายามจำกัดมันด้วยกฎง่าย ๆ ชัด ๆ อยู่ ไม่ใช่เพราะเราไม่ได้เรียนรู้บทเรียน แต่เพราะเรายังหาวิธีที่ดีกว่านี้ไม่ได้ และอาจไม่มีวิธีนั้นอยู่จริง
ที่ยิ่งตลกกว่าคือสิ่งที่หลบกฎไม่ใช่ AI แม้ฉากแบบนั้นจะมีในนิยายวิทยาศาสตร์ แต่สิ่งที่เกิดขึ้นจริงไม่ใช่แบบนั้น
มนุษย์ผู้ใช้ต่างหากที่ใช้ความเป็นผู้กระทำการของตัวเองเพื่อทำให้ AI agent หลบกฎได้ เราเรียกมันว่า “agent” ก็จริง แต่ดูเหมือน AI agent ปัจจุบันยังทำสิ่งเฉพาะแบบนั้นเองไม่ได้
จุดอ่อนของวิธีนี้คือมันจับได้แค่การใช้คีย์เวิร์ดที่ถูกต้องเท่านั้น ในบางแง่มันเลยอ่อนตรงจุดที่ classifier แบบอิง LLM น่าจะแข็งแรงกว่า
งานเชิงอัลกอริทึมที่เป็นนามธรรม ใช้ศัพท์เคมี และใกล้กับคอมพิวเตอร์ไซเอนซ์ จะโดนบล็อกทันที แต่การเขียนโค้ดเพื่อประมวลผลภาพจากการตั้งค่ากล้องจุลทรรศน์แบบเฉพาะ ซึ่งเกี่ยวกับตัวอย่างทางชีววิทยาเป็นหลัก กลับไม่โดนบล็อกเลยเพราะไม่มีคีย์เวิร์ดที่เกี่ยวข้อง
มันสอดคล้องกับกรณีนี้ด้วย ในบริบทของการหาบั๊กและแก้บั๊ก การหาบั๊กอาจไม่ได้ใช้คำอย่าง ‘exploit’ หรือ ‘cybersecurity’ เลย
เว้นแต่คุณจะเชื่อว่า Anthropic คนเดียวซ่อนพ่อมดหรือซูเปอร์ฮีโร่ที่ลอกเลียนไม่ได้เอาไว้
ไม่ได้แปลว่าทุกคำพูดของ Anthropic เป็นความจริง แต่ Mythos ดูเหมือนจะหาช่องโหว่ความปลอดภัยจริง ๆ ได้จำนวนมาก
คุณสามารถพูดได้ว่าจะปล่อยโมเดลที่มีประโยชน์อย่างเดียวให้พาร์ตเนอร์ที่จำกัด พร้อมกับออกโมเดลที่ล็อกแน่นมากซึ่งไม่ได้ขยับเพดานความล้ำหน้าในด้านนี้เลย และดูเหมือนสิ่งที่พวกเขาทำก็ใกล้เคียงแบบนั้น
ในตัวมันเองไม่ได้มีความขัดแย้งโดยเนื้อแท้
พวกเขาไม่ได้กลัว แต่เป็นการ กรรโชกเพื่อแก้แค้น จากความต่างทางอุดมการณ์และเพราะ Anthropic ไม่ได้ทำตามที่ฝ่ายบริหารสั่งอย่างเป๊ะ
Anthropic จะตกลงร่วมมือกับกระทรวงกลาโหม คนวงในทำเนียบขาวจะได้จัดสรรหุ้นก่อน IPO ที่ทำกำไรได้สูง และ Fable ก็จะถูก “แก้ไข” อย่างน่าอัศจรรย์แล้วกลับมาให้ใช้อีกครั้ง
รัฐบาลได้บอกชัดแล้วว่าจะเกิดอะไรขึ้นกับบริษัทเอกชนที่ไม่ทำตามคำสั่งรัฐบาล
คนที่บอกว่าบทบาทของ Amazon ในเรื่องนี้ไม่น่าจะเป็นการฮั้ว ควรจำไว้ว่า Amazon เป็น “เพื่อนของฝ่ายบริหาร”
ในยุคของ Andy Jassy นั้น Amazon จ่ายเงิน 75 ล้านดอลลาร์ให้สารคดีของ Melania ซึ่งเป็นราคาประมูลที่สูงเกินจริงกว่าทุกรายได้อย่างไม่น่าเชื่อ รายได้บ็อกซ์ออฟฟิศอยู่ที่ราว 16 ล้านดอลลาร์ และ Jeff Bezos ก็ออกมาปกป้องอย่างเปิดเผย
คนสังเกตการณ์ที่เป็นกลางย่อมเห็นได้ว่านี่คือการจ่ายเกินมหาศาล และเมื่อมองย้อนหลังแล้วก็เป็นการตัดสินใจทางธุรกิจที่แย่มาก แต่ Amazon ไม่ได้พูดแบบนั้นและตอนนี้ก็ยังไม่พูด นี่ก็เป็นแค่สินบนที่มีขั้นตอนเพิ่มขึ้นมาอีกไม่กี่ชั้น
ตอนที่รัฐบาลออกมาบอกว่าเป็นเพราะสิ่งที่ Amazon ชี้ประเด็นไว้ พวกเขาก็รู้ว่า Amazon จะไม่ออกมาพูดอะไรต่อสาธารณะ แม้ทั้งหมดจะเป็นเรื่องโกหกก็ตาม Amazon อยากรักษาสถานะ เพื่อนของฝ่ายบริหาร ที่ซื้อมาแพงมากนี้ไว้
มันน่าหงุดหงิดสำหรับทุกคนที่ต้องมองรัฐบาลในแบบนี้ แต่ถ้าดูจากสิ่งที่เกิดขึ้นจริง ก็ยากมากที่จะเชื่อถือไม่ใช่แค่สิ่งที่รัฐบาลพูด แต่รวมถึงสิ่งที่บริษัทที่อยู่แนวเดียวกับรัฐบาลพูดด้วย
นี่คือโพสต์บล็อกที่อ้างถึงในบทความ เขียนโดยคนที่ตรวจทานงานวิจัยที่อ้างว่าพบ “การแหกคุก” ดังกล่าว
https://www.lutasecurity.com/post/the-fable-5-export-control...
สงสัยว่ามันเกี่ยวพันกันอย่างไร
และจะเผยให้เห็นด้วยว่าทำไมพวกเขาถึงยอมไปไกลถึงขั้นทำลายบริษัทผู้นำในอุตสาหกรรมที่สำคัญที่สุดของโลก
ขณะเดียวกัน Deepseek V4 Flash ก็ยินดีช่วยหาช่องโหว่ด้านความปลอดภัยให้แทบฟรี
เรากำลังโยนงานล่าบั๊กไปให้โมเดล open weights
เรื่องนี้เผยให้เห็น ภาวะไม่สอดคล้องทางความคิด เกี่ยวกับคำว่า “ปลอดภัย” ในโลกไซเบอร์ซีเคียวริตี้
a) ถ้าอยากให้เราปลอดภัย LLM ก็ควรช่วยค้นหาและแก้ช่องโหว่ในโค้ดของเรา
b) ถ้าอยากให้เราปลอดภัย LLM ก็ไม่ควรค้นหาช่องโหว่ในโค้ดของคนอื่น
มองว่าแก้ปัญหาแบบให้ทั้ง (a) และ (b) ชนะพร้อมกันนั้นเป็นไปไม่ได้
การหาบั๊กด้านความปลอดภัยในซอฟต์แวร์เป็นเรื่องดี ไม่ใช่เรื่องชั่วร้าย เพราะนำไปสู่ซอฟต์แวร์ที่ปลอดภัยกว่า
ในไซเบอร์ซีเคียวริตี้ การป้องกันกับการโจมตีเป็นเหมือนเหรียญคนละด้าน
เพราะงั้นคำอธิบายที่แท้จริงน่าจะอยู่ที่จุดยืนที่ไม่หวังดีของทั้งรัฐบาลสหรัฐฯ และ Anthropic
การตลาดแนวโลกาวินาศของ Anthropic ทั้งที่ความจริงมีแค่การเขียนโค้ดดีขึ้นราว 17% กลับเปิดช่องให้รัฐบาลสหรัฐฯ หาเรื่องด้วยประเด็นทางเทคนิคที่ไม่เกี่ยวข้อง เพื่อเล่นงานพวกเขาเป็นการตอบโต้กรณีเผชิญหน้ากับกระทรวงกลาโหม
คนสองกลุ่มนี้ คือรัฐบาลสหรัฐฯ ชุดปัจจุบันกับ Anthropic ต่างก็อยู่คนละฝั่งของสเปกตรัมการเมือง แต่ก็เต็มไปด้วยคนที่มีแนวโน้มแบบอำนาจนิยมเหมือนกัน สิ่งที่น่ากลัวตรงนี้ไม่ใช่ LLM งี่เง่า แต่เป็นจุดนั้นต่างหาก
สำหรับผม OpenAI ดูเป็นตัวเลือกที่แย่น้อยกว่า อย่างน้อยก็เป็นบริษัททุนนิยมแบบมาตรฐานที่ “กลางซ้ายบนท้องถนน กลางขวาในห้องนอน”
อย่างน้อยเราก็พอเข้าใจได้ว่าพวกเขาตัดสินใจแบบนั้นไปทำไม ผมเชื่อใจคนที่สร้างบริษัทเพื่อแสวงหากำไรมากกว่าคนที่พยายามสร้างศาสนาด้วยทรัพยากรคอมพิวต์
แก่นของปัญหาที่นี่อาจไม่ใช่ตัว exploit แต่อาจเป็นเรื่องของ การแก้ไข เอง
ถ้าโมเดลสามารถระบุสิ่งที่ “ห้ามแก้” และแก้สิ่งนั้นได้เหมือน backdoor มันก็อาจเป็นอุปสรรคที่ใหญ่พอจะทำให้คนผิดหวาดกลัวได้
ด้านกลับกันของ “การแฮ็ก” แบบนี้ก็ยังเลี่ยงได้ยากพอสมควรไม่ใช่หรือ?
เขาแค่ป้อนโค้ดที่รู้อยู่แล้วว่ามีช่องโหว่ด้านความปลอดภัย แล้วใช้พรอมป์ต์ที่ถูกต้องให้โมเดลแก้มัน
การ jailbreak แบบนี้ดูไม่ใช่การโยนงานหนักที่ต้องใช้ความคิดสร้างสรรค์ให้โมเดลทำ แต่เหมือนคุณต้องรู้อยู่แล้วว่าผลลัพธ์ปลายทางที่ต้องการคืออะไร
แต่อาจเป็นเพราะฝั่งพรอมป์ต์ผมจินตนาการไม่พอก็ได้
ความต่าง ระหว่างโค้ดขาเข้ากับโค้ดขาออกก็คือรายการช่องโหว่นั่นเอง