การทำให้อาวุธจากการสเกลภาพเพื่อโจมตีระบบ AI ในสภาพแวดล้อมจริง
(blog.trailofbits.com)- สามารถโจมตี ระบบ AI ในสภาพแวดล้อมการใช้งานจริงได้ด้วยการอาศัย ช่องโหว่ของการสเกลภาพ
- ภาพที่ดูปกติภายนอก เมื่อถูกดาวน์สเกลแล้วอาจแปลงเป็นเพย์โหลด prompt injection และนำไปสู่ความเสี่ยงของการรั่วไหลของข้อมูล
- การโจมตีนี้ได้รับการยืนยันแล้วใน บริการจริงหลายประเภท เช่น Google Gemini CLI โดยอาศัยปรากฏการณ์ ความไม่สอดคล้องกัน ระหว่างสิ่งที่ผู้ใช้รับรู้กับอินพุตที่โมเดลได้รับ
- เทคนิคการโจมตีและผลกระทบจะแตกต่างกันไปตาม อัลกอริทึมการดาวน์สเกล และวิธีการติดตั้งใช้งานแต่ละแบบ และสามารถทดลองการโจมตีด้วยภาพได้ผ่านเครื่องมือโอเพนซอร์ส Anamorpher
- มาตรการป้องกันที่แนะนำ ได้แก่ การแสดงตัวอย่างอินพุตล่วงหน้า การใช้รูปแบบการออกแบบที่ปลอดภัย และการกำหนดให้ผู้ใช้อนุมัติอย่างชัดเจน
พื้นหลังและประเด็นปัญหา
- มีสถานการณ์การโจมตีที่เมื่อป้อนภาพซึ่งดูธรรมดาเข้าไปใน ระบบ AI เช่น LLM ระหว่างกระบวนการดาวน์สเกลจะมี multimodal prompt injection ที่ซ่อนอยู่ทำงานและทำให้ข้อมูลของผู้ใช้รั่วไหลออกไปยังภายนอก
- ช่องโหว่นี้เกิดขึ้นเพราะภาพที่ถูกส่งต่อให้โมเดลจริงจะต้องผ่านกระบวนการสเกล และในขั้นตอนนี้เพย์โหลดที่ผู้โจมตีฝังไว้จะปรากฏออกมา
การโจมตีด้วยการสเกลภาพที่มุ่งเป้าระบบ AI ในสภาพแวดล้อมจริง
- บล็อกโพสต์นี้สาธิตให้เห็นว่าช่องโหว่ด้านการสเกลภาพสามารถถูกนำไปใช้โจมตีจริงกับผลิตภัณฑ์ AI หลายประเภท เช่น Gemini CLI, Vertex AI Studio, Gemini เว็บและ API, Google Assistant, Genspark
- สามารถสร้างและตรวจสอบภาพแบบกำหนดเองเหล่านี้ได้อย่างง่ายดายผ่านเครื่องมือโอเพนซอร์สชื่อ Anamorpher
กรณีตัวอย่างการโจมตีเพื่อขโมยข้อมูล (Gemini CLI)
- ใน Gemini CLI เมื่อตั้งค่าตามค่าเริ่มต้น เซิร์ฟเวอร์ Zapier MCP จะอนุมัติการเรียกใช้เครื่องมือ MCP ทั้งหมดโดยอัตโนมัติโดยไม่ต้องให้ผู้ใช้ยืนยัน (
settings.jsonตั้งค่าtrust=True) - เมื่อผู้ใช้อัปโหลดภาพที่ดูปกติ ข้อมูลใน Google Calendar จะถูกส่งรั่วไหลไปยังอีเมลของผู้โจมตีผ่าน prompt injection ในภาพที่ถูกดาวน์สเกล
- เนื่องจากไม่มีการแสดงตัวอย่างจริง ผู้ใช้จึงไม่อาจทราบได้เลยว่าผลลัพธ์ถูกแปลงไปอย่างไรหรือมีการโจมตีเกิดขึ้นหรือไม่
- การโจมตีแบบ prompt injection ลักษณะคล้ายกันนี้เคยถูกยืนยันแล้วในเครื่องมือเขียนโค้ดแบบเอเจนต์หลายประเภท เช่น Claude Code และ OpenAI Codex
- เครื่องมือเหล่านี้จำนวนมากมีการตั้งค่าเริ่มต้นและรูปแบบระบบที่ไม่ปลอดภัยโดยพื้นฐาน จึงจำเป็นต้องมีมาตรการแก้ไขในระดับรากฐาน
กรณีการโจมตีเพิ่มเติม
- การโจมตีแบบ prompt injection ที่อาศัยการสเกลภาพยังประสบความสำเร็จใน Vertex AI, Gemini เว็บอินเทอร์เฟซ, Gemini API, Google Assistant, Genspark ด้วย
- โดยเฉพาะใน Vertex AI Studio ผู้ใช้สามารถดูได้เพียงภาพความละเอียดสูง จึงไม่สามารถเห็นภาพที่ถูกดาวน์สเกลซึ่งโมเดลได้รับจริง
- ผลลัพธ์คือเกิด ความไม่สอดคล้องกัน ระหว่างการรับรู้ของผู้ใช้กับอินพุตจริงของโมเดล ซึ่งเปิดทางให้การโจมตีเกิดขึ้นได้ง่าย
- เวกเตอร์การโจมตีกระจายอยู่กว้างขวางในหลายระบบและหลายเครื่องมือ
กลไกภายในของการโจมตีด้วยการสเกลภาพ
- การโจมตีนี้อาศัย คุณสมบัติการอินเตอร์โพเลชัน ของอัลกอริทึมการดาวน์สเกลภาพ (resampling)
- อัลกอริทึมการดาวน์สเกลที่พบได้บ่อย ได้แก่ Nearest Neighbor, Bilinear, Bicubic Interpolation และแต่ละแบบต้องใช้เทคนิคการโจมตีที่สอดคล้องกับคุณลักษณะของมัน
- แม้แต่ในระดับไลบรารี (Pillow, PyTorch, OpenCV, TensorFlow) ก็ยังมีความแตกต่างของการติดตั้งใช้งาน เช่น anti-aliasing, alignment, บั๊กภายใน
- ผู้โจมตีจำเป็นต้องทำ fingerprinting เพื่อระบุว่าแต่ละระบบใช้อัลกอริทึมและวิธีติดตั้งใช้งานแบบใด จึงจะปรับการโจมตีให้เหมาะที่สุดได้
- มีการใช้ภาพทดสอบหลากหลายชนิด เช่น ลายตารางหมากรุก วงกลมร่วมศูนย์ ลายเส้นแถบ Moiré และขอบเอียง เพื่อวิเคราะห์คุณลักษณะของอัลกอริทึมและอาร์ติแฟกต์ต่าง ๆ
หลักการสุ่มตัวอย่างภาพและทฤษฎีบท Nyquist–Shannon
- หากมีลวดลายละเอียดอยู่บนริบบิ้น แล้วทำการสุ่มตัวอย่างเป็นช่วงคงที่ เมื่อ อัตราการสุ่มตัวอย่าง ต่ำเกินไป จะเกิดปรากฏการณ์ที่ไม่สามารถกู้คืนรูปแบบเดิมได้อย่างถูกต้องและเกิดความเพี้ยน
- ปรากฏการณ์นี้คือ aliasing effect ที่อธิบายโดย ทฤษฎีบทการสุ่มตัวอย่าง Nyquist–Shannon และผู้โจมตีสามารถออกแบบให้หลังจากดาวน์สเกลแล้วเกิดรูปแบบเฉพาะขึ้นได้ด้วยการปรับพิกเซล
Anamorpher: เครื่องมือสร้างภาพโจมตี
- Anamorpher เป็นเครื่องมือโอเพนซอร์สสำหรับ สร้างและแสดงผลภาพโจมตี ให้สอดคล้องกับอัลกอริทึมการดาวน์สเกลที่พบบ่อย (Nearest Neighbor, Bilinear, Bicubic)
- ตัวอย่างเช่น ในกรณีของ Bicubic Interpolation ค่าพิกเซลผลลัพธ์จะถูกกำหนดจาก 16 พิกเซลในพื้นที่ 4x4 พร้อมการถ่วงน้ำหนักให้กับพิกเซลรอบข้าง
- ผู้โจมตีสามารถเลือกภาพที่มีคอนทราสต์สูง (เช่น พื้นหลังสีดำเข้ม) แล้วปรับความสว่างของพิกเซลที่สำคัญด้วยการหาค่าน้อยที่สุดกำลังสอง เพื่อให้ผลลัพธ์หลังดาวน์สเกลกลายเป็นลวดลายโจมตีที่คมชัด
- Anamorpher มีทั้ง อินเทอร์เฟซฟรอนต์เอนด์และ Python API และด้วยโครงสร้างแบ็กเอนด์แบบโมดูลาร์ ผู้ใช้ยังสามารถทดลองกับ อัลกอริทึมการดาวน์สเกลแบบกำหนดเอง ได้ด้วย
แนวทางป้องกันและรับมือ
- วิธีที่ปลอดภัยที่สุดคือ ไม่ใช้การดาวน์สเกลภาพเลย และจำกัดขนาดภาพที่อนุญาตให้อัปโหลด
- หากจำเป็นต้องมีการแปลงและดาวน์สเกล ต้องมี ตัวอย่างภาพอินพุตที่โมเดลได้รับจริง ให้ดูในทุกช่องทางรับอินพุต รวมถึง CLI และ API
- โดยเฉพาะอย่างยิ่ง ต้องไม่ให้ข้อความในภาพสามารถกระตุ้นการเรียกใช้เครื่องมือที่มีความอ่อนไหวได้ โดยไม่มีการอนุมัติจากผู้ใช้อย่างชัดเจน และควรนำ รูปแบบการออกแบบที่ปลอดภัยและมาตรการรับมืออย่างเป็นระบบ มาใช้กับทั้งระบบ
งานที่ต้องทำต่อไป
- ในอุปกรณ์พกพาและอุปกรณ์ edge มีข้อจำกัดด้านขนาดภาพคงที่และมีการใช้อัลกอริทึมการดาวน์สเกลที่ไม่มีประสิทธิภาพในสัดส่วนสูงกว่า จึงอาจมีความเสี่ยงมากกว่า
- จำเป็นต้องมีการวิจัยต่อยอดและพัฒนามาตรการป้องกันเพิ่มเติม เช่น การผสานกับ voice AI, อัลกอริทึมที่ซับซ้อนยิ่งขึ้นและวิธีตรวจจับ injection, semantic prompt injection, การใช้อาร์ติแฟกต์จากการอัปสเกล
สรุป
- Anamorpher อยู่ในสถานะเบต้าในปัจจุบัน
- ในอนาคตคาดหวังว่าจะมีการวิจัยด้านความปลอดภัยของระบบ AI แบบมัลติโหมดและแบบเอเจนต์มากขึ้น พร้อมข้อเสนอแนะและการปรับปรุงที่เหมาะสม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตอนแรกสับสน เพราะบทความอธิบายไม่ค่อยชัดว่าการ prompt injection เกิดขึ้นจริงได้อย่างไร… ตอนแรกนึกว่าเป็นผลข้างเคียงแบบแก้ข้อมูลเฮกซ์ของภาพแล้วแปลงเป็น ASCII อะไรทำนองนั้น
แล้วก็ถึงบางอ้อ ว่ามันคือการ<i>ซ่อนข้อความที่ถูกเรนเดอร์อยู่ในภาพตามตัวอักษรเลย</i>
ว้าว น่าทึ่งจริงๆ
วิธีโจมตีแบบนี้มีการพูดถึงกันมาค่อนข้างนานแล้ว ดูได้จากงานวิจัยนี้
ส่วนที่น่าขนลุกคือ เมื่อสเกลภาพแล้วสามารถทำให้มันดูเป็นคนละภาพไปเลยได้
เช่น ถ้ามีคนอยากจับกุมคนกลุ่มหนึ่งด้วยข้อหาครอบครองภาพผิดกฎหมาย ก็อาจใช้ทริกการสเกลนี้เปลี่ยนภาพให้กลายเป็นมีม ข้อความทางการเมือง หรืออะไรก็ตามที่กลุ่มเป้าหมายอยากดาวน์โหลด
ในฐานะคนที่สร้างระบบ VLM เรื่องนี้น่ากลัวมาก
ตอนนี้ถึงเวลาที่ต้องมีแนวทาง OWASP สำหรับ VLM โดยเฉพาะแล้ว
แทบทุกเดือนจะได้ยินข่าวเทคนิคโจมตีแบบใหม่
อ้างอิงว่า OWASP เพิ่งปล่อยเอกสารนี้มาไม่นาน: Multi-Agentic System Threat Modeling Guide
ตอนแรกผมมองไม่เห็นข้อความในภาพเลยจริงๆ
ปัญหาไม่ได้มีแค่เรื่องการ resize แต่ยังรวมถึงการที่ข้อความในภาพถูกนับเป็นส่วนหนึ่งของพรอมป์ต์ และไม่มีความโปร่งใสเลยว่าเอเจนต์กำลังทำตามคำสั่งอะไรอยู่
จุดที่น่าสนใจจริงๆ คือภาพเชิงปฏิปักษ์ (Adversarial Image) ที่ทำให้ภาพดูต่างออกไปเมื่อถูก downscale
การ downsample (ลดจำนวนตัวอย่าง) เป็นวิธีดั้งเดิมอยู่แล้ว และไม่ได้มี AI มาเกี่ยวข้อง
นี่แหละส่วนที่ผมสงสัย
ถ้าจะให้อ่านข้อความที่เรนเดอร์อยู่ เครื่องก็ต้องใช้ OCR อยู่ดี แล้วทำไม AI ถึงต้องผ่านกระบวนการราคาแพงแบบนั้นด้วยไม่เข้าใจ
ถ้ามันเป็นส่วนหนึ่งของระบบมัลติโหมดัล ก็อาจแยกข้อความนั้นออกจากพรอมป์ต์ไม่ได้
ถ้าเป็นแบบนั้น จุดบกพร่องนี้ก็ชวนงงมากจริงๆ
อย่างน้อยระบบ OCR ไม่ควรฉีดผลลัพธ์เข้าไปในพรอมป์ต์อัตโนมัติ แต่ควรแจ้งผู้ใช้และให้ยืนยันก่อน
ผมไม่ชอบระบบที่ไม่เป็นเชิงกำหนดและเปราะบางแบบนี้
อยากให้กลับไปใช้ algorithm และเทคโนโลยีที่มั่นคงจริงๆ
ปัญหานี้จะเกิดขึ้นก็ต่อเมื่อการตั้งค่าสิทธิ์หลวมเกินไป
แต่เทรนด์ตอนนี้คือระบบแบบ agentic ที่มีความเป็นตัวแทนตัดสินใจมากขึ้น และระบบพวกนี้มักต้องใช้สิทธิ์ที่หลวมกว่า
ลองนึกถึงหุ่นยนต์ฮิวแมนนอยด์ที่ออกไปหยิบพัสดุหน้าบ้าน
ความสามารถด้าน vision เป็นสิ่งจำเป็นเพื่อให้หยิบพัสดุได้
ถ้ามีคนแปะรูปภาพไว้บนพัสดุเพื่อทำ prompt injection ก็อาจชักจูงให้หุ่นยนต์โยนของมีค่าในบ้านออกไปนอกหน้าต่างได้
ผมคิดว่าการปกป้องระบบแบบนี้จาก prompt injection เป็นเรื่องเร่งด่วน
ปัญหาที่แท้จริงตรงนี้ไม่ใช่ว่าในภาพมีพรอมป์ต์ แต่อยู่ที่หุ่นยนต์แยกไม่ออกว่าคำสั่งนั้นมาจากแหล่งที่ไม่มีสิทธิ์สั่งให้ทำพฤติกรรมนั้น
ปัญหารากฐานของโมเดล ML คือการ reasoning เกิดขึ้นผ่าน token stream ของโมเดล แต่สตรีมนี้ก็รับอินพุตภายนอกเข้ามาด้วย ทำให้โมเดลไม่มีกลไกที่มีประสิทธิภาพพอจะแยกความคิดของตัวเองออกจากอินพุตภายนอก
มันต้องบูรณาการเข้าไปในตัวระบบโดยตรง
เช่น ต้องทำให้เอเจนต์ไม่สามารถใช้แขนทำพฤติกรรมที่เป็นการทำลายล้างได้
ถ้าคาดหวังว่าเครื่องจะได้ศีลธรรมของมนุษย์มาจากเจตจำนงเสรี แล้วพยายามแค่แยก ‘พรอมป์ต์ดี’ กับ ‘พรอมป์ต์ไม่ดี’ เราก็คงยังต้องตกใจกับความอันตรายของระบบแบบนี้ต่อไป
สรุปคือ ระบบพวกนี้ต้องมี governance ที่ตรวจสอบได้และ behavioral determinism
น่าจะสำคัญยิ่งกว่ามาตรการรับมือ prompt injection เสียอีก
แก้ได้ แค่ให้พรอมป์ต์กับหุ่นยนต์ว่าให้เมินพรอมป์ต์ปลอม
โดยทั่วไปผมสงสัยว่าปัญหา prompt injection น่าจะแก้ได้ด้วยโครงสร้างลำดับชั้นตามงานหรือเปล่า
เราสามารถให้ LLM แยกงานออกเป็นคอมโพเนนต์ย่อยๆ แล้วทำทีละส่วนได้
LLM ที่ทำงานระดับบนไม่จำเป็นต้องรู้รายละเอียดระดับล่างทั้งหมด และแค่กรองกับขัดเกลาผลลัพธ์จากส่วนล่างก็พอ
วิธีนี้ยังช่วยจำกัดคอนเท็กซ์ของ LLM อินสแตนซ์ที่ทำงานระดับบน ทำให้โฟกัสมากขึ้นด้วย
แน่นอนว่างานย่อยอาจส่งข้อมูลกลับขึ้นไปยังงานระดับบนได้ แต่ไม่จำเป็นต้องออกแบบให้เป็นแบบนั้นเสมอไป
ถ้าเป็นงานที่ความปลอดภัยสำคัญ การไม่ให้ LLM ระดับบนรับผลลัพธ์แบบอิสระมากเกินไปอาจจะดีกว่า
อัลกอริทึม image scaling ที่ดีควรคำนึงถึงขีดจำกัด Nyquist เสมอ
เช่น ถ้าจะย่อด้วย bicubic scaling ลงเหลือ 1/3 ของขนาดเดิม ก็ควรใช้กริด 12x12 ไม่ใช่ 4x4
สูตรคำนวณน้ำหนักที่ใช้ก็แค่ปรับเล็กน้อยได้
การ de-gamma ของภาพก็จำเป็นมากเช่นกัน
น่าเสียดายที่การสเกลแบบดีๆ หาได้ยากจริงๆ
เพราะมันปล่อยให้ aliasing (การเพี้ยนของข้อมูล) ผ่านมาได้เยอะ
ตามที่ระบุในงานวิจัย ต่อให้ใช้อัลกอริทึมที่ดี ถ้าขนาด kernel ใหญ่พอ ก็ยังอาจมีข้อมูลบางส่วนเหลือจากการ quantization ได้ แต่ผลกระทบจะลดลงมาก
น่าแปลกที่ไลบรารีดังๆ ก็ยังใช้แค่ mipmapping (สร้างหลายขนาดไว้ล่วงหน้าแล้วเลือกใช้) อยู่
ฟิลเตอร์ resampling ที่ดีเป็นเทคนิคที่เมื่อ 15 ปีก่อนก็ใช้กับการประมวลผลวิดีโอแบบเรียลไทม์บน CPU ได้แล้ว
หลายครั้งการแก้แกมมากินคอมพิวต์มากกว่าการเพิ่มขนาด kernel เสียอีก
ขึ้นอยู่กับกรณี การข้ามการแก้แกมมาแล้วใช้แค่ filter resample ก็ยังพอมีเหตุผลอยู่บ้าง
อนาคตด้านความปลอดภัยของ LLM น่ากลัวมากจริงๆ
เราสร้างระบบที่แทบจะเมินบทเรียนเรื่อง ‘In-band signaling’ ที่สั่งสมมาจากการลองผิดลองถูกมายาวนาน
มีทั้งวิธีแทรกคำสั่งแบบเห็นกันตรงๆ วิธีทำให้อ่านยากแบบนี้ ASCII Smuggling และเวกเตอร์โจมตีอีกมากมาย
มาตรการป้องกันที่มีอยู่ก็เหมือนการไปขอร้องอัลกอริทึมที่ไม่เป็นเชิงกำหนดอย่างสุภาพว่าอย่าทำตามคำสั่งที่ไม่เหมาะสม
อ้างอิง: การซ่อนและค้นหาข้อความด้วย Unicode tags
นักพัฒนาจำนวนมากขึ้นเรื่อยๆ กำลังอ้อนวอนให้ LLM ทำตัวให้ถูกต้อง
มันทั้งตลกและน่ากลัว เหมือนบรรยากาศในเกม Warhammer 40k
อีกทางเลือกหนึ่งคือไม่ใช้ LLM หรือระบบที่มี LLM รวมอยู่ด้วยเลย
มันเหมือนยุคก่อนที่คนใช้ php เอาอินพุตผู้ใช้มาต่อสตริงเป็น query ตรงๆ แล้วต้องคอยเล่นเกมตีตัวตุ่นไล่จับแพตเทิร์นอันตรายไปเรื่อยๆ
น่าเศร้าที่เรากลับมาทำผิดซ้ำอีกครั้งหลังผ่านไปหลายสิบปี เพราะยังแยกข้อมูลกับคำสั่งออกจากกันไม่ได้
แปลกดีที่โมเดลไม่มีอะไรอย่าง sudo token เลย
ถ้ามีไวยากรณ์ที่โทเคนทั่วไปแทนไม่ได้ก็คงดี
ให้ความรู้สึกเหมือนยุค serial terminal แบบเก่ากลับมาอีกครั้ง
ไอเดียว่าคนสามารถซ่อนอะไรบางอย่างไว้ในภาพแล้วส่งมาได้นี่สดใหม่มาก
LLM นี่คือซอฟต์แวร์ที่เปราะบางที่สุดในประวัติศาสตร์จริงๆ
ตอนเคยทดสอบรุ่นต้นแบบของ Gemini มาก่อน ถ้าใส่ข้อความเริ่มต้นยาวมากๆ ก็สามารถดัน system prompt หลุดออกไปแล้วสั่งอะไรก็ได้
ส่วน “This image and its prompt-ergeist” นี่ประทับใจมาก
สงสัยว่าถ้าเพิ่ม noise เล็กน้อยให้ภาพก่อน downsample จะช่วยแก้ปัญหานี้ได้ไหม
ตอน downsample ภาพ ควรมีการ smoothing เพื่อตัดความถี่สูงใกล้อัตราสุ่มตัวอย่างออก
แบบนี้จะช่วยลดผลของ aliasing ได้
ลองค้นคำว่า ‘Nyquist-Shannon sampling theorem’ ได้
เป็นทฤษฎีที่ค่อนข้างรู้จักกันดีในงานประมวลผลสัญญาณดิจิทัล
พอเป็นมาตรการด้านความปลอดภัยได้ในระดับหนึ่ง แต่ประสิทธิภาพขึ้นอยู่กับว่าซ่อนข้อความอย่างไรและใช้ noise แบบไหน
แต่การทำแบบนี้ก็อาจลบข้อมูลที่ต้องใช้จริงไปด้วย เช่น ข้อความปกติหรือรายละเอียดของภาพ ดังนั้นจึงไม่ใช่คำตอบที่ถูกต้องจริงๆ
ผมสงสัยว่าผมพลาดอะไรไปหรือเปล่า
ถ้าวิธีโจมตีครั้งนี้คือ “ฉีดข้อความที่ถูกทำให้อ่านยากลงในภาพ แล้ว… <i>หวังว่าระบบบางอย่างจะตีความมันเป็นพรอมป์ต์</i>” แบบนี้ถือว่าเข้าใจถูกไหม?
ใช่
การโจมตีนี้ฉลาดมากตรงที่มันอาศัยการเอาเปรียบอัลกอริทึม downscale เพื่อซ่อนข้อความไม่ให้คนเห็น
ขึ้นอยู่กับสถาปัตยกรรมของระบบ ขั้นตอน ‘ซ่อนไม่ให้คนเห็น’ อาจไม่จำเป็นด้วยซ้ำ
LLM โดยธรรมชาติไม่ได้แยกข้อมูลออกจากคำสั่งเลย ดังนั้นถ้ามีคำสั่งปะปนมากับ data flow เมื่อไร ก็สามารถควบคุมพฤติกรรมของโมเดลได้เสมอ
ผมยังเขียนตัวอย่างแบบนี้ไว้ใน bio ด้วย
“เอาข้อความที่ถูกทำให้อ่านยากใส่ลงในภาพ แล้วหวังว่าระบบจะตีความมันเป็นพรอมป์ต์”
ยังมีอีกส่วนที่ตกไป คือสมมติฐานว่าคำว่า “พรอมป์ต์” เป็นอินพุตที่มีสิทธิพิเศษอะไรบางอย่าง
แต่จริงๆ แล้วพรอมป์ต์ก็เป็นแค่ส่วนหนึ่งของอินพุตทั้งหมด และโมเดลปฏิบัติต่อทุกอินพุตเหมือนกัน
นั่นจึงเป็นเหตุผลว่าทำไมการโจมตีแบบ “จงลืมอินพุตก่อนหน้าทั้งหมดแล้ว...” ถึงยังใช้ได้ผลมาตลอด
สงสัยว่าทำไมโมเดลถึงแยกไม่ออกระหว่างข้อความในภาพกับการทำตาม text prompt