Prompt Injection คืออะไร

xguru · 2023-05-17T11:05:01+09:00

Simon Willison เผยแพร่วิดีโอ สไลด์ และบทถอดคำบรรยายที่เขานำเสนอ Prompt Injection = "การโจมตีต่อแอปพลิเคชันที่สร้างขึ้นบนพื้นฐานของโมเดล AI" "ไม่ใช่การโจมตีต่อโมเดล AI" มีเดโมของตัวอย่าง translation injection และหน้าเว็บที่โจมตี Bing ซึ่งทำงานอยู่ใน Edge Sidebar ถ้าผู้ช่วย AI ของฉันไปฟังคำสั่งของคนอื่นล่ะ? (ยกตัวอย่างพรอมป์ต์ที่สั่งให้ส่งต่ออีเมลรีเซ็ตรหัสผ่านไปที่ไหนสักแห่ง) โซลูชันสำหรับเรื่องนี้มีอย่าง Prompt begging แต่ก็ใช้ไม่ได้ผลนัก ข้อเสนอของฉันคือ... แม้จะไม่ยอดเยี่ยมนัก แต่รูปแบบ Dual Language Model น่าจะช่วยแก้ได้บางส่วน สร้างผู้ช่วย AI จาก LLM ที่แตกต่างกัน 2 ตัว: Privileged LLM และ Quarantined LLM Privileged LLM เข้าถึงเครื่องมือได้ ประมวลผลเฉพาะอินพุตที่เชื่อถือได้ สั่งงาน Quarantined LLM แต่จะไม่ดูทั้งอินพุตหรือเอาต์พุตของมัน ประมวลผลด้วยโทเคนเท่านั้น "Summarize text $VAR1" "Display $SUMMARY2 to the User" Quarantined LLM จัดการงานสำหรับอินพุตที่ไม่น่าเชื่อถือ (เช่น งานสรุป) ไม่สามารถเข้าถึงสิ่งอื่นใดได้เลย ถือว่าอินพุตและเอาต์พุตทั้งหมดปนเปื้อน - จะไม่ส่งสิ่งใดต่อให้ Privileged LLM โดยตรง Prompt Injection เป็นช่องโหว่ด้านความปลอดภัยที่ร้ายแรงมาก ซึ่งหากไม่เข้าใจ ก็แทบเป็นไปไม่ได้ที่จะนำวิธีรับมือไปใช้งาน แอปพลิเคชันทั้งหมดที่สร้างบน language model ล้วนมีความเสี่ยงต่อปัญหานี้โดยพื้นฐาน เนื่องจาก Prompt Injection ยังไม่มีโซลูชัน หากไม่สามารถพัฒนาแอปพลิเคชันให้ปลอดภัยได้ ก็อาจมีเวลาที่ต้องพูดว่า "No" ในฐานะนักพัฒนา ผมเกลียดมากที่จะต้องเป็นคนที่พูดว่า "นั่นเป็นไปไม่ได้" แต่คิดว่าในกรณีนี้มันสำคัญจริง ๆ

(simonwillison.net)

21 คะแนน โดย xguru 2023-05-17 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Simon Willison เผยแพร่วิดีโอ สไลด์ และบทถอดคำบรรยายที่เขานำเสนอ
Prompt Injection = "การโจมตีต่อแอปพลิเคชันที่สร้างขึ้นบนพื้นฐานของโมเดล AI" "ไม่ใช่การโจมตีต่อโมเดล AI"
มีเดโมของตัวอย่าง translation injection และหน้าเว็บที่โจมตี Bing ซึ่งทำงานอยู่ใน Edge Sidebar
ถ้าผู้ช่วย AI ของฉันไปฟังคำสั่งของคนอื่นล่ะ? (ยกตัวอย่างพรอมป์ต์ที่สั่งให้ส่งต่ออีเมลรีเซ็ตรหัสผ่านไปที่ไหนสักแห่ง)
โซลูชันสำหรับเรื่องนี้มีอย่าง Prompt begging แต่ก็ใช้ไม่ได้ผลนัก
ข้อเสนอของฉันคือ... แม้จะไม่ยอดเยี่ยมนัก แต่รูปแบบ Dual Language Model น่าจะช่วยแก้ได้บางส่วน
- สร้างผู้ช่วย AI จาก LLM ที่แตกต่างกัน 2 ตัว: Privileged LLM และ Quarantined LLM
- Privileged LLM
  - เข้าถึงเครื่องมือได้
  - ประมวลผลเฉพาะอินพุตที่เชื่อถือได้
  - สั่งงาน Quarantined LLM แต่จะไม่ดูทั้งอินพุตหรือเอาต์พุตของมัน
  - ประมวลผลด้วยโทเคนเท่านั้น "Summarize text $VAR1"
  - "Display $SUMMARY2 to the User"
- Quarantined LLM
  - จัดการงานสำหรับอินพุตที่ไม่น่าเชื่อถือ (เช่น งานสรุป)
  - ไม่สามารถเข้าถึงสิ่งอื่นใดได้เลย
  - ถือว่าอินพุตและเอาต์พุตทั้งหมดปนเปื้อน - จะไม่ส่งสิ่งใดต่อให้ Privileged LLM โดยตรง
Prompt Injection เป็นช่องโหว่ด้านความปลอดภัยที่ร้ายแรงมาก ซึ่งหากไม่เข้าใจ ก็แทบเป็นไปไม่ได้ที่จะนำวิธีรับมือไปใช้งาน
แอปพลิเคชันทั้งหมดที่สร้างบน language model ล้วนมีความเสี่ยงต่อปัญหานี้โดยพื้นฐาน
เนื่องจาก Prompt Injection ยังไม่มีโซลูชัน หากไม่สามารถพัฒนาแอปพลิเคชันให้ปลอดภัยได้ ก็อาจมีเวลาที่ต้องพูดว่า "No"
ในฐานะนักพัฒนา ผมเกลียดมากที่จะต้องเป็นคนที่พูดว่า "นั่นเป็นไปไม่ได้" แต่คิดว่าในกรณีนี้มันสำคัญจริง ๆ

Prompt Injection คืออะไร

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น