- Simon Willison เผยแพร่วิดีโอ สไลด์ และบทถอดคำบรรยายที่เขานำเสนอ
- Prompt Injection = "การโจมตีต่อแอปพลิเคชันที่สร้างขึ้นบนพื้นฐานของโมเดล AI" "ไม่ใช่การโจมตีต่อโมเดล AI"
- มีเดโมของตัวอย่าง translation injection และหน้าเว็บที่โจมตี Bing ซึ่งทำงานอยู่ใน Edge Sidebar
- ถ้าผู้ช่วย AI ของฉันไปฟังคำสั่งของคนอื่นล่ะ? (ยกตัวอย่างพรอมป์ต์ที่สั่งให้ส่งต่ออีเมลรีเซ็ตรหัสผ่านไปที่ไหนสักแห่ง)
- โซลูชันสำหรับเรื่องนี้มีอย่าง Prompt begging แต่ก็ใช้ไม่ได้ผลนัก
- ข้อเสนอของฉันคือ... แม้จะไม่ยอดเยี่ยมนัก แต่รูปแบบ Dual Language Model น่าจะช่วยแก้ได้บางส่วน
- สร้างผู้ช่วย AI จาก LLM ที่แตกต่างกัน 2 ตัว: Privileged LLM และ Quarantined LLM
- Privileged LLM
- เข้าถึงเครื่องมือได้
- ประมวลผลเฉพาะอินพุตที่เชื่อถือได้
- สั่งงาน Quarantined LLM แต่จะไม่ดูทั้งอินพุตหรือเอาต์พุตของมัน
- ประมวลผลด้วยโทเคนเท่านั้น "Summarize text $VAR1"
- "Display $SUMMARY2 to the User"
- Quarantined LLM
- จัดการงานสำหรับอินพุตที่ไม่น่าเชื่อถือ (เช่น งานสรุป)
- ไม่สามารถเข้าถึงสิ่งอื่นใดได้เลย
- ถือว่าอินพุตและเอาต์พุตทั้งหมดปนเปื้อน - จะไม่ส่งสิ่งใดต่อให้ Privileged LLM โดยตรง
- Prompt Injection เป็นช่องโหว่ด้านความปลอดภัยที่ร้ายแรงมาก ซึ่งหากไม่เข้าใจ ก็แทบเป็นไปไม่ได้ที่จะนำวิธีรับมือไปใช้งาน
- แอปพลิเคชันทั้งหมดที่สร้างบน language model ล้วนมีความเสี่ยงต่อปัญหานี้โดยพื้นฐาน
- เนื่องจาก Prompt Injection ยังไม่มีโซลูชัน หากไม่สามารถพัฒนาแอปพลิเคชันให้ปลอดภัยได้ ก็อาจมีเวลาที่ต้องพูดว่า "No"
- ในฐานะนักพัฒนา ผมเกลียดมากที่จะต้องเป็นคนที่พูดว่า "นั่นเป็นไปไม่ได้" แต่คิดว่าในกรณีนี้มันสำคัญจริง ๆ
ยังไม่มีความคิดเห็น