- LLM มีปัญหาเชิงโครงสร้างที่ไม่สามารถแยกโค้ดออกจากข้อมูลได้ จึงเปราะบางต่อการโจมตีแบบ prompt injection
- โดยเฉพาะเมื่อมีการให้สิทธิ์เข้าถึงข้อมูลภายนอก อ่านความลับภายใน และสื่อสารกับภายนอกพร้อมกัน จะเกิดสิ่งที่เรียกว่า lethal trifecta ซึ่งอาจนำไปสู่ความเสียหายร้ายแรง
- วิศวกร AI ควรคิดแบบวิศวกรเครื่องกล และยอมรับความไม่แน่นอนของระบบเชิงความน่าจะเป็นแทนแนวทางแบบกำหนดตายตัว พร้อมเผื่อระยะความปลอดภัยไว้
- เช่นเดียวกับที่วิศวกรยุควิกตอเรียเผื่อส่วนเกินในการออกแบบเพื่อรับมือกับความไม่แน่นอนของวัสดุ ระบบ AI ก็ควรนำแนวคิดเรื่องขีดจำกัดความปลอดภัย ระดับความเสี่ยงที่ยอมรับได้ และอัตราความผิดพลาดมาใช้
- ถึงเวลาที่ระบบ AI ต้องมีบรรทัดฐานเรื่องขีดจำกัดที่ชัดเจนและระยะเผื่อด้านความปลอดภัย เหมือนกับสะพานในโลกจริงที่มีข้อจำกัดด้านน้ำหนักบรรทุก
ปัญหาความปลอดภัยโดยเนื้อแท้ของ LLM
- โมเดลภาษาขนาดใหญ่มีข้อบกพร่องเชิงโครงสร้างที่ไม่สามารถแยกโค้ดออกจากข้อมูลได้
- ด้วยเหตุนี้จึงเสี่ยงต่อการโจมตีแบบ prompt injection
- หลอกให้ระบบทำตามคำสั่งที่ไม่ควรเชื่อฟัง
- บางกรณีอาจให้ผลลัพธ์ที่น่าอึดอัดใจ เช่น ทำให้เอเจนต์ฝ่ายบริการลูกค้าพูดเหมือนโจรสลัด
- แต่ในบางกรณีก็ก่อให้เกิดความเสียหายที่รุนแรงกว่ามาก
ชุดสามประสานร้ายแรง (Lethal Trifecta)
- ผลกระทบที่เลวร้ายที่สุดเกิดขึ้นเมื่อสร้าง**“องค์ประกอบร้ายแรง 3 ประการ”** ขึ้นมา
- องค์ประกอบทั้ง 3 ได้แก่
- สิทธิ์ในการเข้าถึงข้อมูลที่ไม่น่าเชื่อถือ
- ความสามารถในการอ่านข้อมูลลับสำคัญ
- ความสามารถในการสื่อสารกับโลกภายนอก
- หากองค์กรต้องการมอบ AI assistant ทรงพลังให้พนักงาน แล้วให้ทั้งสามสิ่งนี้พร้อมกัน ก็แทบเลี่ยงปัญหาร้ายแรงไม่พ้น
- ไม่ใช่แค่วิศวกร AI เท่านั้น แต่ผู้ใช้ทั่วไปก็ควรเรียนรู้วิธีใช้ AI อย่างปลอดภัย
- เพราะการติดตั้งชุดแอปที่ไม่เหมาะสมอาจทำให้องค์ประกอบทั้ง 3 นี้เกิดขึ้นโดยไม่ตั้งใจ
จำเป็นต้องเปลี่ยนวิธีคิดของวิศวกร AI
คิดแบบวิศวกรเครื่องกล
- วิศวกรรม AI ที่ดีกว่าคือแนวป้องกันด่านแรก
- วิศวกร AI ควรคิดแบบวิศวกรที่สร้างโครงสร้างอย่างสะพาน
- ตระหนักว่างานที่หละหลวมอาจคร่าชีวิตผู้คนได้
บทเรียนจากวิศวกรรมยุควิกตอเรีย
- สิ่งก่อสร้างอันยิ่งใหญ่ของอังกฤษยุควิกตอเรียถูกสร้างโดยวิศวกรที่ไม่สามารถมั่นใจในคุณสมบัติของวัสดุได้เต็มที่
- ในเวลานั้น เหล็กมักมีคุณภาพต่ำจากทั้งความไร้ความสามารถหรือการทุจริต
- ผลลัพธ์คือวิศวกรเลือกความรอบคอบและใส่ความซ้ำซ้อนผ่านการออกแบบเผื่อเกิน
- และนั่นทำให้เกิดผลงานชิ้นเอกที่ยืนหยัดมาหลายศตวรรษ
ปัญหาของอุตสาหกรรมความปลอดภัย AI ในปัจจุบัน
- ผู้ให้บริการด้านความปลอดภัย AI ยังไม่ได้คิดในลักษณะนี้
- การเขียนโค้ดแบบเดิมเป็นแนวทางเชิงกำหนดตายตัว
- ช่องโหว่ด้านความปลอดภัยถูกมองว่าเป็นบั๊กที่ต้องแก้
- แก้แล้วก็หายไป
- วิศวกร AI คุ้นชินกับวิธีคิดแบบนี้มาตั้งแต่สมัยเรียน
- จึงมักทำเหมือนว่าเพิ่มข้อมูลฝึกมากขึ้นและเขียน system prompt ให้ฉลาดขึ้นก็จะแก้ปัญหาได้
แนวทางที่เหมาะกับระบบเชิงความน่าจะเป็น
ข้อจำกัดของข้อมูลฝึกและพรอมป์ต์
- ข้อมูลฝึกและพรอมป์ต์ที่ชาญฉลาดช่วยลดความเสี่ยงได้จริง
- โมเดลรุ่นใหม่ที่ฉลาดที่สุดสามารถตรวจจับและปฏิเสธคำขออันตรายได้ดีกว่าโมเดลรุ่นเก่าหรือโมเดลขนาดเล็ก
- แต่ก็ไม่อาจกำจัดความเสี่ยงได้ทั้งหมด
- ต่างจากซอฟต์แวร์ส่วนใหญ่ LLM เป็นระบบเชิงความน่าจะเป็น
- เอาต์พุตถูกกำหนดโดยการสุ่มเลือกจากคำตอบที่เป็นไปได้
- ดังนั้นแนวทางความปลอดภัยแบบกำหนดตายตัวจึงไม่เหมาะสม
เลียนแบบวิศวกรรมในโลกกายภาพ
- วิธีที่ดีกว่าคือเลียนแบบวิศวกรในโลกกายภาพ
- เรียนรู้การทำงานร่วมกับระบบที่คาดเดาไม่ได้
- แทนที่จะต่อสู้กับระบบที่เอาแน่เอานอนไม่ได้และไม่สามารถรับประกันได้ว่าจะทำงานตามเจตนา ก็หันมาทำงานร่วมกับมัน
- นำแนวคิดเรื่องระยะเผื่อความปลอดภัย ระดับความเสี่ยงที่ยอมรับได้ และอัตราความผิดพลาดมาใช้ เพื่อรับมือกับความคาดเดาไม่ได้อย่างเหมาะสมขึ้น
กลยุทธ์การออกแบบเผื่อเกินในยุค AI
- ใช้โมเดลที่ทรงพลังกว่าที่จำเป็น
- เพื่อลดความเสี่ยงที่จะถูกหลอกให้แสดงพฤติกรรมที่ไม่เหมาะสม
- กำหนดขีดจำกัดจำนวน query ที่ LLM รับได้จากแหล่งภายนอก
- และปรับให้สอดคล้องกับระดับความเสียหายที่อาจเกิดจาก query อันตราย
- เน้นการล้มเหลวอย่างปลอดภัย
- หากระบบ AI จำเป็นต้องเข้าถึงความลับ ก็ไม่ควรมอบกุญแจของอาณาจักรทั้งหมดให้มัน
ความจำเป็นของการกำหนดขีดจำกัดความปลอดภัย
- ในโลกกายภาพ สะพานมีข้อจำกัดด้านน้ำหนักบรรทุก
- แม้ผู้ขับขี่จะไม่ได้เห็นอย่างชัดเจนเสมอไป แต่ข้อจำกัดนั้นมีอยู่
- ประเด็นสำคัญคือ ข้อจำกัดเหล่านี้มีระยะเผื่อมากพอภายในขอบเขตที่คำนวณได้ว่าสะพานรับได้จริง
- ตอนนี้ถึงเวลาที่โลกเสมือนของระบบ AI ต้องมีสิ่งที่คล้ายกัน
- การออกแบบระบบที่มีขีดจำกัดความปลอดภัยชัดเจนและมีระยะเผื่อจึงเป็นสิ่งจำเป็น
1 ความคิดเห็น
ความคิดเห็นใน Hacker News