Cloudflare เปิดตัวไฟร์วอลล์สำหรับ AI

xguru · 2024-03-06T10:32:02+09:00

Cloudflare ประกาศพัฒนา 'Firewall for AI' ซึ่งเป็นชั้นการป้องกันแบบใหม่ที่วางไว้หน้าโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) เพื่อระบุการใช้งานในทางที่ผิด การใช้ LLM เป็นแอปพลิเคชันที่เชื่อมต่อกับอินเทอร์เน็ตก่อให้เกิดช่องโหว่รูปแบบใหม่ และอาจถูกผู้ไม่หวังดีนำไปใช้ประโยชน์ได้ นอกจากช่องโหว่ที่ส่งผลต่อเว็บและ API แอปพลิเคชันแบบเดิมแล้ว ยังมีภัยคุกคามใหม่ที่เกิดจากลักษณะการทำงานของ LLM เอง Firewall for AI เป็นเว็บแอปพลิเคชันไฟร์วอลล์ (WAF) ขั้นสูงที่ออกแบบมาสำหรับแอปพลิเคชันที่ใช้ LLM โดยเฉพาะ พร้อมชุดเครื่องมือสำหรับตรวจจับช่องโหว่และมอบการมองเห็นให้เจ้าของโมเดล ทำไม LLM จึงแตกต่างจากแอปพลิเคชันแบบดั้งเดิม? เมื่อมอง LLM ในฐานะแอปพลิเคชันที่เชื่อมต่ออินเทอร์เน็ต จะมีความแตกต่างหลักสองประการเมื่อเทียบกับเว็บแอปแบบดั้งเดิม ประการแรก วิธีที่ผู้ใช้โต้ตอบกับผลิตภัณฑ์แตกต่างกัน แอปแบบดั้งเดิมมีความเป็นเชิงกำหนด ขณะที่ LLM ไม่เป็นเชิงกำหนดและอิงกับภาษาธรรมชาติ ประการที่สอง วิธีที่ control plane ของแอปพลิเคชันโต้ตอบกับข้อมูลแตกต่างกัน ในแอปพลิเคชันแบบดั้งเดิม control plane (โค้ด) และ data plane (ฐานข้อมูล) แยกจากกันค่อนข้างชัดเจน แต่ใน LLM ข้อมูลสำหรับการฝึกกลายเป็นส่วนหนึ่งของตัวโมเดลเอง ทำให้ควบคุมการแบ่งปันข้อมูลผ่านพรอมป์ต์ของผู้ใช้ได้ยาก ช่องโหว่ LLM ของ OWASP มูลนิธิ OWASP ได้เผยแพร่ 10 อันดับช่องโหว่ของ LLM ซึ่งเป็นกรอบแนวคิดที่มีประโยชน์สำหรับการคิดเรื่องการปกป้อง language model ภัยคุกคามบางส่วนคล้ายกับ OWASP Top 10 ของเว็บแอปพลิเคชัน แต่ก็มีภัยคุกคามที่เฉพาะเจาะจงกับ language model ด้วย การปรับใช้งาน LLM ความเสี่ยงของ LLM แตกต่างกันไปตามรูปแบบการปรับใช้ ปัจจุบันมีแนวทางหลักอยู่ 3 แบบ Internal LLM (ภายใน): องค์กรพัฒนา LLM เพื่อช่วยพนักงานในการทำงานประจำวัน ซึ่งถือเป็นทรัพย์สินของบริษัทและไม่ควรให้บุคคลภายนอกพนักงานเข้าถึง ตัวอย่างเช่น AI copilot ที่ฝึกจากข้อมูลการขายและการโต้ตอบกับลูกค้าเพื่อสร้างข้อเสนอเฉพาะบุคคล หรือ LLM ที่ฝึกจากฐานความรู้ภายในซึ่งวิศวกรสามารถค้นหาได้ Public LLM (สาธารณะ): LLM ที่บุคคลภายนอกองค์กรก็เข้าถึงได้ โซลูชันลักษณะนี้มักมีเวอร์ชันฟรีที่ทุกคนใช้งานได้ และมักฝึกจากความรู้ทั่วไปหรือความรู้สาธารณะ ตัวอย่างเช่น GPT ของ OpenAI หรือ Claude ของ Anthropic Product LLM (ผลิตภัณฑ์): ในมุมมองขององค์กร LLM อาจเป็นส่วนหนึ่งของผลิตภัณฑ์หรือบริการที่มอบให้ลูกค้า โดยทั่วไปเป็นโซลูชันแบบปรับแต่งที่โฮสต์เอง และสามารถใช้เป็นเครื่องมือที่โต้ตอบกับทรัพยากรของบริษัทได้ เช่น แชตบอตฝ่ายสนับสนุนลูกค้า หรือ Cloudflare AI Assistant ในทุกสถานการณ์ จำเป็นต้องปกป้องโมเดลจากการใช้งานในทางที่ผิด ปกป้องข้อมูลกรรมสิทธิ์ที่เก็บอยู่ในโมเดล และปกป้องผู้ใช้จากข้อมูลที่ผิดหรือเนื้อหาที่ไม่เหมาะสม ไฟร์วอลล์สำหรับ AI Firewall for AI ของ Cloudflare ถูกวางใช้งานในลักษณะเดียวกับ WAF แบบดั้งเดิม โดยจะสแกนคำขอ API ที่มีพรอมป์ต์ LLM ทั้งหมดเพื่อตรวจจับรูปแบบและลายเซ็นของการโจมตีที่เป็นไปได้ สามารถวางไว้หน้าโมเดลที่โฮสต์บนแพลตฟอร์ม Cloudflare Workers AI หรือโมเดลที่โฮสต์บนโครงสร้างพื้นฐานของบุคคลที่สาม และสามารถใช้งานร่วมกับ Cloudflare AI Gateway ได้ การป้องกันการโจมตีเชิงปริมาณ หนึ่งในภัยคุกคามที่ OWASP ระบุไว้คือ Model Denial of Service เช่นเดียวกับแอปพลิเคชันแบบดั้งเดิม การโจมตีแบบ DoS จะใช้ทรัพยากรมากเกินไปจนทำให้คุณภาพบริการลดลง หรือเพิ่มต้นทุนการดำเนินงานของโมเดล ความเสี่ยงนี้สามารถบรรเทาได้ด้วยการใช้นโยบาย rate limiting เพื่อควบคุมอัตราคำขอในแต่ละเซสชัน การระบุข้อมูลอ่อนไหว กรณีใช้งานเกี่ยวกับข้อมูลอ่อนไหวมีอยู่ 2 แบบ โดยขึ้นอยู่กับว่าคุณเป็นเจ้าของโมเดลและข้อมูลเอง หรือกำลังพยายามป้องกันไม่ให้ผู้ใช้ส่งข้อมูลไปยัง Public LLM Sensitive Information Disclosure ตามที่ OWASP นิยามไว้ เกิดขึ้นเมื่อ LLM เปิดเผยข้อมูลลับในคำตอบโดยไม่ตั้งใจ ซึ่งอาจนำไปสู่การเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต การละเมิดความเป็นส่วนตัว และการละเมิดความปลอดภัย การป้องกันการใช้งานโมเดลในทางที่ผิด (Preventing Abuse) การใช้งานโมเดลในทางที่ผิดครอบคลุมหลายแนวทาง เช่น 'prompt injection' หรือการส่งคำขอเพื่อกระตุ้นให้เกิด hallucination หรือทำให้สร้างคำตอบที่ไม่ถูกต้อง ไม่น่าพอใจ ไม่เหมาะสม หรือไม่ตรงประเด็น Prompt injection คือความพยายามในการชักจูง language model ผ่านอินพุตที่สร้างขึ้นเป็นพิเศษ เพื่อทำให้ LLM ตอบสนองในแบบที่ไม่ได้ตั้งใจ วิธีใช้งานไฟร์วอลล์สำหรับ AI ลูกค้าองค์กรที่ใช้ "Application Security Advanced" สามารถใช้ Advanced Rate Limiting และ Sensitive Data Detection ได้ทันที ฟีเจอร์ตรวจสอบพรอมป์ต์ของ Firewall for AI ยังอยู่ระหว่างการพัฒนา และมีแผนจะเปิดเบต้าให้ผู้ใช้ Workers AI ภายในไม่กี่เดือนข้างหน้า

(blog.cloudflare.com)

7 คะแนน โดย xguru 2024-03-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Cloudflare ประกาศพัฒนา 'Firewall for AI' ซึ่งเป็นชั้นการป้องกันแบบใหม่ที่วางไว้หน้าโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) เพื่อระบุการใช้งานในทางที่ผิด
การใช้ LLM เป็นแอปพลิเคชันที่เชื่อมต่อกับอินเทอร์เน็ตก่อให้เกิดช่องโหว่รูปแบบใหม่ และอาจถูกผู้ไม่หวังดีนำไปใช้ประโยชน์ได้
นอกจากช่องโหว่ที่ส่งผลต่อเว็บและ API แอปพลิเคชันแบบเดิมแล้ว ยังมีภัยคุกคามใหม่ที่เกิดจากลักษณะการทำงานของ LLM เอง
Firewall for AI เป็นเว็บแอปพลิเคชันไฟร์วอลล์ (WAF) ขั้นสูงที่ออกแบบมาสำหรับแอปพลิเคชันที่ใช้ LLM โดยเฉพาะ พร้อมชุดเครื่องมือสำหรับตรวจจับช่องโหว่และมอบการมองเห็นให้เจ้าของโมเดล

ทำไม LLM จึงแตกต่างจากแอปพลิเคชันแบบดั้งเดิม?

เมื่อมอง LLM ในฐานะแอปพลิเคชันที่เชื่อมต่ออินเทอร์เน็ต จะมีความแตกต่างหลักสองประการเมื่อเทียบกับเว็บแอปแบบดั้งเดิม
ประการแรก วิธีที่ผู้ใช้โต้ตอบกับผลิตภัณฑ์แตกต่างกัน แอปแบบดั้งเดิมมีความเป็นเชิงกำหนด ขณะที่ LLM ไม่เป็นเชิงกำหนดและอิงกับภาษาธรรมชาติ
ประการที่สอง วิธีที่ control plane ของแอปพลิเคชันโต้ตอบกับข้อมูลแตกต่างกัน ในแอปพลิเคชันแบบดั้งเดิม control plane (โค้ด) และ data plane (ฐานข้อมูล) แยกจากกันค่อนข้างชัดเจน แต่ใน LLM ข้อมูลสำหรับการฝึกกลายเป็นส่วนหนึ่งของตัวโมเดลเอง ทำให้ควบคุมการแบ่งปันข้อมูลผ่านพรอมป์ต์ของผู้ใช้ได้ยาก

ช่องโหว่ LLM ของ OWASP

มูลนิธิ OWASP ได้เผยแพร่ 10 อันดับช่องโหว่ของ LLM ซึ่งเป็นกรอบแนวคิดที่มีประโยชน์สำหรับการคิดเรื่องการปกป้อง language model
ภัยคุกคามบางส่วนคล้ายกับ OWASP Top 10 ของเว็บแอปพลิเคชัน แต่ก็มีภัยคุกคามที่เฉพาะเจาะจงกับ language model ด้วย

การปรับใช้งาน LLM

ความเสี่ยงของ LLM แตกต่างกันไปตามรูปแบบการปรับใช้ ปัจจุบันมีแนวทางหลักอยู่ 3 แบบ
- Internal LLM (ภายใน): องค์กรพัฒนา LLM เพื่อช่วยพนักงานในการทำงานประจำวัน ซึ่งถือเป็นทรัพย์สินของบริษัทและไม่ควรให้บุคคลภายนอกพนักงานเข้าถึง ตัวอย่างเช่น AI copilot ที่ฝึกจากข้อมูลการขายและการโต้ตอบกับลูกค้าเพื่อสร้างข้อเสนอเฉพาะบุคคล หรือ LLM ที่ฝึกจากฐานความรู้ภายในซึ่งวิศวกรสามารถค้นหาได้
- Public LLM (สาธารณะ): LLM ที่บุคคลภายนอกองค์กรก็เข้าถึงได้ โซลูชันลักษณะนี้มักมีเวอร์ชันฟรีที่ทุกคนใช้งานได้ และมักฝึกจากความรู้ทั่วไปหรือความรู้สาธารณะ ตัวอย่างเช่น GPT ของ OpenAI หรือ Claude ของ Anthropic
- Product LLM (ผลิตภัณฑ์): ในมุมมองขององค์กร LLM อาจเป็นส่วนหนึ่งของผลิตภัณฑ์หรือบริการที่มอบให้ลูกค้า โดยทั่วไปเป็นโซลูชันแบบปรับแต่งที่โฮสต์เอง และสามารถใช้เป็นเครื่องมือที่โต้ตอบกับทรัพยากรของบริษัทได้ เช่น แชตบอตฝ่ายสนับสนุนลูกค้า หรือ Cloudflare AI Assistant
ในทุกสถานการณ์ จำเป็นต้องปกป้องโมเดลจากการใช้งานในทางที่ผิด ปกป้องข้อมูลกรรมสิทธิ์ที่เก็บอยู่ในโมเดล และปกป้องผู้ใช้จากข้อมูลที่ผิดหรือเนื้อหาที่ไม่เหมาะสม

ไฟร์วอลล์สำหรับ AI

Firewall for AI ของ Cloudflare ถูกวางใช้งานในลักษณะเดียวกับ WAF แบบดั้งเดิม โดยจะสแกนคำขอ API ที่มีพรอมป์ต์ LLM ทั้งหมดเพื่อตรวจจับรูปแบบและลายเซ็นของการโจมตีที่เป็นไปได้
สามารถวางไว้หน้าโมเดลที่โฮสต์บนแพลตฟอร์ม Cloudflare Workers AI หรือโมเดลที่โฮสต์บนโครงสร้างพื้นฐานของบุคคลที่สาม และสามารถใช้งานร่วมกับ Cloudflare AI Gateway ได้

การป้องกันการโจมตีเชิงปริมาณ

หนึ่งในภัยคุกคามที่ OWASP ระบุไว้คือ Model Denial of Service
เช่นเดียวกับแอปพลิเคชันแบบดั้งเดิม การโจมตีแบบ DoS จะใช้ทรัพยากรมากเกินไปจนทำให้คุณภาพบริการลดลง หรือเพิ่มต้นทุนการดำเนินงานของโมเดล
ความเสี่ยงนี้สามารถบรรเทาได้ด้วยการใช้นโยบาย rate limiting เพื่อควบคุมอัตราคำขอในแต่ละเซสชัน

การระบุข้อมูลอ่อนไหว

กรณีใช้งานเกี่ยวกับข้อมูลอ่อนไหวมีอยู่ 2 แบบ โดยขึ้นอยู่กับว่าคุณเป็นเจ้าของโมเดลและข้อมูลเอง หรือกำลังพยายามป้องกันไม่ให้ผู้ใช้ส่งข้อมูลไปยัง Public LLM
Sensitive Information Disclosure ตามที่ OWASP นิยามไว้ เกิดขึ้นเมื่อ LLM เปิดเผยข้อมูลลับในคำตอบโดยไม่ตั้งใจ ซึ่งอาจนำไปสู่การเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต การละเมิดความเป็นส่วนตัว และการละเมิดความปลอดภัย

การป้องกันการใช้งานโมเดลในทางที่ผิด (Preventing Abuse)

การใช้งานโมเดลในทางที่ผิดครอบคลุมหลายแนวทาง เช่น 'prompt injection' หรือการส่งคำขอเพื่อกระตุ้นให้เกิด hallucination หรือทำให้สร้างคำตอบที่ไม่ถูกต้อง ไม่น่าพอใจ ไม่เหมาะสม หรือไม่ตรงประเด็น
Prompt injection คือความพยายามในการชักจูง language model ผ่านอินพุตที่สร้างขึ้นเป็นพิเศษ เพื่อทำให้ LLM ตอบสนองในแบบที่ไม่ได้ตั้งใจ

วิธีใช้งานไฟร์วอลล์สำหรับ AI

ลูกค้าองค์กรที่ใช้ "Application Security Advanced" สามารถใช้ Advanced Rate Limiting และ Sensitive Data Detection ได้ทันที
ฟีเจอร์ตรวจสอบพรอมป์ต์ของ Firewall for AI ยังอยู่ระหว่างการพัฒนา และมีแผนจะเปิดเบต้าให้ผู้ใช้ Workers AI ภายในไม่กี่เดือนข้างหน้า

1 ความคิดเห็น

xguru 2024-03-06

ความเห็นบน Hacker News

แม้จะมีการอ้างว่า prompt injection กับการ jailbreak เป็นคนละอย่างกัน แต่ดูเหมือนว่าข้อถกเถียงนี้จะแพ้ไปแล้ว ตามบทความของ Cloudflare การใช้โมเดลในทางที่ผิดหมายถึงหมวดหมู่การใช้งานผิดที่กว้างกว่า ซึ่งรวมถึงแนวทางอย่าง prompt injection ด้วย prompt injection เกิดขึ้นเมื่อผู้พัฒนาเชื่อม prompt ที่กำหนดไว้กับอินพุตที่ไม่น่าเชื่อถือจากผู้ใช้ หากไม่มีการเชื่อมอินพุตที่เชื่อถือได้กับอินพุตที่ไม่น่าเชื่อถือ ก็ไม่ถือว่าเป็น prompt injection การแยกความต่างนี้สำคัญ และโมเดลที่ฝึกมาเพื่อรับมือการโจมตีแบบ jailbreak ทั่วไปก็น่าจะจับสิ่งนี้ได้ยาก
WAF (Web Application Firewall) เป็นทางออกชั่วคราวสำหรับบริการเว็บที่ทีมความปลอดภัยควบคุมหรือทำความเข้าใจไม่ได้ ความนิยมของมันลดลงเพราะปัญหาด้านประสิทธิภาพและความยากในการปรับแต่งเพื่อบล็อกทราฟฟิกที่เป็นอันตรายได้อย่างมีประสิทธิภาพ แนวทางแบบอิง WAF เป็นการยอมรับความไม่รู้และตำแหน่งของจุดอ่อน ส่วนการย้ายไปใช้โมเดลนั้นยังไม่ผ่านการพิสูจน์ และขัดกับแนวคิดอย่างการป้องกันตัวเองแบบตอบสนองของแอป
ฉันต้องการการป้องกันไม่ให้เว็บไซต์ของฉันถูกสแครปไปเพื่อใช้ฝึก AI แม้จะรู้สึกอยู่แล้วว่านี่เป็นการต่อสู้ที่แพ้ไปตั้งแต่ต้น แต่ก็ได้รู้ว่าคนที่ให้ความสำคัญกับความเป็นส่วนตัวก็คิดแบบเดียวกัน
เช่นเดียวกับผลิตภัณฑ์ส่วนใหญ่ของ Cloudflare ผลิตภัณฑ์นี้ก็ยิ่งมีประโยชน์มากขึ้นเมื่อมีลูกค้าใช้งานมากขึ้น และต้องใช้ความพยายามแบบแมนนวลต่อลูกค้าน้อยลง คุณค่าของ Cloudflare ไม่ได้อยู่ที่การตั้งค่าหรือการรับประกัน แต่อยู่ที่การมองเห็นการโจมตีที่คนอื่นทั้งหมดกำลังเห็นอยู่แทบจะเรียลไทม์ และการแพ็กสิ่งนั้นออกมาเป็นผลิตภัณฑ์
ผลิตภัณฑ์นี้ดูเป็นไอเดียที่ดีมาก เมื่อมันง่ายพอๆ กับการเพิ่มและเปิดไฟร์วอลล์ ก็ย่อมดึงความสนใจและการยอมรับได้ง่ายกว่าผลิตภัณฑ์ guardrail อื่นๆ ฉันสงสัยว่าไฟร์วอลล์สำหรับ LLM แบบทั่วไปจะมีประโยชน์ได้มากแค่ไหน และจะต้องหรือสามารถปรับแต่งให้เข้ากับโมเดลและกรณีใช้งานได้มากเพียงใด แต่ก็ดูเหมือนว่าจะจัดการได้ไม่ยาก
เท่าที่อ่านจากโพสต์นี้ Cloudflare กำลังเอาตัวเองไปพัวพันกับการเซ็นเซอร์และสงครามวัฒนธรรม ผู้ใช้แบบเสียเงินของ Cloudflare จะจ่ายเงินเพื่อผลักดันอคติทางการเมืองของตัวเองผ่าน Cloudflare ขณะที่ผู้ใช้ AI ก็จะกล่าวหา Cloudflare ว่าสนับสนุนการเซ็นเซอร์ Cloudflare อาจเข้าไปติดหล่มการต่อสู้ทางการเมืองโดยไม่จำเป็น
กำลังใช้ AI เพื่อกรองคำขออยู่หรือ? ถ้าใช่ นี่คงเป็นการจับคู่ที่สวรรค์สร้างมา!
[โน้มตัวเข้าหาไมค์] ส่วนผสมลับคือ regular expression
ฉันคิดมาสักพักแล้วว่าอยากทำอะไรบางอย่างในแนวคิดคล้ายกันสำหรับ smart payment credentials ในสถานการณ์ที่ LLM เป็นผู้ตัดสินใจว่าจะซื้อหรือไม่ซื้อ เพื่อป้องกันการใช้งาน LLM ในทางที่ผิด แนวคิดคือจะออกโทเคนใช้ครั้งเดียว (หรืออะไรทำนองนั้น) ก็ต่อเมื่อมีการร้องขอข้อมูลรับรองการชำระเงินผ่าน chain ที่ถูกต้องตามกฎหมายเท่านั้น ถ้ามีใครกำลังคิดเรื่องนี้อยู่ ฉันอยากคุยด้วย
ฉันคิดมานานแล้วว่าพวกเขาจะไล่ตามของใหญ่ชิ้นถัดไปทางการตลาดต่อไปเรื่อยๆ ก็ดี แบบนี้จะยิ่งเปิดพื้นที่ให้มีการแข่งขันมากขึ้นสำหรับบริษัทในตลาด CDN/DNS/WAF ที่ยังใส่ใจกับเรื่องแบบนั้นอยู่