1 คะแนน โดย GN⁺ 2023-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ประกาศโครงการ Purple Llama

  • Purple Llama เป็นโครงการที่มอบเครื่องมือและการประเมินด้านความเชื่อถือและความปลอดภัยแบบเปิด เพื่อช่วยให้นักพัฒนาสามารถนำโมเดล generative AI ไปใช้งานได้อย่างมีความรับผิดชอบ
  • CyberSec Eval คือชุดเบนช์มาร์กสำหรับประเมินความปลอดภัยทางไซเบอร์ของ LLM และ Llama Guard คือระบบจัดประเภทด้านความปลอดภัยสำหรับการกรองอินพุต/เอาต์พุตที่นำไปใช้งานได้ง่าย
  • มีแผนจะมอบเครื่องมือเหล่านี้ให้กับชุมชนโอเพนซอร์ส โดยร่วมมือกับ AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI และอีกหลายราย

นวัตกรรมใหม่ของ generative AI

  • generative AI เป็นเทคโนโลยีพลิกวงการที่ทำให้เกิด AI แบบสนทนา การสร้างภาพที่สมจริง และการสรุปเอกสารขนาดใหญ่ได้
  • โมเดล Llama ถูกดาวน์โหลดไปแล้วมากกว่า 100 ล้านครั้ง และนวัตกรรมเหล่านี้ขับเคลื่อนโดยโมเดลแบบเปิด
  • ความร่วมมือด้านความปลอดภัยมีความสำคัญเพื่อช่วยให้นักพัฒนาสร้างความเชื่อมั่น และทำการวิจัยรวมถึงมีส่วนร่วมกับ AI อย่างมีความรับผิดชอบ

ก้าวแรกของโครงการ Purple Llama

  • ความปลอดภัยทางไซเบอร์และความปลอดภัยของพรอมป์ต์ LLM เป็นประเด็นสำคัญของความปลอดภัยใน generative AI ณ เวลานี้
  • เบนช์มาร์กการประเมินด้านไซเบอร์ซีเคียวริตี้สร้างขึ้นจากแนวทางและมาตรฐานอุตสาหกรรม เช่น CWE และ MITRE ATT&CK พร้อมทั้งพัฒนาร่วมกับผู้เชี่ยวชาญด้านความปลอดภัย
  • Llama Guard มอบโมเดลที่เปิดให้ใช้งานสาธารณะ เพื่อช่วยให้นักพัฒนาป้องกันเอาต์พุตที่เป็นอันตรายได้

ความสำคัญของทีม Purple

  • การรับมือความท้าทายของ generative AI จำเป็นต้องมีทั้งมุมมองเชิงรุกด้านการโจมตี (red team) และเชิงรับด้านการป้องกัน (blue team)
  • ทีม Purple เป็นแนวทางแบบร่วมมือที่รวมความรับผิดชอบของทั้ง red team และ blue team เข้าไว้ด้วยกัน และจิตวิญญาณเดียวกันนี้ก็ถูกนำมาใช้กับ generative AI

ความพยายามสู่ระบบนิเวศแบบเปิด

  • Meta ยึดถือการวิจัยเชิงสำรวจ โอเพนไซเอนซ์ และความร่วมมือข้ามองค์กรเป็นรากฐานของความพยายามด้าน AI และมองว่านี่เป็นโอกาสสำคัญในการสร้างระบบนิเวศแบบเปิด
  • มีแผนจะผลักดันความเชื่อถือและความปลอดภัยแบบเปิดร่วมกับพาร์ตเนอร์จำนวนมาก เช่น AI Alliance, AMD, Anyscale, AWS และอีกหลายราย

ทิศทางในอนาคต

  • มีแผนจัดเวิร์กช็อปในงาน NeurIPS 2023 เพื่อแบ่งปันเครื่องมือเหล่านี้และนำเสนอการวิเคราะห์เชิงเทคนิคแบบเจาะลึก
  • แนวทางด้านความปลอดภัยและแนวปฏิบัติที่ดีที่สุดจำเป็นต้องอาศัยการพูดคุยอย่างต่อเนื่อง และคาดหวังความคิดเห็นจากชุมชน

ความเห็นของ GN⁺

  • ประเด็นสำคัญที่สุดของบทความนี้คือ Meta ได้ประกาศโครงการ Purple Llama เพื่อสนับสนุนการใช้งานเทคโนโลยี generative AI อย่างปลอดภัยและมีความรับผิดชอบ
  • โครงการนี้มีเป้าหมายเพื่อช่วยให้นักพัฒนานำ generative AI ไปใช้งานได้อย่างปลอดภัย โดยมีทั้งเครื่องมือประเมินด้านไซเบอร์ซีเคียวริตี้และโมเดลสำหรับกรองอินพุต/เอาต์พุต
  • ความพยายามเหล่านี้คาดว่าจะช่วยส่งเสริมความก้าวหน้าของเทคโนโลยี AI สร้างความเชื่อมั่นในชุมชนนักพัฒนา และเสริมความแข็งแกร่งให้กับระบบนิเวศโอเพนซอร์ส

1 ความคิดเห็น

 
GN⁺ 2023-12-08
ความคิดเห็นจาก Hacker News
  • ไม่เข้าใจว่าทำไมโครงการใหม่ด้าน "การนำโมเดลและประสบการณ์ AI ที่มีความรับผิดชอบไปใช้งาน" จึงดูขาดความตระหนักต่อภัยคุกคามจาก prompt injection
    • ในคู่มือการใช้งานอย่างมีความรับผิดชอบความยาว 27 หน้า พบการกล่าวถึง prompt injection เพียงครั้งเดียว โดยอธิบายผิดว่าเป็น "ความพยายามหลบเลี่ยงข้อจำกัดของเนื้อหา"
    • "CyberSecEval" ดูเหมือนจะเป็น benchmark สำหรับประเมินความเสี่ยงด้านความมั่นคงปลอดภัยไซเบอร์ของ large language model แต่ครอบคลุมเพียงความเสี่ยงที่โมเดลสร้างโค้ดจะผลิตโค้ดที่ไม่ปลอดภัย และความเสี่ยงที่ผู้โจมตีจะใช้ LLM เพื่อสร้างการโจมตีรูปแบบใหม่
    • "Llama Guard" สนใจเพียงการตรวจจับเนื้อหาที่เป็นอันตรายเป็นภาษาอังกฤษในหลายหมวดหมู่ และน่าดีใจที่อย่างน้อยก็ไม่ได้พยายามปล่อยโมเดลตรวจจับ prompt injection ออกมา
    • prompt injection คือความท้าทายที่ใหญ่ที่สุดที่ต้องเอาชนะเพื่อให้สามารถนำแอปพลิเคชันที่อิงกับ LLM เช่น AI assistant ส่วนบุคคล ไปใช้งานอย่างมีความรับผิดชอบ เพราะมีความเสี่ยงที่จะเกิดความผิดพลาดเมื่อ LLM เข้าถึงทั้งข้อมูลส่วนตัวและอินพุตที่ไม่น่าเชื่อถือพร้อมกัน เช่น อีเมลที่ต้องสรุป
  • ในฐานะนักวิจัยด้านความปลอดภัย การใช้ LLM เพื่อสร้างโค้ด "อันตราย" เป็นวัตถุประสงค์ที่ชอบธรรม ไม่ว่าจะเพื่อการฝึกปฏิบัติหรือเพื่อแสดงปัญหาให้ผู้รับผิดชอบเห็น ดังนั้นจึงทั้งดีใจและผิดหวังพร้อมกันกับการประกาศว่า LLM จะไม่ช่วยกับคำขอที่เกี่ยวข้องกับความมั่นคงปลอดภัยไซเบอร์
  • ไม่ว่านักวิจัยต้นทางจะทำอะไร ผู้คนก็จะฝึกหรือปรับแต่งโมเดลด้วยข้อมูลที่ไม่ผ่านการเซ็นเซอร์อยู่ดี และตอนนี้ก็มีโมเดลแบบไม่เซ็นเซอร์สำหรับ Llama ให้ใช้ได้ง่ายอยู่แล้ว ซึ่งทำผลงานได้ดีกว่าโมเดลที่ถูกเซ็นเซอร์ขนาดใกล้เคียงกัน
  • คำจำกัดความของชัยชนะสำหรับ Microsoft คือการเป็นโฮสต์ของผลิตภัณฑ์/บริการด้าน AI inference โดยปล่อยให้สตาร์ทอัพสร้างผลิตภัณฑ์ AI ที่มีประโยชน์ แล้ว MSFT ก็เก็บภาษีจากพวกเขาและสร้าง data center เพิ่ม
    • ยังไม่ได้คิดลึกเกี่ยวกับกลยุทธ์ของ Meta มากนัก แต่ตอนนี้อยากลองคิดดู
    • การเปิดตัว/การรั่วไหลของ Llama เมื่อต้นปีนี้ได้เปลี่ยนสมรภูมิ และผู้ชื่นชอบโอเพนซอร์สก็นำมันไปเริ่มทำ optimization ที่นักวิจัย AI ไม่เคยลองทำ
    • แรงผลักดันด้าน optimization นี้อาจมองได้ว่าเป็นการเลี่ยงไม่ให้คู่แข่งของ Meta กลายเป็นผู้มีอำนาจจัดเก็บภาษีขั้นสุดท้าย
    • สงสัยว่า Meta คาดหวังให้ชุมชนโอเพนซอร์สทำสงครามตัวแทนบางรูปแบบกับคู่แข่งในกลุ่ม FAANG หรือไม่
    • ไม่น่าคิดว่าชุมชนโอเพนซอร์สจะไว้ใจ Meta และกลุ่ม FOSS ก็ขึ้นชื่อว่าไม่ลืมความแค้น อีกทั้ง Meta ยังถูกมองว่าขัดกับอุดมการณ์หลักของพวกเขา
    • มองไม่เห็นเส้นทางที่ชัดเจนว่ากลยุทธ์ AI ของ Meta จะทำเงินให้ Meta ได้อย่างไร หรือจะพานักพัฒนา/ลูกค้าเข้าสู่ metaverse ได้อย่างไร
  • นี่ไม่ใช่โมเดลใหม่ แค่คำพูดเพ้อเจ้อเรื่อง "ความปลอดภัย" เท่านั้น
  • เคยคอมเมนต์บน Facebook ล้อเล่นเรื่องแมงมุมว่าให้เผาบ้านทิ้ง แล้วก็ถูก AI ปักธงอย่างรวดเร็ว จากนั้นการอุทธรณ์โดยมนุษย์ก็ถูกปฏิเสธอย่างรวดเร็วเช่นกัน จนเลิกใช้ Facebook ไปเลย
    • ขอเตือนให้จำไว้ว่า บริษัทเทคโนโลยี/โซเชียลมีเดียรายใหญ่ทุกแห่งชอบนำคำว่า "ความไว้วางใจและความปลอดภัย" กลับมาใช้ซ้ำ
  • เกิดเหตุการณ์ชวนขำที่ Meta ดูเหมือนกำลังเดินตามแนวทางของ Microsoft ในการสร้างประสบการณ์ล็อกอินที่ซับซ้อน
    • พยายามล็อกอินที่ ai.meta.com แต่พบว่าต้องมีบัญชี Meta
    • สร้างบัญชีแล้ว แต่ก็พบว่าใช้ไม่ได้ในภูมิภาคนั้น
  • ถ้าสามารถเข้าถึงโมเดลได้ ก็สงสัยว่าจะยากแค่ไหนในการ retrain หรือ fine-tune โมเดล LLM นี้เพื่อลบการ "lobotomize" หรือ "ความปลอดภัย" ออกไป
  • โมเดลนี้ใช้งานได้บน Hugging Face และสามารถรันฟรีบน Google Colab ได้
  • เคยใช้ ChatGPT สองครั้ง และทั้งสองครั้งก็ได้รับคำตอบผิดสำหรับคำถามพื้นฐานเกี่ยวกับงานดูแลระบบ Linux.