Machine Unlearning ในปี 2024

(ai.stanford.edu)

17 คะแนน โดย GN⁺ 2024-05-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Machine Unlearning หมายถึงการลบข้อมูลที่ไม่ต้องการออกจากโมเดลที่ฝึกแล้ว และความสนใจในการแก้ไขโมเดลโดยไม่ต้องฝึกใหม่ตั้งแต่ต้นกำลังเพิ่มขึ้น
- ตัวอย่างเช่น การลบข้อมูลส่วนบุคคล ความรู้ที่ล้าสมัย เนื้อหาที่มีลิขสิทธิ์ คอนเทนต์ที่เป็นอันตราย/เสี่ยง ความสามารถที่เสี่ยง และข้อมูลเท็จ เป็นต้น

รูปแบบของการ Unlearning

Exact unlearning
- กำหนดให้โมเดลที่ผ่านการ unlearn แล้วและโมเดลที่ฝึกใหม่มีการกระจายตัวเหมือนกัน
- หัวใจสำคัญคืออัลกอริทึมการเรียนรู้ต้องมีคอมโพเนนต์แบบโมดูลาร์ที่สอดคล้องกับชุดตัวอย่างการฝึกที่แตกต่างกัน
"Unlearning" ผ่าน Differential Privacy
- เป็นการทำให้โมเดลไม่พึ่งพาข้อมูลจุดใดจุดหนึ่งโดยเฉพาะ
- กำหนดให้มีความใกล้เคียงกันในเชิงการกระจายระหว่างโมเดลที่ unlearn แล้วกับโมเดลที่ฝึกใหม่
Empirical unlearning with known example space
- ใช้ในกรณีที่ทราบข้อมูลที่จะ unlearn ได้อย่างชัดเจน
- เป็นวิธี unlearn ผ่านการปรับจูนโมเดล
Empirical unlearning with unknown example space
- ใช้ในกรณีที่ขอบเขตหรือพรมแดนของข้อมูลที่จะ unlearn ไม่ชัดเจน
- เช่น การ unlearn แนวคิด ข้อเท็จจริง หรือความรู้
Just ask for unlearning
- เป็นวิธีขอให้ LLM ที่ทรงพลังทำการ unlearn โดยตรง

การประเมินผลการ Unlearning

การประเมินการ unlearn เป็นปัญหาที่ยากมาก โดยเฉพาะการขาดแคลนตัวชี้วัดและ benchmark ที่รุนแรง
ในการประเมินการ unlearn ควรเน้น 3 ด้านต่อไปนี้
- ประสิทธิภาพ: อัลกอริทึมเร็วกว่าเมื่อเทียบกับการฝึกใหม่มากแค่ไหน
- อรรถประโยชน์ของโมเดล: ประสิทธิภาพลดลงหรือไม่บนข้อมูลที่ต้องเก็บไว้หรือบนงานที่ตั้งฉากกัน
- คุณภาพของการลืม: ข้อมูลที่ต้องลืมถูก unlearn ไปจริงมากน้อยเพียงใด
มีการเสนอ benchmark อย่าง TOFU และ WMDP ในช่วงหลัง ซึ่งช่วยเรื่องการประเมินการ unlearn
- TOFU เน้นการ unlearn ข้อมูลส่วนบุคคลของผู้เขียน ส่วน WMDP เน้นการ unlearn ความรู้เสี่ยงด้านชีวภาพ/ความมั่นคงไซเบอร์
- เป็นการประเมินในระดับสูงที่อิงกับการครอบครองและความเข้าใจความรู้ แทนที่จะอิงกับอินสแตนซ์โดยตรง
ดูเหมือนว่ายังจำเป็นต้องมี benchmark การ unlearn ที่ยึดตามแอปพลิเคชัน เช่น ข้อมูลที่ระบุตัวบุคคลได้ ลิขสิทธิ์ ความเป็นอันตราย และ backdoor

สภาพความเป็นจริงและแนวโน้มของการ Unlearning

ความยากของการ unlearn มีอยู่เป็นสเปกตรัม
- การ unlearn ข้อความที่พบไม่บ่อยนั้นง่ายที่สุด และจะยากขึ้นตามลำดับเป็นข้อความที่พบถี่และข้อเท็จจริงพื้นฐาน
- เพราะยิ่งความรู้นั้นเป็นพื้นฐานมากเท่าไร ก็ยิ่งเชื่อมโยงกับความรู้อื่นมากขึ้น ทำให้ขอบเขตที่ต้อง unlearn เพิ่มขึ้นแบบทวีคูณ
- ตัวอย่างที่เรียนรู้ตั้งแต่ช่วงต้นอาจถูก "เขียนทับ" โดยตัวอย่างภายหลัง ทำให้ unlearn ได้ยาก
- ในทางกลับกัน ตัวอย่างที่เรียนรู้ในช่วงท้ายอาจถูกโมเดลลืมแบบค่อยเป็นค่อยไป/อย่างรุนแรง จึงทำให้ unlearn ได้ยากเช่นกัน
การคุ้มครองลิขสิทธิ์
- แม้ unlearning จะดูมีแนวโน้มที่ดีสำหรับการคุ้มครองลิขสิทธิ์ แต่ ณ ตอนนี้ภูมิทัศน์ทางกฎหมายยังไม่ชัดเจน
- หากการใช้คอนเทนต์ที่มีลิขสิทธิ์เข้าข่าย fair use ตามหลักกฎหมาย ก็อาจไม่จำเป็นต้อง unlearn
ระบบ AI แบบอิงการค้นคืน
- เป็นแนวทางที่ลบคอนเทนต์ที่อาจได้รับคำขอ unlearn ออกจากคอร์ปัส pretraining แล้วเก็บไว้ในฐานข้อมูลภายนอก
- เมื่อมีคำขอ unlearn ก็เพียงลบข้อมูลนั้นออกจาก DB
- แต่ยังมีปัญหาเรื่องการลบข้อมูลซ้ำ การจัดการคำอ้างอิง/การดัดแปลง และการโจมตีแบบดึงข้อมูลออกจากโมเดล
ความปลอดภัยของ AI
- สามารถใช้ unlearning เพื่อลบความรู้ พฤติกรรม และความสามารถที่เป็นอันตรายของโมเดลได้
- แต่ควรมองว่าเป็นเพียงหนึ่งในกลไกลดความเสี่ยงและกลไกป้องกันภายหลัง อีกทั้งต้องตระหนักว่ามี trade-off กับเครื่องมืออื่น เช่น alignment fine-tuning หรือการกรองคอนเทนต์

ความเห็นของ GN⁺

Machine Unlearning ยังอยู่ในช่วงเริ่มต้นของงานวิจัย และโดยเฉพาะในโมเดลภาษาขนาดใหญ่ก็ดูจะมีความยากอยู่มาก ยกเว้นกรณีพิเศษที่ทำ exact unlearning ได้ สถานการณ์ส่วนใหญ่ในตอนนี้ยังต้องพึ่งวิธีเชิงประจักษ์และเชิงประสบการณ์เป็นหลัก
ปัญหาเรื่องการประเมินการ unlearn ดูจะเป็นอุปสรรคที่ใหญ่ที่สุด นิยามและเกณฑ์ของการ unlearn ยังคลุมเครือ และเมื่อแต่ละแอปพลิเคชันมีบริบทต่างกัน การพัฒนาก็จะยากหากไม่มี benchmark และตัวชี้วัดที่เหมาะสม ช่วงหลังมี benchmark ที่เน้นแอปพลิเคชันอย่าง TOFU และ WMDP ออกมา จึงนับเป็นสัญญาณที่น่าสนับสนุน
ในประเด็นลิขสิทธิ์ นอกจาก unlearning แล้วอาจพิจารณาทางออกเชิงเศรษฐศาสตร์ร่วมด้วย เช่น ให้บริการ exact unlearning ผ่านการฝึกใหม่เป็นระยะ และในช่วงระหว่างนั้นให้เจ้าของโมเดลรับผิดชอบการละเมิดลิขสิทธิ์ที่เกิดขึ้น ซึ่ง OpenAI ก็กำลังทำในลักษณะนี้
ระบบที่อิงการค้นคืนมีข้อดีหลายอย่าง แต่เมื่อลงรายละเอียดแล้วก็ดูไม่ง่ายอย่างที่คิด ยังมีโจทย์มากมายที่ต้องแก้ เช่น การลบข้อมูลซ้ำ การระบุลิขสิทธิ์ และการป้องกันการโจมตีแบบดึงข้อมูลออกจากโมเดล ความสามารถด้าน in-context learning ของ LLM กำลังสูงขึ้น จึงอาจทำอะไรได้มากขึ้นด้วย retrieval เพียงอย่างเดียว แต่ก็ดูยากที่จะทดแทน fine-tuning ได้ทั้งหมด
ในมุมมองด้านความปลอดภัยของ AI นั้น unlearning เป็นหัวข้อวิจัยที่ค่อนข้างน่าสนใจ แต่ไม่ใช่คำตอบสารพัดนึก และควรใช้ร่วมกับเทคนิคป้องกันอื่น เช่น alignment และการกรอง คาดว่าเมื่อโมเดลมีความเป็นอิสระมากขึ้น ความสนใจในประเด็นนี้จากมุมมองนโยบาย/กฎระเบียบก็จะสูงขึ้นด้วย

2 ความคิดเห็น

xguru 2024-05-07

Machine Unlearning ในปี 2024

Google Machine Unlearning Challenge

GN⁺ 2024-05-06

ความคิดเห็นจาก Hacker News

แม้จะลบข้อมูลบางอย่างออกจากโมเดล ก็ยังมีปัญหาเชิงพื้นฐานที่มันอาจถูกเรียนรู้กลับได้อีกผ่านการอนุมานหรือการพรอมป์ต์
แทนที่จะกรองข้อมูลต้องห้ามโดยตรง อาจมีทางออกอยู่ที่น้ำหนักและแรงจูงใจที่ก่อรูปเป็นเลเยอร์การอนุมานสุดท้าย
โมเดลที่ "ปลอดภัย" ในปัจจุบันมักให้ผลลัพธ์ที่ไม่น่าพอใจ ซึ่งเป็นเพราะเรายังไม่ได้ต้องการโมเดลที่ซื่อตรง แต่ต้องการโมเดลที่เอื้อต่อการพัฒนาต่อเพิ่มเติม
อาจมีวิธีเข้ารหัสและถ่วงน้ำหนักหลักการที่ว่าโมเดลถูกสร้างขึ้นโดยบางสิ่งจากภายนอก
การลบชุดข้อมูลที่ละเมิดลิขสิทธิ์อาจเป็นวิธีที่ยอมรับได้ทางกฎหมายมากที่สุด
แทนที่จะรวบรวมทุกคอนเทนต์ ลองรวบรวมเฉพาะคอนเทนต์ที่ระบุไว้อย่างชัดเจนว่าสามารถใช้สร้างโมเดลได้จะเป็นอย่างไร?
หากโมเดลถูกฝึกด้วย DP ข้อมูลอาจถูกรวมปนกันมากเกินไปจนไม่สามารถคืนข้อมูลที่แม่นยำได้ หรือในทางกลับกัน ขั้นตอน DP ก็อาจไร้ประโยชน์
การลบความรู้เป็นงานที่มีปัญหา
มีความกังวลต่อ "ความสมบูรณ์" ของ AI ที่ผ่านการฝึก, การยกเลิกการฝึก, และการฝึกใหม่
ในปี 2014 ผู้กำหนดนโยบายไม่ได้คาดการณ์ว่าดีปเลิร์นนิงจะกลายเป็นส่วนผสมขนาดมหึมาของข้อมูลและการประมวลผล
"การเลิกเรียนรู้" ไม่ใช่เป้าหมายที่แท้จริง และไม่ได้ต้องการให้โมเดลเปรียบเปรยว่าฝังหัวลงในทราย
สำหรับสตาร์ตอัปรายใหม่ มีการแซวว่าลูปการฝึก ML จะต้องมีฝูงชนถือคราดรวมอยู่ด้วย

Machine Unlearning ในปี 2024

รูปแบบของการ Unlearning

การประเมินผลการ Unlearning

สภาพความเป็นจริงและแนวโน้มของการ Unlearning

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News