- Machine Unlearning หมายถึงการลบข้อมูลที่ไม่ต้องการออกจากโมเดลที่ฝึกแล้ว และความสนใจในการแก้ไขโมเดลโดยไม่ต้องฝึกใหม่ตั้งแต่ต้นกำลังเพิ่มขึ้น
- ตัวอย่างเช่น การลบข้อมูลส่วนบุคคล ความรู้ที่ล้าสมัย เนื้อหาที่มีลิขสิทธิ์ คอนเทนต์ที่เป็นอันตราย/เสี่ยง ความสามารถที่เสี่ยง และข้อมูลเท็จ เป็นต้น
รูปแบบของการ Unlearning
- Exact unlearning
- กำหนดให้โมเดลที่ผ่านการ unlearn แล้วและโมเดลที่ฝึกใหม่มีการกระจายตัวเหมือนกัน
- หัวใจสำคัญคืออัลกอริทึมการเรียนรู้ต้องมีคอมโพเนนต์แบบโมดูลาร์ที่สอดคล้องกับชุดตัวอย่างการฝึกที่แตกต่างกัน
- "Unlearning" ผ่าน Differential Privacy
- เป็นการทำให้โมเดลไม่พึ่งพาข้อมูลจุดใดจุดหนึ่งโดยเฉพาะ
- กำหนดให้มีความใกล้เคียงกันในเชิงการกระจายระหว่างโมเดลที่ unlearn แล้วกับโมเดลที่ฝึกใหม่
- Empirical unlearning with known example space
- ใช้ในกรณีที่ทราบข้อมูลที่จะ unlearn ได้อย่างชัดเจน
- เป็นวิธี unlearn ผ่านการปรับจูนโมเดล
- Empirical unlearning with unknown example space
- ใช้ในกรณีที่ขอบเขตหรือพรมแดนของข้อมูลที่จะ unlearn ไม่ชัดเจน
- เช่น การ unlearn แนวคิด ข้อเท็จจริง หรือความรู้
- Just ask for unlearning
- เป็นวิธีขอให้ LLM ที่ทรงพลังทำการ unlearn โดยตรง
การประเมินผลการ Unlearning
- การประเมินการ unlearn เป็นปัญหาที่ยากมาก โดยเฉพาะการขาดแคลนตัวชี้วัดและ benchmark ที่รุนแรง
- ในการประเมินการ unlearn ควรเน้น 3 ด้านต่อไปนี้
- ประสิทธิภาพ: อัลกอริทึมเร็วกว่าเมื่อเทียบกับการฝึกใหม่มากแค่ไหน
- อรรถประโยชน์ของโมเดล: ประสิทธิภาพลดลงหรือไม่บนข้อมูลที่ต้องเก็บไว้หรือบนงานที่ตั้งฉากกัน
- คุณภาพของการลืม: ข้อมูลที่ต้องลืมถูก unlearn ไปจริงมากน้อยเพียงใด
- มีการเสนอ benchmark อย่าง TOFU และ WMDP ในช่วงหลัง ซึ่งช่วยเรื่องการประเมินการ unlearn
- TOFU เน้นการ unlearn ข้อมูลส่วนบุคคลของผู้เขียน ส่วน WMDP เน้นการ unlearn ความรู้เสี่ยงด้านชีวภาพ/ความมั่นคงไซเบอร์
- เป็นการประเมินในระดับสูงที่อิงกับการครอบครองและความเข้าใจความรู้ แทนที่จะอิงกับอินสแตนซ์โดยตรง
- ดูเหมือนว่ายังจำเป็นต้องมี benchmark การ unlearn ที่ยึดตามแอปพลิเคชัน เช่น ข้อมูลที่ระบุตัวบุคคลได้ ลิขสิทธิ์ ความเป็นอันตราย และ backdoor
สภาพความเป็นจริงและแนวโน้มของการ Unlearning
- ความยากของการ unlearn มีอยู่เป็นสเปกตรัม
- การ unlearn ข้อความที่พบไม่บ่อยนั้นง่ายที่สุด และจะยากขึ้นตามลำดับเป็นข้อความที่พบถี่และข้อเท็จจริงพื้นฐาน
- เพราะยิ่งความรู้นั้นเป็นพื้นฐานมากเท่าไร ก็ยิ่งเชื่อมโยงกับความรู้อื่นมากขึ้น ทำให้ขอบเขตที่ต้อง unlearn เพิ่มขึ้นแบบทวีคูณ
- ตัวอย่างที่เรียนรู้ตั้งแต่ช่วงต้นอาจถูก "เขียนทับ" โดยตัวอย่างภายหลัง ทำให้ unlearn ได้ยาก
- ในทางกลับกัน ตัวอย่างที่เรียนรู้ในช่วงท้ายอาจถูกโมเดลลืมแบบค่อยเป็นค่อยไป/อย่างรุนแรง จึงทำให้ unlearn ได้ยากเช่นกัน
- การคุ้มครองลิขสิทธิ์
- แม้ unlearning จะดูมีแนวโน้มที่ดีสำหรับการคุ้มครองลิขสิทธิ์ แต่ ณ ตอนนี้ภูมิทัศน์ทางกฎหมายยังไม่ชัดเจน
- หากการใช้คอนเทนต์ที่มีลิขสิทธิ์เข้าข่าย fair use ตามหลักกฎหมาย ก็อาจไม่จำเป็นต้อง unlearn
- ระบบ AI แบบอิงการค้นคืน
- เป็นแนวทางที่ลบคอนเทนต์ที่อาจได้รับคำขอ unlearn ออกจากคอร์ปัส pretraining แล้วเก็บไว้ในฐานข้อมูลภายนอก
- เมื่อมีคำขอ unlearn ก็เพียงลบข้อมูลนั้นออกจาก DB
- แต่ยังมีปัญหาเรื่องการลบข้อมูลซ้ำ การจัดการคำอ้างอิง/การดัดแปลง และการโจมตีแบบดึงข้อมูลออกจากโมเดล
- ความปลอดภัยของ AI
- สามารถใช้ unlearning เพื่อลบความรู้ พฤติกรรม และความสามารถที่เป็นอันตรายของโมเดลได้
- แต่ควรมองว่าเป็นเพียงหนึ่งในกลไกลดความเสี่ยงและกลไกป้องกันภายหลัง อีกทั้งต้องตระหนักว่ามี trade-off กับเครื่องมืออื่น เช่น alignment fine-tuning หรือการกรองคอนเทนต์
ความเห็นของ GN⁺
- Machine Unlearning ยังอยู่ในช่วงเริ่มต้นของงานวิจัย และโดยเฉพาะในโมเดลภาษาขนาดใหญ่ก็ดูจะมีความยากอยู่มาก ยกเว้นกรณีพิเศษที่ทำ exact unlearning ได้ สถานการณ์ส่วนใหญ่ในตอนนี้ยังต้องพึ่งวิธีเชิงประจักษ์และเชิงประสบการณ์เป็นหลัก
- ปัญหาเรื่องการประเมินการ unlearn ดูจะเป็นอุปสรรคที่ใหญ่ที่สุด นิยามและเกณฑ์ของการ unlearn ยังคลุมเครือ และเมื่อแต่ละแอปพลิเคชันมีบริบทต่างกัน การพัฒนาก็จะยากหากไม่มี benchmark และตัวชี้วัดที่เหมาะสม ช่วงหลังมี benchmark ที่เน้นแอปพลิเคชันอย่าง TOFU และ WMDP ออกมา จึงนับเป็นสัญญาณที่น่าสนับสนุน
- ในประเด็นลิขสิทธิ์ นอกจาก unlearning แล้วอาจพิจารณาทางออกเชิงเศรษฐศาสตร์ร่วมด้วย เช่น ให้บริการ exact unlearning ผ่านการฝึกใหม่เป็นระยะ และในช่วงระหว่างนั้นให้เจ้าของโมเดลรับผิดชอบการละเมิดลิขสิทธิ์ที่เกิดขึ้น ซึ่ง OpenAI ก็กำลังทำในลักษณะนี้
- ระบบที่อิงการค้นคืนมีข้อดีหลายอย่าง แต่เมื่อลงรายละเอียดแล้วก็ดูไม่ง่ายอย่างที่คิด ยังมีโจทย์มากมายที่ต้องแก้ เช่น การลบข้อมูลซ้ำ การระบุลิขสิทธิ์ และการป้องกันการโจมตีแบบดึงข้อมูลออกจากโมเดล ความสามารถด้าน in-context learning ของ LLM กำลังสูงขึ้น จึงอาจทำอะไรได้มากขึ้นด้วย retrieval เพียงอย่างเดียว แต่ก็ดูยากที่จะทดแทน fine-tuning ได้ทั้งหมด
- ในมุมมองด้านความปลอดภัยของ AI นั้น unlearning เป็นหัวข้อวิจัยที่ค่อนข้างน่าสนใจ แต่ไม่ใช่คำตอบสารพัดนึก และควรใช้ร่วมกับเทคนิคป้องกันอื่น เช่น alignment และการกรอง คาดว่าเมื่อโมเดลมีความเป็นอิสระมากขึ้น ความสนใจในประเด็นนี้จากมุมมองนโยบาย/กฎระเบียบก็จะสูงขึ้นด้วย
2 ความคิดเห็น
Machine Unlearning ในปี 2024
Google Machine Unlearning Challenge
ความคิดเห็นจาก Hacker News