แนวทางที่เรียบง่ายอย่างน่าประหลาดในการกู้คืนความรู้ที่ถูกลืมสำหรับ LLM

(arxiv.org)

1 คะแนน โดย GN⁺ 2024-11-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

งานวิจัย ICLR 2025 แสดงให้เห็นว่า machine unlearning ของ LLM อาจไม่ได้ลบความรู้ออกไปอย่างสมบูรณ์ แต่เพียงซ่อนไว้ และ quantization ในขั้นตอนการนำไปใช้งานอาจทำให้ความรู้นั้นปรากฏกลับมาอีกครั้ง
ในการทดลองกับเทคนิค quantization และระดับความแม่นยำหลายแบบ วิธี unlearning ที่มีข้อจำกัดด้าน utility ยังคงเก็บความรู้ที่ควรถูกลืมไว้เฉลี่ย 21% ในแบบ full precision แต่หลัง 4-bit quantization ค่านี้เพิ่มขึ้นเป็น 83%
ในกรณี GA_KLR ของชุดข้อมูล BOOKS อัตราการคงอยู่ของความรู้เดิมในโมเดล full precision อยู่ที่ 13% แต่ฟื้นกลับมาเป็นราว 89% หลัง quantization
สาเหตุคือการใช้ learning rate ที่เล็กและการทำ normalization ด้วยข้อมูล retain ทำให้ ความต่างของน้ำหนัก ระหว่างโมเดลต้นฉบับกับโมเดลที่ unlearned มีขนาดเล็ก และ quantization อาจแมปค่าน้ำหนักเหล่านี้ไปเป็นค่าเดียวกันได้
แนวทางบรรเทาคือใช้ learning rate ที่สูงขึ้น และอัปเดตเฉพาะองค์ประกอบที่มีผลกระทบสูงด้วย module-level saliency map แต่ยังไม่มีวิธีแก้ที่เสถียรเพราะมีความไวต่อไฮเปอร์พารามิเตอร์

Unlearning ลบความรู้จริง หรือแค่ซ่อนไว้

LLM มีความสามารถในการสร้างข้อความที่ทรงพลังจากการเรียนรู้ด้วยคลังข้อความขนาดใหญ่ แต่ก็อาจเรียนรู้พฤติกรรมที่ไม่พึงประสงค์จากข้อมูลฝึกไปพร้อมกันได้
- ตัวอย่างเช่น การคัดลอกเนื้อหาที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาต การสร้างข้อมูลส่วนบุคคลอย่างข้อมูลติดต่อ หรือการสร้างข้อความที่ก้าวร้าวหรือเป็นอันตราย
- ยังมีบริบททางกฎหมาย เช่น “Right to be Forgotten” ใน GDPR ที่เปิดทางให้ผู้ใช้ร้องขอให้ลบข้อมูลส่วนบุคคลออกจากโมเดลที่ผ่านการฝึกแล้ว
Machine unlearning คือแนวทางที่พยายามลบร่องรอยการจดจำของความรู้บางส่วนออกไปโดยไม่ต้องฝึกใหม่ทั้งหมด เพื่อกำจัดอิทธิพลของข้อมูลที่เป็นปัญหา
- การฝึก LLM ใหม่ทั้งหมดมักไม่คุ้มค่าในทางปฏิบัติ เพราะใช้ต้นทุนและเวลาสูง
- เป้าหมายคือการลบความรู้เฉพาะส่วนออก โดยคง utility ของโมเดลไว้ให้มากที่สุด
คำถามสำคัญคือ วิธี unlearning ของ LLM ที่มีอยู่ในปัจจุบันทำให้เกิด การลืม จริงหรือไม่ หรือเพียงแค่ซ่อนความรู้ไว้ในรูปแบบที่ benchmark ปัจจุบันตรวจจับไม่ได้

วิธี unlearning แบบเดิมเพื่อรักษา utility

วิธี unlearning ที่เป็นตัวแทนในงานนี้คือ gradient ascent(GA) และ negative preference optimization(NPO)
- GA ใช้ gradient ascent กับ cross-entropy loss บนชุดข้อมูล forget เพื่อลดความน่าจะเป็นที่โมเดลจะทำนายคำตอบที่ถูกต้อง
- NPO มอง forget set เป็นข้อมูล negative preference และปรับ objective ของ offline DPO เพื่อทำให้โมเดลให้ likelihood ต่ำกับ forget set
เดิมที GA และ NPO ไม่ได้ถูกออกแบบมาเพื่อรักษา utility โดยตรง จึงมักใช้งานร่วมกับเทคนิค regularization
- gradient descent บนชุดข้อมูล retain
- การทำ KL divergence ระหว่างการกระจายความน่าจะเป็นของโมเดลที่ unlearned กับโมเดลเป้าหมายบนอินพุต retain ให้ต่ำที่สุด
การผสมผสานเหล่านี้พยายามสร้างสมดุลระหว่างประสิทธิภาพในการลืมกับ utility ของโมเดล แต่สมดุลดังกล่าวอาจพังลงได้ในสภาพแวดล้อมที่มี quantization

ผลการทดลอง: quantization ปลุกความรู้ที่ลืมไปแล้วกลับมา

การทดลองทำโดยใช้โมเดลเป้าหมายและชุดข้อมูล forget เพื่อสร้าง unlearned model จากนั้นเปรียบเทียบประสิทธิภาพในแบบ full precision กับหลัง quantization
ในแบบ full precision โมเดลที่ผ่าน unlearning แสดงประสิทธิภาพการ unlearning ที่ดี แต่เมื่อใช้ quantization อย่างง่าย ประสิทธิภาพดังกล่าวกลับเสียหาย
ผลเชิงปริมาณชี้ให้เห็นว่าการกู้คืนความรู้ไม่ได้เกิดขึ้นเฉพาะในการตั้งค่าเดียว
- วิธี unlearning ที่มีข้อจำกัดด้าน utility ยังคงเก็บความรู้ที่ควรถูกลืมไว้เฉลี่ย 21% ในแบบ full precision
- หลัง 4-bit quantization ค่านี้เพิ่มเป็น 83%
- เมื่อใช้ GA_KLR กับชุดข้อมูล BOOKS โมเดลแบบ full precision เก็บความรู้เดิมไว้เพียง 13% แต่หลัง quantization ความรู้นั้นฟื้นกลับมาประมาณ 89%
ปรากฏการณ์เดียวกันนี้ได้รับการยืนยันในหลายเทคนิค quantization หลายระดับความแม่นยำ และหลาย benchmark

ช่องโหว่ที่เกิดจากการเปลี่ยนน้ำหนักเพียงเล็กน้อย

สมมติฐานหลักคือ วิธี unlearning แบบเดิมพึ่งพา การเปลี่ยนน้ำหนักที่เล็กมาก
- เพื่อรักษา utility ของโมเดล จึงใช้ learning rate ต่ำและ regularization กับ retain set
- ผลลัพธ์คือค่าน้ำหนักของ LLM เป้าหมายกับ LLM ที่ผ่าน unlearning แล้วยังคงอยู่ใกล้กันมาก
Quantization สามารถแมปค่าน้ำหนักที่ใกล้กันให้กลายเป็นค่าเดียวกันได้
- ทำให้ LLM เป้าหมายกับ LLM ที่ unlearned แล้วมีค่าน้ำหนักคล้ายกันหลัง quantization
- เนื่องจาก LLM เป้าหมายแบบ quantized ยังคงเก็บความรู้ที่ควรถูกลืมไว้เป็นส่วนใหญ่ LLM ที่ unlearned แล้วแบบ quantized จึงอาจกู้ความรู้นั้นกลับมาได้เช่นกัน
ปัญหานี้สำคัญมากในงานนำไปใช้งานจริง
- Quantization ถูกใช้อย่างแพร่หลายเพื่อ deploy LLM ในสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากร
- หากเป็นโมเดลที่ถูก fine-tune ให้ลืมเนื้อหาที่เป็นอันตรายหรือข้อมูลส่วนบุคคล เนื้อหาเหล่านั้นไม่ควรถูกกู้คืนกลับมาได้หลัง quantization

แนวทางบรรเทาและข้อจำกัดที่ยังเหลืออยู่

กลยุทธ์ quantization-robust unlearning ที่เสนอมา มุ่งลดความไม่สอดคล้องของการลืมระหว่างโมเดลแบบ full precision กับโมเดลแบบ quantized
แนวคิดพื้นฐานคือใช้ learning rate ที่สูงขึ้นทั้งกับ forgetting loss และ retaining loss
- forgetting loss ใช้ลงโทษโมเดลที่ยังคงเก็บข้อมูลจาก forget set
- retaining loss ใช้คง utility ไว้บนชุดข้อมูล retain
learning rate ที่สูงขึ้นช่วยลดการกู้คืนความรู้ได้ แต่ก็มาพร้อมผลข้างเคียงมาก
- forgetting gradient อาจผลักให้อัปเดตอย่างรุนแรงจนโมเดลถูกปรับมากเกินไป
- หากใช้ learning rate สูงกับชุดข้อมูล retain ก็อาจทำให้โมเดลเอนเอียงไปทางข้อมูล retain และทำให้ประสิทธิภาพในงานอื่นนอกเหนือจาก retain แย่ลง
เพื่อลดผลข้างเคียง จึงมีการสร้าง module-level saliency map และเลือกอัปเดตเฉพาะองค์ประกอบที่มีอิทธิพลสูงซึ่งเกี่ยวข้องกับข้อมูลที่ต้องลืม
- จากการทดลอง กลยุทธ์ targeted นี้ช่วยลดความเสี่ยงจากการอัปเดตที่รุนแรง รักษา utility ของโมเดล และให้ผลลัพธ์การ unlearning ที่สมดุลมากขึ้น
อย่างไรก็ตาม เฟรมเวิร์กนี้มีความไวต่อการเลือกไฮเปอร์พารามิเตอร์สูงมาก จึงอาจทำให้โมเดลที่ผ่าน unlearning แล้วไม่เสถียร
โค้ดมีให้ที่ FailureLLMUnlearning

1 ความคิดเห็น

GN⁺ 2024-11-05

ความคิดเห็นบน Hacker News

สรุปคือ สิ่งที่บทความวิจัยนี้ค้นพบคือ เมื่อทำ quantization กับโมเดล เทคนิค “unlearning” หลายแบบจะถูกย้อนกลับได้
เทคนิค unlearning คือวิธีอัปเดตน้ำหนักของโมเดลด้วยวิธีเฉพาะเพื่อทำให้มันลืมข้อเท็จจริงบางอย่าง โดยปกติมีเป้าหมายเพื่อตอบสนองข้อเรียกร้องด้านลิขสิทธิ์ แต่ไม่แน่ใจว่าใช้งานจริงกันหรือไม่
ดูเหมือนว่าตรงนี้ต้องมี การวิเคราะห์ threat model ที่ดี เช่น ถ้าผมมีโมเดล fp32 ที่ถูก fine-tune ให้ลืมข้อเท็จจริงบางอย่าง แล้วผมทำ quantization กับมันเพื่อกู้ข้อเท็จจริงนั้นกลับมาได้ ก็ต้องพิจารณาว่าในสถานการณ์แบบไหนถึงจะเป็นอันตราย
- unlearning ถูกอธิบายว่าเป็น “กระบวนการลบความรู้บางอย่างออกจาก LLM พร้อมกับรักษาประโยชน์ใช้สอยของโมเดลไว้ให้มากที่สุด”
  กล่าวคือ ดูเหมือนเป็นทำนองว่า “เรารู้ว่าโมเดลของเราไร้ประโยชน์ถ้าไม่มีแหล่งข้อมูลของคุณ ดังนั้นเราจะเอาส่วนที่มีประโยชน์จากข้อมูลของคุณไป แล้วทำให้ส่วนที่เหลือพร่ามัว จากนั้นก็เก็บเงินจากผู้ใช้ด้วยประโยชน์ที่ข้อมูลของคุณมอบให้ แต่จะไม่จ่ายอะไรให้คุณเลย”
- ต่อไปคงจะมี LLM ที่พยายามค้นหา “LLM แบบผู้สมัครแมนจูเรีย”
- ถ้าพูดให้กว้างกว่า “unlearning” ก็สงสัยเหมือนกันว่า หากรันโมเดล fp16 เป็น fp32 หรือ fp64 จะมีอะไรดีขึ้นหรือไม่
  เช่น ความรู้ที่เข้าถึงไม่ได้ในความแม่นยำต่ำอาจปรากฏออกมา
- ถ้าเป็นองค์กรที่มีคนตำแหน่งด้านความปลอดภัย AI ผมคิดว่าพวกเขาน่าจะใช้ เทคนิค unlearning เพื่อพยายามทำให้โมเดลจำวิธีผลิตยาเสพติดผิดกฎหมาย สารพิษ และวัตถุระเบิดที่พบได้ทั่วไปไม่ได้
  threat model ตรงนี้น่าจะเป็นสถานการณ์ที่มีการปล่อยโมเดลซึ่งข้อเท็จจริงเหล่านั้น “ฟื้นคืนมา” โดยบังเอิญ ยิ่งไปกว่านั้นเพราะการปล่อยโมเดลแบบ quantized เป็นเรื่องปกติ
  ข้อมูล “อันตราย” ส่วนใหญ่แบบนี้มีอยู่แล้วในตำราเรียน สิทธิบัตร ฟอรัมเคมีสมัครเล่น ฯลฯ แต่โดยทั่วไปสังคมมักสมมติว่าคนที่ฉลาดพอจะค้นหาและเข้าใจข้อมูลเหล่านั้นจะไม่นำไปใช้ในทางที่ผิด เพียงแต่เราไม่อยากให้ Mythbusters อธิบายมันในรายการทีวีช่วงไพรม์ไทม์ หรือให้ ChatGPT อธิบายกับใครก็ได้
ผมมองว่า quantization เป็นสิ่งที่ทำให้ประเด็นหลักพร่าไป ถ้ามีวิธีใดก็ตามที่ย้อน unlearning ได้ ก็หมายความว่าความรู้นั้นยังอยู่ในน้ำหนัก และนี่คือทฤษฎีสารสนเทศพื้นฐาน
ผมคิดว่าน่าจะมีวิธีมากมายนับไม่ถ้วนในการกู้ความรู้ที่หายไปโดยไม่ต้องใช้ quantization
- ผมคิดว่า quantization หรือ downsampling เองอาจเป็นวิธีพื้นฐานในการจัดการปัญหานี้ก็ได้
  1. ฝึกโมเดลแบบ precision เต็มทั่วไป
  2. ทำ quantization จนประสิทธิภาพเข้าใกล้ขีดจำกัด แล้วจึงทำกระบวนการ unlearning
  3. หลังจากนั้นฝึก/แปลง/upsample กลับเป็น FP เพื่อทำรอบการปรับแต่งต่อไป
    ถ้าทำแบบนี้น่าจะสร้าง คอขวดข้อมูล ได้ เสียงสะท้อนของสิ่งที่ถูกลืมอาจผ่านคอขวดที่แคบขนาดนั้นได้ยาก
- ที่บอกว่า quantization ไม่ได้พิเศษนั้นถูกต้อง แต่คำว่า “ทำให้ประเด็นหลักพร่าไป” ไม่ถูก มันก็แค่เป็น วิธีที่เรียบง่ายจนน่าอาย ตามชื่อเรื่องเท่านั้น
- นั่นคล้ายกับการบอกว่าการเข้ารหัสทำให้ประเด็นหลักพร่าไป
  ข้อมูลอยู่ตรงนั้นจริง แต่การกู้คืนเป็นอีกปัญหาหนึ่ง ในกรณีนี้ จุดต่างที่สำคัญคือ quantization ทำให้กู้ข้อมูลได้โดยไม่ต้องรู้ รหัส ที่ทำให้มัน “ลืม”
- ถ้ามีวิธีย้อน unlearning ได้ ก็มีวิธีใช้แนวทางนั้นระบุ น้ำหนัก ที่บรรจุข้อมูลดังกล่าว แล้วป้องกันไม่ให้ข้อมูลนั้นถูกถ่ายทอดออกไปได้ด้วย แก่นสำคัญของการเรียนรู้มีการตรวจจับอยู่
  ข้อมูลอาจยังอยู่ข้างในก็ได้ แต่ก็อาจตรวจจับไม่ได้ด้วยวิธีใด ๆ ที่เป็นที่รู้จัก หากทำให้น้ำหนักทั้งหมดของโมเดลเป็น 0 ข้อมูลก็ถูกลบออกแน่นอน ปัญหาคืออาจเป็นไปไม่ได้ที่จะระบุว่าเราได้บรรลุเป้าหมายในการลบข้อมูลอย่างสมบูรณ์โดยไม่ทำลายข้อมูลอื่นเมื่อใด
  ต่อไปอาจมีสิ่งอย่าง ช่องโหว่ zero-day สำหรับการย้อน unlearning ก็ได้
คล้ายกับการบอกเด็กทารกให้ลืม “สิ่งไม่ดี” ที่เรียนรู้มา แทบจะแน่นอนว่ามันน่าจะยิ่งทำให้ความรู้นั้นฝังแน่นขึ้นมากกว่าจะลืม
ทุกครั้งที่ได้ยินเรื่องกระแส AI ผมจะนึกถึง กระแส 3D printer เมื่อ 10–15 ปีก่อน มีคำพูดทำนองว่า “จะทำลายโรงงาน”, “เราจะพิมพ์รถของเราเอง”, “พิมพ์อาหารเอง” AI ที่อิง LLM ก็น่าจะเดินตามชะตาเดียวกัน คือทำได้ก็จริง แต่ในทางปฏิบัติไม่เป็นแบบนั้น
- “กระแส” ตอนนี้ไม่ได้เป็นแค่ความคิดว่า AI ที่อิง LLM เป็นเทคโนโลยีเดี่ยวที่จะเปลี่ยนทุกอย่างเสียทีเดียว แต่ใกล้เคียงกับความคาดหวังว่า breakthrough ทั้งหมดของ AI/แมชชีนเลิร์นนิง รวมถึงเทคนิคที่เรายังจินตนาการไม่ออก จะรวมกันกลายเป็นเทคโนโลยีเชิงทฤษฎีที่จะเปลี่ยนทุกอย่างในอนาคตอันใกล้
  อีกอย่าง 10–15 ปีไม่ใช่อะไรเลย ผมไม่ได้มองว่า 3D printer เป็นเทคโนโลยีพลิกโฉมจริง ๆ เมื่อเทียบกับ AI แต่ต้องจำไว้ว่า ถ้าไม่นับข้อยกเว้นอย่างสงครามโลกครั้งที่ 2 เครื่องบินและคอมพิวเตอร์ก็ใช้เวลา 30–40 ปี กว่าจะส่งผลกระทบต่อสังคมและผู้บริโภคในวงกว้าง นอกเหนือจากการใช้งานทางทหาร
- หมายความว่าแม้จะไม่ถึงระดับ Star Trek แต่ก็จะยอดเยี่ยมและมีประโยชน์มากใช่ไหม?
- เรามักประเมินผลกระทบระยะสั้นของเทคโนโลยีสูงเกินไป และประเมินผลกระทบระยะยาวต่ำเกินไป
  ในที่สุด 3D printer อาจเปลี่ยนการผลิตทั้งหมดอย่างฉับพลันก็ได้ แต่กว่าจะถึงจุดนั้นต้องผ่านการทำซ้ำและปรับปรุงอีกมาก ตอนนี้ในทางทฤษฎี เราสามารถ 3D print สิ่งของมากมายที่เราผลิตได้อยู่แล้ว แต่ไม่มีแรงกดดันให้ต้องทำ เพราะวิธีผลิตแบบเดิมยังถูกกว่าและใช้งานได้ดี หากเราสร้างนิคมในอวกาศที่พึ่งพาตัวเองได้ สภาพแวดล้อมแบบนั้นจะทำให้ 3D printing ไปได้ไกลกว่านี้มาก เพราะไม่มีแรงงานมนุษย์จำนวนมากหรือซัพพลายเชนขนาดใหญ่ จึงต้องการการผลิตที่พกพาได้ เป็นอิสระ และใช้งานได้อเนกประสงค์
  LLM คงยังไม่สามารถแทนที่นักเขียนหรือโปรแกรมเมอร์มนุษย์ ฯลฯ ได้ในเร็ว ๆ นี้ ยกเว้นงานที่ง่ายที่สุด แต่จะช่วยเสริมแทน ในงานโปรแกรมมิ่ง มันใกล้เคียงกับ autocomplete ที่ฉลาดและสารพัดประโยชน์กว่าเดิม ผมพบว่ามันมีประโยชน์ในการค้นหาแนวคิด ค้นคว้า สรุปและทำเอกสารประกอบโค้ดกับข้อความ สิ่งเหล่านี้ไม่ได้มาแทนที่ผม แต่ช่วยให้ผมทำอะไรได้มากขึ้นและเร็วขึ้นเล็กน้อย
  ในระยะยาวมาก ๆ LLM อาจทรงพลังพอที่จะสังเคราะห์แอปพลิเคชันทั้งตัวได้จริง ไม่ใช่แค่ตัวอย่างฝืน ๆ แต่ก็เหมือนกับการที่ 3D printing จะมาแทนที่การผลิตทั้งหมด ต้องผ่านการทำซ้ำอีกมาก และอาจต้องมีแรงกดดันบังคับบางอย่างด้วย
- ตรงนี้ไม่เห็นด้วยอย่างแรง
  ผมจำกระแสนั้นได้ โดยเฉพาะเพราะได้ยินบ่อยตั้งแต่ก่อนเข้าทำงานในบริษัทอย่าง Autodesk ซึ่งให้ความสำคัญกับ 3D printing ค่อนข้างจริงจัง
  แม้ผมจะไม่มีประสบการณ์กับ 3D printing มาก่อน แต่ใช้เวลาแค่ราวสองเดือนก็รู้ว่าสิ่งที่สื่อพูดกันเป็นเรื่องเหลวไหล ในเชิงเทคนิคแล้วมันไม่ได้ใกล้เคียงกับสิ่งที่บางบทความอ้างเลย เช่น ระดับที่เราจะพิมพ์รถเองได้ และในเชิงธุรกิจก็มีจุดที่การใช้ 3D printing แทนการผลิตแบบเดิมช่วยให้ดีขึ้นได้น้อยจนน่าประหลาดใจ
  ไม่ได้จะพูดเกินจริงนะ 3D printing เป็นสิ่งที่ยอดเยี่ยมและมีการใช้งานจริงมากมาย ปัญหาคือสื่อรอบ ๆ มันถูกปั่นกระแสเกินไป
  คนส่วนใหญ่ที่รู้จัก 3D printing จริง ๆ รู้ว่าสื่อมีความกระตือรือร้นเกินไป แม้จะพูดแบบสุภาพแล้วก็ตาม และผ่านมาหลายปี วิสัยทัศน์ใหญ่โตเหล่านั้นก็ยังไม่เกิดขึ้นจริง
  ในทางกลับกัน AI มีความแตกต่างใหญ่สองข้อ ข้อแรก มันพิสูจน์แล้วว่ามีประโยชน์มหาศาล และสร้างผลกระทบไปแล้วอย่างน้อย 100 เท่าของที่ 3D printing เคยทำ ลองคิดดูว่าครั้งสุดท้ายที่มีผลิตภัณฑ์ซึ่งแทบจะเพิ่งเปิดตัวเมื่อราว 4 ปีก่อน แต่เจาะตลาดได้อย่างน่าทึ่งแบบนี้คือเมื่อไร ChatGPT เป็นผลิตภัณฑ์ที่เติบโตเร็วที่สุดในประวัติศาสตร์ตามจำนวนผู้ใช้จริง ๆ
  ข้อสอง คนวงในโดยรวมตื่นเต้นกับเทคโนโลยีนี้อย่างมาก มองว่ามันยังดีขึ้นได้อีกมาก และศักยภาพในปัจจุบันก็ยังถูกใช้ไม่เต็มที่ ความเห็นของผมก็ไปทางนั้นอย่างชัดเจน
จากมุมมองทฤษฎีสารสนเทศ ฟังดูค่อนข้างเหนือความคาดหมายเล็กน้อย เพราะดูเหมือนว่าใน การแทนค่าแบบ 32 บิต ทั้งหมดของโมเดล ความรู้นี้ถูกลบออกไปแล้ว แต่พอบีบอัดเป็น 4 บิต ความรู้นั้นกลับปรากฏขึ้นอีก
ถ้าอย่างนั้นก็ชวนให้สงสัยว่าในขั้นตอนการบีบอัด/ควอนไทซ์ จริง ๆ แล้วข้อมูลอะไรที่หายไปกันแน่
- ถ้าอธิบาย论文นี้แบบง่าย ๆ วิธี “ลืม” ส่วนใหญ่สามารถมองได้ว่าเป็นการบวกเดลตา w บางอย่างเข้าไปในพารามิเตอร์ของโครงข่ายประสาท แต่ w ส่วนใหญ่ถูก “ปัดเศษจนหายไป” ระหว่างการควอนไทซ์ กล่าวคือกลายเป็น quantize(X+w) ~= quantize(X)
  เป็นไอเดียที่ค่อนข้างฉลาด เพราะหลายวิธีที่ถูกอ้างถึงปรับให้เหมาะสม/ทำ regularization อย่างชัดเจนเพื่อให้ w มีค่าน้อย เพื่อหลีกเลี่ยงไม่ให้ความแม่นยำในการประเมินลดลง
  ดังนั้นจึงเกิดคำถามว่าวิธีเหล่านี้เรียกว่า การลืม ได้จริงหรือไม่จากมุมมองทฤษฎีสารสนเทศ หรือเป็นเพียงการเอา if (false) ไปครอบไว้รอบ ๆ ความรู้แฝง
- สิ่งที่ถูกลบในเวอร์ชัน 32 บิตน่าจะไม่ใช่ตัวความรู้เอง แต่เป็น การแทนค่าของความรู้ มากกว่า และอาจมีการจัดสรรพื้นที่บางส่วนไว้เก็บข้อมูลว่าไม่ควรพูดถึงหัวข้อเฉพาะนั้น
  เช่น มนุษย์ก็รู้คำเหยียดเชื้อชาติต่าง ๆ แต่ก็รู้ด้วยว่าไม่ควรเข้าถึงหรือใช้ความรู้นั้น
  แต่ถ้ามนุษย์หรือโมเดล AI โดนกระแทกที่หัว หรือเจออะไรอย่างการควอนไทซ์ ความรู้เกี่ยวกับ X อาจยังอยู่ แต่ความรู้ว่าไม่ควรพูดถึง X อาจหายไป มองแบบนี้ก็เข้าใจได้ค่อนข้างเป็นธรรมชาติ
- ความรู้อาจไม่ได้หายไป แต่อาจถูกปิดบังไว้
  ถ้าคิดว่าโครงข่ายประสาทเป็นโค้ด น้ำหนักก็เปรียบเหมือนซอร์สโค้ด การปรับละเอียดอาจเป็นการแฮ็กโค้ดนั้นโดยพฤตินัย เพื่อไม่ให้มันคืนเอาต์พุตบางอย่าง
  จริง ๆ แล้วการปรับละเอียดก็ใกล้เคียงกับสิ่งนั้นในระดับหนึ่ง
  ดังนั้นอาจเป็นแค่การสร้างไฟร์วอลล์รอบเอาต์พุตเฉพาะบางแบบ แต่เมื่อควอนไทซ์ การแก้ไขล่าสุดนั้นอาจหายไป เพราะละเอียดอ่อนเกินกว่าจะรอดมาได้
  ในทางกลับกัน โมเดลควอนไทซ์ยอดนิยมก็แสดงให้เห็นว่าการควอนไทซ์ไม่ได้ทำลายความรู้ทั้งหมด
  อีกอย่าง ถ้า @simonw เปิดการแจ้งเตือนไว้ หัวข้อนี้ดูเหมาะมากที่จะเอาไปเขียนบทความ
- ความรู้ไม่ได้ถูกลบออก เพียงแต่ไม่เคยถูกใช้งานเพราะน้ำหนักเท่านั้น
  การควอนไทซ์เปลี่ยนการคำนวณ และตอนนี้จึงเข้าถึงความรู้นั้นได้
- จริง ๆ แล้วไม่น่าแปลกใจ
  floating point รู้สึกเป็นวิธีที่แปลกเสมอในการแทนภาษา ถ้าขยายดูแค่ตัวแปรเดียว จะมีชุดความหมายบางอย่างแบบ https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... หรือเปล่า คือมันอยู่บนสโลปบางอย่าง แต่แต่ละช่วงมีความหมายพิเศษเฉพาะติดอยู่? เราสามารถจินตนาการวงจรประสาทที่ออกแบบมาอย่างระมัดระวังเพื่อถอดรหัสตัวแปรแบบนั้นได้ และก็นึกภาพได้ว่าจะสร้างเครือข่ายที่มีโครงสร้างแบบนั้นอย่างไร แต่ไม่ค่อยรู้สึกเป็นธรรมชาติที่โครงข่ายประสาทจะเรียนรู้โครงสร้างแบบนั้นได้ สเกลจาก “ดี” ไป “แย่” ยังพอเชื่อได้ แต่การที่ค่าต่าง ๆ มากมายมีความหมายเฉพาะจำนวนมากผูกอยู่ด้วยนั้นเชื่อยาก
  ถ้าคิดแบบนั้น โครงข่ายประสาทแบบไบนารี บางรูปแบบน่าจะมีประสิทธิภาพมาก แต่ในความเป็นจริงดูเหมือนไม่เป็นเช่นนั้น อย่างไรก็ตาม ดูเหมือนว่าโครงข่ายประสาทภายในจะไม่ได้ใช้ความละเอียดมากกว่า 4 บิตโดยประมาณมากนัก
  ระบบ “ลืม” แบบนี้ไม่ได้ลบ “engram” ของความทรงจำในเครือข่ายจริง ๆ แต่ใกล้เคียงกับการเรียนรู้พฤติกรรมใหม่ที่กดทับเอาต์พุตบางอย่างมากกว่า มันไม่ได้ต่างจากปัญหาการค่อย ๆ เพิ่มความรู้ใหม่เข้าไปในเครือข่ายมากนัก เพียงแต่สิ่งที่เรียนรู้ในขั้นที่ 2 ค่อนข้างต่างจากการเรียนรู้ทั่วไป ถ้าไม่อยากทำให้เครือข่ายพัง ก็อาจจินตนาการได้ว่าเพิ่มพฤติกรรมใหม่โดยเพิ่มบิตความละเอียดขึ้นอีกหนึ่งบิต ในความละเอียดต่ำยังคงพฤติกรรมเดิมไว้ ส่วนในความละเอียดสูงก็ทำการแบ่งแยกที่สำคัญต่อพฤติกรรม “ลืม/เรียนรู้แล้ว”
สมมติฐานหลักคือ เพื่อให้เกิดการลืมโดยไม่ทำลายประโยชน์ใช้สอยของโมเดล วิธีเดิม ๆ มักใช้ learning rate ขนาดเล็กและ regularization กับชุดข้อมูลที่ต้องรักษาไว้ ทำให้การเปลี่ยนแปลงน้ำหนักของโมเดลระหว่างการลืมน้อยที่สุด
ผลคือ น้ำหนักของโมเดลเป้าหมายกับ LLM ที่ถูกลืมอยู่ใกล้กันมาก
ถ้าอย่างนั้นก็น่าจะต้องทำให้เนื้อหาที่ไม่ต้องการไม่ถูกเรียนรู้ตั้งแต่ขั้น การฝึกพื้นฐาน หรือทำให้กระบวนการลืมของโมเดลพื้นฐานรับรู้เรื่องการควอนไทซ์
ผมไม่ใช่ผู้เชี่ยวชาญด้านนี้เลย คำถามอาจจะโง่ก็ได้ หมายความว่าถ้าเราควอนไทซ์ llama3 เป็น 4 บิต เราจะเข้าถึง ข้อมูลที่ซ่อนอยู่ อย่างเช่นวิธีสังเคราะห์สารประกอบเฉพาะบางชนิดได้หรือเปล่า? แน่นอนว่าคุณภาพคงลดลง
- ผมก็สงสัยตรงนั้นเหมือนกัน การลืม = guardrail หรือเปล่า? ฟังดูเหมือนเป็นการปรับน้ำหนักเพียงเล็กน้อยให้มันเซ็นเซอร์ตัวเอง แต่การปรับนั้นละเอียดมากจนไม่รอดในความละเอียดต่ำ
  แต่ถ้าการอ้อม guardrail ง่ายขนาดนั้น เราน่าจะเคยได้ยินกันไปแล้ว
- เป็นไปได้เฉพาะเมื่อ “วิธีสังเคราะห์สารประกอบเฉพาะ” นั้นมีอยู่ในโมเดลดั้งเดิมอยู่แล้ว
ประโยคที่ว่า “แม้ว่าวิธีการลืมในปัจจุบันจะได้ผล แต่แทบไม่มีใครสนใจว่าวิธีการลืม LLM ที่มีอยู่บรรลุการลืมจริง ๆ หรือแค่ซ่อนความรู้ไว้” เป็นคำถามที่ดี
ในบริบทของ LLM และในบริบทเชิงปรัชญาเกี่ยวกับความรู้โดยทั่วไป เราควรพิจารณาว่า การลืม กับการจำหมายถึงอะไร LLM สามารถ “ลืม” สิ่งที่มัน “เรียนรู้” ได้หรือไม่ และถ้าได้ ในเชิงคณิตศาสตร์/การคำนวณแล้วหมายถึงอะไรกันแน่
อีกทั้งยังน่าสงสัยว่า LLM สามารถสอนตัวเองให้กลับมารู้สิ่งที่เคยลืมไปแล้วผ่านกระบวนการเชิงตรรกะ นัย การอนุมาน การอุปนัย การนิรนัย ฯลฯ จากความรู้เดิมได้หรือไม่
ถ้าเป็นไปได้ แก่นขั้นต่ำสุดของ LLM ที่ทำแบบนั้นได้คืออะไร และเพราะเหตุใด ก็เป็นคำถามเช่นกัน
ผมคิดว่านี่คงไม่ใช่论文แรกและไม่ใช่论文สุดท้ายในหัวข้อนี้
ผมใช้ LLM แบบควอนไทซ์ ในสภาพแวดล้อมใช้งานจริงอยู่ แต่ไม่เคยรู้สึกว่าโมเดลถูกเซ็นเซอร์น้อยลง
สำหรับการลืมพฤติกรรมที่ถูกเสริมเข้าไป เทคนิค abliteration [1] ดูทรงพลังกว่ามาก
1 https://huggingface.co/blog/mlabonne/abliteration
- หมายถึงใช้ gradient ascent โดยเฉพาะกับโมเดลที่ถูกลืมหรือเปล่า?
ปัญหาของโมเดลปัจจุบันไม่ได้อยู่ที่การเรียนรู้ แต่อยู่ที่การถูกยัดเยียดแบบล้างสมอง
ในขั้นการเรียนรู้ยังขาด การคิดเชิงวิพากษ์
- การทำให้ LLM เหมือนมนุษย์นั้นทั้งไม่ถูกต้องทางเทคนิคและไม่ได้มีประโยชน์เท่าไร
- ไม่อย่างนั้นจะเซ็นเซอร์ LLM ได้อย่างไร? คุณอยากให้ LLM พูดได้อย่างเสรีจริง ๆ หรือ?
ไม่จำเป็นต้องใช้การควอนไทซ์ด้วยซ้ำ benchmark ส่วนใหญ่ถูกทำลายได้ด้วยพรอมป์เพียงอย่างเดียว
https://arxiv.org/abs/2410.02879

แนวทางที่เรียบง่ายอย่างน่าประหลาดในการกู้คืนความรู้ที่ถูกลืมสำหรับ LLM

Unlearning ลบความรู้จริง หรือแค่ซ่อนไว้

วิธี unlearning แบบเดิมเพื่อรักษา utility

ผลการทดลอง: quantization ปลุกความรู้ที่ลืมไปแล้วกลับมา

ช่องโหว่ที่เกิดจากการเปลี่ยนน้ำหนักเพียงเล็กน้อย

แนวทางบรรเทาและข้อจำกัดที่ยังเหลืออยู่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News