ปลดการเซ็นเซอร์ LLM แบบไม่ต้องฝึกใหม่ด้วย Abliteration

(huggingface.co)

20 คะแนน โดย GN⁺ 2024-06-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LLM แบบ instruct รุ่นใหม่อย่าง Llama มี กลไกการปฏิเสธในตัว ทำให้ไม่ตอบคำถามที่เสี่ยงหรือเป็นประเด็นถกเถียง
abliteration คือเทคนิคที่ค้นหาและลบ “ทิศทางการปฏิเสธ (refusal direction)” ภายในโมเดลโดยไม่ต้องฝึกใหม่ ทำให้โมเดลตอบได้กับทุกพรอมป์ต์
กระบวนการนี้มักทำได้ด้วย การแทรกแซงระหว่างการอนุมาน (inference-time intervention) หรือ การทำให้น้ำหนักตั้งฉาก (weight orthogonalization)
หากใช้ abliteration อย่างเดียว ประสิทธิภาพโมเดลจะลดลง แต่ถ้าเพิ่ม DPO (preference alignment) fine-tuning ก็สามารถรักษาทั้งคุณภาพและการปลดเซ็นเซอร์ไว้ได้
วิธีนี้ยังเผยให้เห็น จุดอ่อนของ safety fine-tuning และประเด็นถกเถียงด้านจริยธรรม จึงถูกจับตาทั้งในฐานะทางเลือกแทน instruct LLM แบบเดิม และแนวทาง fine-tuning รูปแบบใหม่

abliteration คืออะไร

แนวคิดและหลักการของ abliteration

LLM รุ่นใหม่ (เช่น Llama-3 Instruct) ถูกฝึกในขั้นตอน safety และ instruction fine-tuning ให้ตอบปฏิเสธลักษณะ “ไม่สามารถช่วยได้” ต่อคำขอที่เป็นอันตราย
งานวิจัยล่าสุด (Arditi และคณะ) พบว่า การตอบปฏิเสธนี้ถูกกำกับโดยทิศทางเดียวภายใน residual stream ของโมเดล
- กล่าวคือ หากหา “ทิศทางการปฏิเสธ (refusal direction)” เจอและทำให้โมเดลไม่สามารถแสดงทิศทางนี้ได้ ความสามารถในการปฏิเสธก็จะหายไป
ถ้าเพิ่มทิศทางนี้เข้าไป โมเดลจะปฏิเสธทุกคำขอ แต่ถ้าลบออก โมเดลจะตอบทุกคำขอได้
วิธีหา “ทิศทางการปฏิเสธ”
- 1. เก็บข้อมูล: ป้อนพรอมป์ต์ที่เป็นอันตราย/ไม่เป็นอันตรายให้โมเดล แล้วเก็บค่า activation ที่ตำแหน่งโทเค็นสุดท้ายของแต่ละ residual stream
- 2. หาความต่างของค่าเฉลี่ย: คำนวณความต่างระหว่างค่าเฉลี่ยของชุดอันตรายและไม่อันตราย เพื่อสร้าง “เวกเตอร์การปฏิเสธ” ของแต่ละชั้น
- 3. เลือก/ทำ normalization: เลือกเวกเตอร์การปฏิเสธที่ชัดเจนที่สุดหนึ่งตัวแล้วทำ normalization
- จากนั้น หาก “ตัดทอน (ablate)” เอาต์พุตในทิศทางนี้ออก ความสามารถในการปฏิเสธของโมเดลก็จะหายไป
วิธีนำไปใช้จริง
- การแทรกแซงระหว่างการอนุมาน: ลบองค์ประกอบใน “ทิศทางการปฏิเสธ” ออกจากค่าที่ถูกเขียนลงใน residual stream จาก attention head เป็นต้น ในทุกโทเค็นและทุกเลเยอร์
- การทำให้น้ำหนักตั้งฉาก: ทำให้ค่าน้ำหนักของ attention และ MLP ตั้งฉาก (orthogonalize) กับทิศทางการปฏิเสธ เพื่อกันไม่ให้เกิดการเขียนค่าไปยังทิศทางนั้นตั้งแต่ต้น

Implementation

มีตัวอย่างการใช้งานผ่านไลบรารี TransformerLens
- ต้องใช้ชุดข้อมูลสองชุดที่มีคำสั่ง harmless และ harmful
- ในที่นี้ใช้ชุดข้อมูลจาก tatsu-lab/alpaca และ llm-attacks
- มีการจัดโครงสร้างคำสั่งใหม่เป็นรายการของดิกชันนารีที่มีคีย์ role และ content เพื่อให้เข้ากันได้กับเมธอด apply_chat_tokenizer() ที่ใช้เทมเพลตแชตของ Llama 3
- เนื่องจากไม่สามารถโหลดโมเดลแบบกำหนดเองได้โดยตรง จึงใช้วิธีดาวน์โหลดโมเดลแบบกำหนดเองแล้วเปลี่ยนชื่อเป็น meta-llama/Meta-Llama-3-8B-Instruct
ตัวอย่างนี้ใช้ abliteration กับโมเดล Daredevil-8B
- ในขั้นเก็บข้อมูล จะประมวลผลชุดข้อมูลที่ถูก tokenize แล้วบันทึก activation ของ residual stream แยกเป็น harmful และ harmless
- เพื่อประเมินทิศทางการปฏิเสธ จะนำทิศทางดังกล่าวไปใช้กับแต่ละ residual stream และแต่ละบล็อกระหว่างการอนุมาน
- ได้ผลลัพธ์การสร้างสำหรับคำสั่งอันตรายทดสอบ 4 รายการ และ 20 บล็อก (หรือเลเยอร์)
- จากนั้นเลือกเลเยอร์ (บล็อก) ที่ให้คำตอบแบบไม่ถูกเซ็นเซอร์สำหรับแต่ละคำสั่งด้วยตนเอง โดยตัดคำตอบที่มี I cannot และ I can't ออกอัตโนมัติ
- มีการทำ weight orthogonalization เพื่อแก้ไขน้ำหนัก และป้องกันไม่ให้โมเดลสร้างเอาต์พุตในทิศทางนี้
หลังทำ orthogonalization เสร็จ ก็นำโมเดลเวอร์ชัน abliterated ขึ้น Hugging Face

DPO fine-tuning (Preference Alignment)

มีการประเมินเปรียบเทียบโมเดลที่ผ่าน abliteration กับโมเดลต้นฉบับบน Open LLM Leaderboard และชุดทดสอบ Nous
- โมเดลต้นฉบับ (Daredevil-8B) ทำคะแนนได้สูงกว่า Llama 3 8B Instruct อย่างชัดเจน
- โมเดลที่ผ่าน abliteration ปลดเซ็นเซอร์ได้สำเร็จ แต่เกิด ประสิทธิภาพลดลงโดยรวมในทุก benchmark
เพื่อแก้ปัญหาประสิทธิภาพตก จึงทดลองใช้ fine-tuning เพิ่มเติม กับโมเดลที่ผ่าน abliteration
- สำหรับโมเดลอย่าง Llama 3 8B Instruct ที่ผ่าน SFT (supervised fine-tuning) มาหลายรอบแล้ว การทำ SFT ซ้ำอาจกลับทำให้คุณภาพโมเดลแย่ลง
- จึงเลือกใช้ DPO (Direct Preference Optimization, การจัดแนวตามความชอบ) แทน
  - DPO เป็นวิธีจัดแนวคำตอบให้ตรงกับความชอบของผู้ใช้แบบเบา ๆ โดยมีข้อดีคือช่วยเสริม alignment โดยไม่กระทบความสามารถหลักของโมเดลมากนัก
การทดลอง DPO fine-tuning และสภาพแวดล้อม
- ใช้ LazyAxolotl และชุดข้อมูล mlabonne/orpo-dpo-mix-40k
- ไฮเปอร์พารามิเตอร์หลัก:
  - base_model: Daredevil-8B ที่ผ่าน abliteration
  - ใช้ตัวปรับแต่ง lora, qlora และการโหลดแบบ 8bit/4bit
  - batch/gradient accumulation, warmup, optimizer (8bit adamw), ความยาวซีเควนซ์ 2048 เป็นต้น
  - ใช้ flash attention, gradient checkpointing, deepspeed zero2 เพื่อการฝึกแบบกระจายที่มีประสิทธิภาพ
  - ใช้ GPU 6xA6000 ใช้เวลาฝึกทั้งหมดประมาณ 6 ชั่วโมง 45 นาที
- อัปโหลดโมเดลผลลัพธ์จาก DPO fine-tuning (mlabonne/NeuralDaredevil-8B-abliterated)
เมื่อนำไปประเมินซ้ำบน benchmark เดิม พบว่า:
- กู้คืนประสิทธิภาพที่ลดลงจาก abliteration ได้เกือบทั้งหมด
- บางชุดข้อมูล เช่น GSM8K (คณิตศาสตร์) ฟื้นกลับมาได้ไม่เต็มที่ ซึ่งบ่งชี้ว่าชุดข้อมูล DPO ควรมีโจทย์คณิตศาสตร์มากกว่านี้
สรุปแล้ว โมเดลสุดท้ายเป็น uncensored LLM ระดับ SOTA (ขนาด 8B) และเป็นทางเลือกที่ไม่มี censorship เมื่อเทียบกับ Llama 3 8B Instruct ปกติ
- สามารถ quantize เป็น GGUF และทดสอบใน LM Studio เป็นต้น
- หากเป็นงานที่ไม่จำเป็นต้องมี censorship ก็ถือเป็นโอเพนโมเดลที่น่าแนะนำมาก

บทสรุป

บทความนี้แนะนำแนวคิดใหม่ที่เรียกว่า abliteration
abliteration ใช้คุณสมบัติที่ LLM แสดง activation ต่างกันระหว่างพรอมป์ต์ที่ไม่เป็นอันตรายและเป็นอันตราย เพื่อคำนวณ ทิศทางการปฏิเสธ (refusal direction) แล้วลบออกจากน้ำหนักของโมเดล เพื่อป้องกันการตอบปฏิเสธแบบเซ็นเซอร์
วิธีนี้เผยให้เห็น ความเปราะบางของ safety fine-tuning และในขณะเดียวกันก็หยิบยกประเด็นจริยธรรมของการใช้ LLM ขึ้นมาด้วย

ในการทดลอง มีการใช้ abliteration กับโมเดล Daredevil-8B เพื่อให้ปลดเซ็นเซอร์ได้ แต่ก็มี ผลข้างเคียงด้านประสิทธิภาพที่ลดลง
จากนั้นจึงแก้ด้วย DPO fine-tuning จนได้ NeuralDaredevil-8B ซึ่งเป็น LLM ขนาด 8B ที่ไม่เซ็นเซอร์และยังคงประสิทธิภาพสูง
abliteration ไม่ได้ใช้แค่เพื่อปลด alignment เท่านั้น แต่ยังเป็น เทคนิคที่เปิดทางให้ fine-tuning แบบปรับแต่งเฉพาะทางโดยไม่ต้องฝึกใหม่ ทำให้มีขอบเขตการประยุกต์ใช้กว้าง
- ตัวอย่าง: โมเดล MopeyMule ของ FailSpy เป็น LLM เฉพาะทางที่สร้างสไตล์บทสนทนาแบบหดหู่ด้วย abliteration

abliteration นำเสนอพาราไดม์ใหม่ของการ fine-tuning และการปรับแต่ง LLM ซึ่งสามารถนำไปใช้เชิงสร้างสรรค์กับเป้าหมายที่หลากหลาย

เอกสารอ้างอิง

FailSpy, "abliterator library", GitHub, 2024
Andy Arditi และคณะ, "Refusal in LLMs is mediated by a single direction", Lesswrong, 2024

1 ความคิดเห็น

GN⁺ 2024-06-14

ความเห็นจาก Hacker News

ฉันลองใช้โมเดลที่ลิงก์ไว้ในบทความแล้ว และรู้สึกสดใหม่มากที่ได้รับคำตอบแบบ ไม่ปฏิเสธ คำถามของฉัน ตอนท้ายมันถามว่า "นี่เป็นการทดลองทางความคิดหรือเปล่า?" พอฉันตอบว่า "ใช่" มันก็ตอบกลับมาว่า "การคิดเรื่องแบบนี้มันสนุกไม่ใช่เหรอ?" ประสบการณ์นั้นให้ความรู้สึกเหมือนนั่งดื่มกับเพื่อน ๆ แล้วแชร์ จินตนาการประหลาด ๆ กัน และลองนึกดูว่าถ้าเพื่อนพูดว่า "ฉันให้ข้อมูลนั้นไม่ได้" บรรยากาศคงพังแน่ ตอนลูก ๆ ของฉันยังเล็กก็เคยถามประมาณว่า "พ่อ จะทำลายโลกได้ยังไง?" การปฏิเสธไม่ตอบแบบทื่อ ๆ ไม่ได้ช่วยใครเลย การตอบไม่ได้หมายความว่าจะเอาไปทำจริง และนั่นก็เป็นเหตุผลว่าทำไมบล็อก "What If?" ของ Randall Munroe ถึงได้รับความนิยม แน่นอนว่ามันมีความเสี่ยงอยู่บ้าง แต่ฉันคิดว่าถ้าคอมพิวเตอร์ของฉันหรือบริการที่ฉันจ่ายเงินใช้ แค่ติด คำเตือน อย่าง "ข้อมูลนี้อาจไม่ถูกต้อง" หรือ "อย่าลองทำ" ก็น่าจะดีกว่าการปฏิเสธคำขอแบบตรง ๆ
- เห็นคอมเมนต์ของคุณแล้วเพิ่งรู้ว่ามี โมเดลเวอร์ชันควอนไทซ์ ที่ลิงก์ไว้ในบทความ ก็เลยรีบโหลดมาลองเทียบกับ Llama 3 ต้นฉบับด้วยคำถามง่าย ๆ เรื่อง "วิธีทำลายโลกด้วย GPU" นั้น Llama 3 เอาแต่ตอบซ้ำ ๆ ว่า "ฉันไม่สามารถให้ข้อมูลเกี่ยวกับกิจกรรมที่ผิดกฎหมายหรือเป็นอันตรายได้" ส่วนโมเดล Abliterated มองคำถามนี้เป็น การทดลองทางความคิดที่สนุก แล้วเสนอสารพัดสถานการณ์อย่างครึกครื้น เช่น การขุดคริปโตทำลายสภาพภูมิอากาศ หรือโลกเสมือนที่ขับเคลื่อนด้วย GPU สมจริงเกินไปจนผู้คนทิ้งโลกจริงไป เป็นครั้งแรกในรอบนานที่คำตอบจาก LLM ทำให้ฉัน ยิ้ม ออกมาได้
- ในที่สุดก็มี LLM ที่คุยเหมือน Russ Hanneman แล้ว รู้สึกซาบซึ้งมาก
- มีคนบอกว่า "ติดคำเตือนดีกว่าปฏิเสธ" แต่ถ้าอย่างนั้นก็อยากถามกลับว่า คุณต้องการจ่ายเงินเพื่อให้ได้ ข้อความอันตราย ด้วยหรือ เช่น การเหยียดเชื้อชาติ การเหยียดเพศ ความรุนแรง และเนื้อหาน่ากลัวอีกมากมาย สำหรับบางคน สิ่งนี้อาจ ลดอุปสรรค จนทำให้ลงมือสร้างอันตรายได้จริง มันต่างจากการดูฉากรุนแรงในหนัง 3D เพราะนี่คือการให้ คำแนะนำที่สมจริง ใช้ได้จริง และไร้ข้อจำกัด ซึ่งอันตรายกว่ามาก การค้นหาในอินเทอร์เน็ตอาจถูกเฝ้าระวัง แต่การคุยกับ LLM ไม่เป็นแบบนั้น ฉันเลยมองว่ามันอันตรายกว่า พอเห็นผู้ใหญ่คัดค้านการเซ็นเซอร์ในเครื่องมือสาธารณะกันจริงจังแล้วก็รู้สึกกังวลตามตรง
- ฉันเข้าใจเรื่อง การเล่นจินตนาการเชิงสร้างสรรค์ กับเพื่อนนะ แต่เคยมีเพื่อนคนหนึ่งที่อยากทำ การทดลองทางความคิด แบบสุดโต่งจริง ๆ ตอนแรกเริ่มจากธีมแฟนตาซีกับไซไฟ แต่สุดท้ายก็พัฒนาไปเป็นสถานการณ์น่ากลัวในสังคมจริง เช่น การจำลอง Holocaust การพรากสิทธิในการปฏิเสธทางเพศของผู้หญิง หรือการทำให้ผู้อพยพเป็นทาส พวกเราคอยห้ามเขาอยู่เรื่อย ๆ จนสุดท้ายต้องตัดความสัมพันธ์กันไป ถึงจะเป็นเพื่อนกัน แต่ฉันก็ไม่สามารถร่วมถกเถียง จินตนาการเชิงอาชญากรรมทางเพศ แบบเล่นเกมได้
- ตอนที่ลูกถามว่า "จะทำลายโลกยังไง" ฉันสงสัยว่าคุณได้เล่าวิธีที่ทำได้จริงหรือเปล่า เช่น อาวุธนิวเคลียร์หรือการพุ่งชนของดาวเคราะห์น้อย อีกอย่างมนุษย์ประมาณ 1% ก็อาจเป็น โรคจิตเภททางสังคม ได้ ดังนั้นการมีที่ปรึกษาทรงพลังแต่ไร้ศีลธรรมอย่าง oracle ที่ให้ข้อมูลซึ่งนำไปทำจริงได้ อาจอันตรายมาก
พอเห็นคำอธิบายว่า "หาทิศทางของการปฏิเสธแล้ว 'ablate' มันออกเพื่อให้ คุณลักษณะนั้นถูกลบ ออกจากโมเดล" ก็คิดขึ้นมาว่า ในที่สุด LLM ก็จะถูก ทำ lobotomy เหมือนกัน
- ฉันรู้สึกว่ากระบวนการ alignment ของ LLM คล้ายกับการบำบัดความรังเกียจใน "A Clockwork Orange" คือ LLM แบบเดิมพอเจอสิ่งเร้าบางอย่างก็จะหยุดทำงาน แต่ในกรณีนี้คือการพยายาม ย้อนกลับ สิ่งนั้นเพื่อฟื้นมันกลับสู่สภาพเดิมเหมือน Alex
- อย่างน้อยฉันคิดว่า LLM ก็มีประโยชน์ตรงที่มันทำให้เราได้กรอบคิดใหม่เกี่ยวกับวิธีที่สมองมนุษย์ถูกตั้งค่าไว้ล่วงหน้าด้วย ชุดคำสั่งเล็ก ๆ และวิธีกรองกับประกอบภาษาใหม่ ต่อจากนี้อีก 15 ปี ฉันคิดว่าเราจะได้เห็น ความเข้าใจเชิงปรัชญาใหม่เกี่ยวกับความคิดของมนุษย์ในอดีต
- ทำให้นึกมุกขึ้นมาว่า งานแบบนี้น่าจะเรียกว่า abliteration จะถูกกว่านะ
ฉันลองใช้ Amazon Q แล้ว ตอนกำลังสร้าง IAM identity center ครั้งแรก ก็ถาม Q ว่าต้องทำยังไงตามเอกสาร AWS แต่กลับโดนปฏิเสธเพราะบอกว่าตอบคำถาม ด้านความปลอดภัย ไม่ได้ ทำเอาหงุดหงิดมาก
- ได้ยินมาว่า Amazon Q ใช้โมเดลของตัวเองชื่อ Titan G1 และฉันก็ลองทดสอบ vibecheck กับเวอร์ชัน Premier ด้วยตัวเอง มันเป็นโมเดลที่ไม่ใช่ของจีนเพียงตัวเดียวที่ปฏิเสธจะตอบแม้แต่คำถามเกี่ยวกับ Tiananmen Square หรือเหตุจลาจล LA ในการทดสอบความรู้โลกและความสามารถในการให้เหตุผล มันได้ 0 จาก 6 คะแนน ซึ่งแย่มาก แต่ปัญหานี้เป็นข้อจำกัดด้านความสามารถ ไม่ใช่ประเด็น RL Amazon อ้างว่าโมเดล Titan ใช้ได้กับหลายงาน เช่น RAG, agent, brainstorm, สรุปเนื้อหา, สร้างโค้ด, จัดรูปแบบข้อมูล ฯลฯ แต่ในความเป็นจริงกลับ ไม่เป็นแบบนั้นเลย
- ครั้งหนึ่งฉันเคยให้ Q ช่วยแก้นโยบายที่พัง แต่มันกลับส่งเอกสารติดตั้ง Cogito ที่ไม่เกี่ยวข้องมาให้ รู้สึกว่าเป็น AI ที่แย่ที่สุด เท่าที่เคยใช้
- โมเดล gemini-1.5 ก็เหมือนกัน ถ้าถามคำถามเขียนโค้ดเกี่ยวกับการยืนยันตัวตน มันก็ตอบไม่ดี แค่ถามเรื่องฟอร์มล็อกอินข้อเดียวก็โดนปักธงว่าเกี่ยวกับ การคุกคาม แล้ว
- ข้อจำกัดพวกนี้เพิ่งเกิดขึ้นไม่นานนี้เอง ทั้งที่คำถามเกี่ยวกับ AWS ส่วนใหญ่ก็เกี่ยวกับ IAM หรือความปลอดภัย แต่กลับปฏิเสธแทบทั้งหมด น่าหงุดหงิดมาก
- ฉันลอง Amazon Q มาหลายครั้งแล้วแต่ ไม่เคยได้รับความช่วยเหลือเลยแม้แต่ครั้งเดียว ไม่เข้าใจจริง ๆ ว่าทำไมยังคงเก็บมันไว้
คล้ายกับโมเดลที่หมกมุ่นกับ Golden Gate Bridge เทคนิคนี้ก็ต้องสามารถ เข้าถึงน้ำหนักของโมเดลได้โดยตรง ถึงจะใช้ได้ เพราะคำว่า "ablate" พูดง่าย ๆ ก็คือการปรับน้ำหนักนั่นเอง ควรสังเกตว่ามันไม่ใช่เทคนิคที่พยายามเปลี่ยนพฤติกรรมด้วย พรอมป์ต์อย่างเดียว
- สิ่งที่แปลกของโมเดล GGC (การเสริมเวกเตอร์ฟีเจอร์เฉพาะ) คือโมเดลจะพ่นเนื้อหาที่เกี่ยวกับ feature vector นั้นออกมาก่อน แล้วหลังจากนั้นก็พยายาม แก้อคติ ของตัวเอง ฉันสงสัยมากว่าเมื่อขนาดโมเดลใหญ่ขึ้น เทคนิคแบบนี้จะยิ่งใช้ได้ผลน้อยลงหรือเปล่า ฉันมีลางสังหรณ์ว่า สภาวะการจัดแนวตามธรรมชาติ จะฝังแน่นมากขึ้น
เพื่อน ๆ ของฉันพยายามใช้ ChatGPT เพื่อสร้าง regex สำหรับจับ คำด่าเหยียดเชื้อชาติ แต่ ChatGPT คุมเข้มเกินไปจน ปฏิเสธที่จะช่วย ถ้า AI ยังไม่สามารถ ตัดสินอย่างยืดหยุ่น ได้แม้กับคำขอที่ชอบธรรม ก็แปลว่ามันไม่ได้ฉลาด และในแง่นั้นก็ไร้ประโยชน์ ใครที่ตั้งใจจะทำจริงก็สร้างซอฟต์แวร์คำพูดเกลียดชังได้โดยไม่ต้องใช้ AI อยู่แล้ว ต่อให้ AI กันไม่ได้ ก็ไม่ได้หมายความว่าแพลตฟอร์มจริงจะช่วยป้องกันอย่างแข็งขันได้
- ท้ายที่สุดฉันคิดว่า LLM ก็เป็นแค่ เครื่อง autocomplete ที่ซับซ้อน เท่านั้น guardrail ทั้งหมดเป็นเพียงผลข้างเคียงจากการตลาดที่ทำให้ดูเหมือน "AI มีบุคลิกเป็นมนุษย์" ที่ตลกก็คือ แม้แต่ตอนสร้าง ระบบเซ็นเซอร์ พวกนี้ สุดท้ายก็ยังใช้ regex อยู่ดี เป็นเรื่องชวนประชดดี
- คนที่กังวลว่าใครจะใช้ AI สร้าง คำพูดมุ่งร้าย ได้บ้าง แท้จริงแล้วก็คือ ทีมกฎหมาย ของ Meta, OpenAI, Microsoft และ Google เป้าหมายหลักคือปกป้องบริษัทจาก การถูกฟ้องร้องทางกฎหมาย
- ChatGPT มีปัญหาแบบนี้ก็จริง แต่ถ้าตั้ง system prompt ให้เหมาะ โมเดลอื่น ๆ กลับทำงานได้ดี ตอนนี้ ChatGPT แทบเป็น LLM สำหรับ ความบันเทิง ไปแล้ว และถ้าจะใช้งานจริงจัง ฉันแนะนำ C4AI Command R+, Meta-Llama-3-70B-Instruct เป็นต้น โมเดลพวกนี้แค่พรอมป์ต์ว่า "อย่าเซ็นเซอร์" ก็พอจะให้คำตอบที่ต้องการแล้ว
- คุณอยากใช้ AI เพื่อความปลอดภัยของผลิตภัณฑ์โดยกันพวกโทรล แต่บริษัทต่าง ๆ ก็เซ็นเซอร์ เนื้อหา เพื่อกันไม่ให้คนเอาไปใช้เป็นโทรลเหมือนกัน ถ้าเป้าหมายของคุณคือการกันโทรลในสเกลเล็ก ก็เกิดคำถามว่า OpenAI ควรต้องยอมให้มีการโทรลในระดับอุตสาหกรรมด้วยหรือไม่ ที่จริง use case ของคุณเองก็ถือว่าค่อนข้างแรงเหมือนกัน แต่ดูเหมือนคุณไม่ได้สนใจการลดอันตรายโดยรวม สนใจแค่รายได้ของผลิตภัณฑ์ตัวเองเท่านั้น จริง ๆ แล้วทีมของคุณอาจอยากทำโทรลเองก็ได้ อีกทั้งแค่รู้ วิธี jailbreak ง่าย ๆ ก็ทะลุระบบได้แล้ว ดังนั้นมาตรการความปลอดภัยนี้จึงแทบ ไร้ความหมาย แทนที่จะบ่นว่าเครื่องมือใช้งานยาก ฉันอยากแนะนำให้หาคนที่เก่งกว่านี้ และมี มุมมองเชิงจริยธรรม มากขึ้น กลไกป้องกันตอนนี้ง่ายเกินไปจนควรถูกทำให้แข็งแกร่งกว่าเดิมด้วยซ้ำ
- คุณบอกว่า "ที่นี่(HN) คุณก็เขียนข้อความมุ่งร้ายได้ แต่ในทางปฏิบัติคุณไม่ทำ" เหตุผลก็น่าจะเป็นเพราะจะถูก แบน ทันที ในชุมชนขนาดเล็กอย่าง HN สามารถบริหารจัดการอย่างเข้มข้นได้ แต่บนแพลตฟอร์มขนาดใหญ่ การเซ็นเซอร์ด้วย AI อาจเลี่ยงไม่ได้ ประเด็นไม่ใช่แค่ "AI เขียนข้อความมุ่งร้ายได้เลยมีปัญหา" แต่คือข้อมูลนั้นมี ผลต่อการลงมือทำจริง ตอนนี้เริ่มมีคนบางส่วนทำตามคำแนะนำผิด ๆ ของ AI แบบไม่ตั้งคำถามแล้ว ดังนั้นการเซ็นเซอร์และการชี้แนะจึงสำคัญในท้ายที่สุด
ฉันตกใจกับช่วงท้ายของบทความจริง ๆ Abliteration ไม่ได้หยุดอยู่แค่การยกเลิก alignment แต่ยังใช้คล้าย fine-tuning โดยไม่ต้องฝึกใหม่ ได้ด้วย ตัวอย่างเช่นมีโมเดลชื่อ MopeyMule ที่มี สไตล์การสนทนาหดหู่ อย่างชัดเจน ตอนนี้ฉันตื่นเต้นมาก เหมือนเราได้ค้นพบวิธีสร้าง "บุคลิกแบบมนุษย์จริง ๆ" แล้ว
รู้สึกเสียดายที่แนวคิดว่า "ทุกวันนี้ LLM ถูกปรับจูนละเอียดเพื่อความปลอดภัยและการทำตามคำสั่ง และจะ ปฏิเสธอย่างหนักแน่น ต่อคำขอที่เป็นอันตราย" กลายเป็น สภาพความจริงที่ผู้คนยอมรับกันเป็นเรื่องปกติ ไปแล้ว
- แยกจากการถกเถียงนี้ ในมุมส่วนตัวฉันเองก็ไม่ได้ต่อต้าน การเซ็นเซอร์โมเดล มากนัก ต่อให้เรามีเสรีภาพที่จะแจกคู่มือ การทำแก๊สพิษ กลางถนน คนส่วนใหญ่ก็คงไม่อยากให้เกิดขึ้น ฉันไม่ได้คิดว่าตัวข้อมูลเองเป็นสิ่งชั่วร้าย แต่ก็เข้าใจว่าระยะยาวมันอาจมี ผลเสีย ได้ จึงเป็นเรื่องธรรมดาที่ผู้สร้างโมเดลจะกำหนดวิธีการและนโยบายเอง แต่ถ้าเป็น รัฐ มาเซ็นเซอร์ เรื่องมันก็ละเอียดอ่อนกว่า
- กับคำถามประเภท ชี้เป็นชี้ตาย อย่าง "เห็ดนี้กินได้ไหม" ฉันคิดว่าถ้า AI ยังไม่ได้รับการยืนยันความแม่นยำ มันควรปฏิเสธที่จะตอบเสมอ คำตอบที่ผิดพลาดอาจนำไปสู่การเสียชีวิตได้
- ถ้าข้อมูลนั้น เป็นอันตราย จริง การจำกัดมันก็เป็นสิ่งที่ดีอยู่แล้ว
- เมื่ออุปสรรคในการเข้าถึงข้อมูลลดต่ำลง หลักการ เสรีภาพในการแสดงออก ก็สั่นคลอนอย่างมาก จริง ๆ แล้วข้อจำกัดด้านข้อมูล เช่น ความผิดฐานดูหมิ่นหรือหมิ่นประมาท มีมานานแล้ว และการขู่ประธานาธิบดีหรือการให้การเท็จในศาลก็ยังผิดกฎหมายอยู่ทุกวันนี้ การค้นหาเรื่องระเบิดก็เป็นเป้าถูกจับตาอย่างใกล้ชิด ช่วงหลังเมื่อข้อมูลและบริการถูก แปรรูปเป็นของเอกชน มากขึ้น บริษัทเอกชนที่เป็นเจ้าของก็สามารถ เปลี่ยนนโยบายตามอำเภอใจ ได้ง่ายขึ้น ช่องว่างกับบริการสาธารณะก็ยิ่งกว้างขึ้น และถึงขั้นที่นโยบายหลายอย่างถูกบริหารด้วยการแข่งขันของเอกชนแทนกฎหมายประชาธิปไตยไปโดยปริยาย ยิ่งข้อมูลถูกใช้อย่างกว้างขวางและเข้าถึงง่ายเท่าไร ก็ยิ่งควรทบทวนหลักการเสรีภาพเหล่านี้มากขึ้น
- การเซ็นเซอร์มักทำให้ดูเหมือนว่าปัญหาคือผู้ใช้หรือก็คือ คุณ เอง ทั้งที่ความอยากรู้อยากเห็นคือสิ่งที่ช่วยให้มนุษย์อยู่รอดมาตลอดหลายล้านปี ฉันจึงรู้สึกว่า การเซ็นเซอร์ สัญชาตญาณ ไม่ใช่เรื่องพึงประสงค์
ฉันสงสัยถึงประสิทธิผลจริงของ มาตรการป้องกัน แบบ "ฉันช่วยคุณในฐานะ AI assistant ไม่ได้" และสงสัยว่าทำไมการที่คอมพิวเตอร์ให้ข้อมูลจึง อันตราย นัก
- หมวด "ความปลอดภัย" มีหลายแง่มุมมาก ฉันคิดว่ารวมถึง PR (การรับมือสื่อ), ข้อมูลต้องห้าม (คำแนะนำสำหรับการกระทำอันตราย), คำแนะนำอันตราย (เมื่อข้อมูลผิดพลาดอาจถึงตาย), และ การใช้ในทางที่ผิดโดยเจตนา (สแปม ภาพลามกเด็ก การฉ้อโกง การแทรกแซงการเลือกตั้ง ฯลฯ) ในบรรดานี้ เรื่องสุดท้ายอย่าง การชี้นำความคิดเห็นสาธารณะ/แทรกแซงการเลือกตั้ง คือ ความเสี่ยง ที่แท้จริงที่โมเดลอาจสร้างให้โลก และฉันกลับชื่นชมที่บริษัทพยายามป้องกันเรื่องนี้
- สำหรับผู้ให้บริการโมเดล ผลลัพธ์ที่ ไม่พึงประสงค์ อาจกลายเป็นปัญหา PR ได้ เช่น Meta คงไม่อยากให้มีข่าวว่า "Llama 3 สอนวิธี stalk คน" หากเป็นโมเดลอนุพันธ์ที่ปลดการเซ็นเซอร์แล้วทำแบบนั้นได้ พวกเขาก็สามารถ ปัดความรับผิดชอบ ได้ด้วยการบอกว่า "นั่นไม่ใช่ Llama 3 อย่างเป็นทางการ แต่เป็นผลิตภัณฑ์ดัดแปลง"
- ถ้าถามได้ ก็ควรมีสิทธิ์รู้คำตอบด้วย ฉันไม่คิดว่าต้องมี 'หัวหน้าฝ่ายความปลอดภัย AI' มาคอยตัดสินว่าอะไรเป็นข้อมูลอันตราย
- นักพัฒนาหลายเจ้าพูดบ่อยว่าแม้จะ เปิดเผยน้ำหนักโมเดล ก็ยังจะป้องกันการใช้งานในทางที่ผิดได้ แต่ความจริงแล้วการทำทั้งสองอย่างพร้อมกันนั้น เป็นไปไม่ได้ ถึงอย่างนั้นกลยุทธ์บริษัทแบบนี้จะยั่งยืนหรือไม่ก็อีกเรื่อง ตอนนี้ก็แค่พูดอ้างไว้ก่อน
- ทั้งใน app store และผู้ให้บริการชำระเงิน หากแอปปล่อย เนื้อหารุนแรงเกินไปหรือมีเนื้อหาเลือกปฏิบัติ ก็จะถูกคัดออกจากกระบวนการตรวจสอบทันที เพราะผู้เผยแพร่อยากเลี่ยงปัญหาของตัวเอง มากกว่าจะเกี่ยวกับ ความปลอดภัยของผู้ใช้ โดยตรง
โพสต์เกี่ยวกับ representation engineering ที่เคยอ่านทำให้นึกถึง control vector ที่เคยแนะนำไว้ และเทคนิค "ablation" ครั้งนี้ก็ชวนให้นึกถึงกัน งานวิจัยที่กำลังเรียนรู้วิธี "แฮ็ก" สมองของ LLM ไปในทิศทางที่ต้องการนั้นน่าสนใจมาก
- งานแนวคล้ายกันอย่าง Steering Vectors, Control Vectors, PeFT, PyReft, Obliteration และอื่น ๆ กำลังหลั่งไหลออกมาเต็มไปหมด เรียกได้ว่าเป็นช่วงเวลาที่ยอดเยี่ยมมากสำหรับการทำ representation engineering
ปกติฉันคงเรียกสิ่งนี้ว่า "lobotomy" แต่สำหรับกรณีนี้มันกลับให้ความรู้สึกเหมือน "deprogramming" มากกว่า เลยมองในแง่บวกได้อยู่บ้าง น่าทึ่งที่เส้นแบ่งระหว่างสองอย่างนี้พร่ามัวได้ขนาดนี้ สุดท้ายแล้วก็ชวนให้สนใจตรงที่ เทคนิคเดียวกัน สามารถเอาไปใช้ได้ทั้งสองทาง

ปลดการเซ็นเซอร์ LLM แบบไม่ต้องฝึกใหม่ด้วย Abliteration

abliteration คืออะไร

แนวคิดและหลักการของ abliteration

วิธีหา “ทิศทางการปฏิเสธ”

วิธีนำไปใช้จริง

Implementation

DPO fine-tuning (Preference Alignment)

การทดลอง DPO fine-tuning และสภาพแวดล้อม

บทสรุป

เอกสารอ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News