- LLM แบบ instruct รุ่นใหม่อย่าง Llama มี กลไกการปฏิเสธในตัว ทำให้ไม่ตอบคำถามที่เสี่ยงหรือเป็นประเด็นถกเถียง
- abliteration คือเทคนิคที่ค้นหาและลบ “ทิศทางการปฏิเสธ (refusal direction)” ภายในโมเดลโดยไม่ต้องฝึกใหม่ ทำให้โมเดลตอบได้กับทุกพรอมป์ต์
- กระบวนการนี้มักทำได้ด้วย การแทรกแซงระหว่างการอนุมาน (inference-time intervention) หรือ การทำให้น้ำหนักตั้งฉาก (weight orthogonalization)
- หากใช้ abliteration อย่างเดียว ประสิทธิภาพโมเดลจะลดลง แต่ถ้าเพิ่ม DPO (preference alignment) fine-tuning ก็สามารถรักษาทั้งคุณภาพและการปลดเซ็นเซอร์ไว้ได้
- วิธีนี้ยังเผยให้เห็น จุดอ่อนของ safety fine-tuning และประเด็นถกเถียงด้านจริยธรรม จึงถูกจับตาทั้งในฐานะทางเลือกแทน instruct LLM แบบเดิม และแนวทาง fine-tuning รูปแบบใหม่
abliteration คืออะไร
แนวคิดและหลักการของ abliteration
- LLM รุ่นใหม่ (เช่น Llama-3 Instruct) ถูกฝึกในขั้นตอน safety และ instruction fine-tuning ให้ตอบปฏิเสธลักษณะ “ไม่สามารถช่วยได้” ต่อคำขอที่เป็นอันตราย
- งานวิจัยล่าสุด (Arditi และคณะ) พบว่า การตอบปฏิเสธนี้ถูกกำกับโดยทิศทางเดียวภายใน residual stream ของโมเดล
- กล่าวคือ หากหา “ทิศทางการปฏิเสธ (refusal direction)” เจอและทำให้โมเดลไม่สามารถแสดงทิศทางนี้ได้ ความสามารถในการปฏิเสธก็จะหายไป
- ถ้าเพิ่มทิศทางนี้เข้าไป โมเดลจะปฏิเสธทุกคำขอ แต่ถ้าลบออก โมเดลจะตอบทุกคำขอได้
-
วิธีหา “ทิศทางการปฏิเสธ”
- 1. เก็บข้อมูล: ป้อนพรอมป์ต์ที่เป็นอันตราย/ไม่เป็นอันตรายให้โมเดล แล้วเก็บค่า activation ที่ตำแหน่งโทเค็นสุดท้ายของแต่ละ residual stream
- 2. หาความต่างของค่าเฉลี่ย: คำนวณความต่างระหว่างค่าเฉลี่ยของชุดอันตรายและไม่อันตราย เพื่อสร้าง “เวกเตอร์การปฏิเสธ” ของแต่ละชั้น
- 3. เลือก/ทำ normalization: เลือกเวกเตอร์การปฏิเสธที่ชัดเจนที่สุดหนึ่งตัวแล้วทำ normalization
- จากนั้น หาก “ตัดทอน (ablate)” เอาต์พุตในทิศทางนี้ออก ความสามารถในการปฏิเสธของโมเดลก็จะหายไป
-
วิธีนำไปใช้จริง
- การแทรกแซงระหว่างการอนุมาน: ลบองค์ประกอบใน “ทิศทางการปฏิเสธ” ออกจากค่าที่ถูกเขียนลงใน residual stream จาก attention head เป็นต้น ในทุกโทเค็นและทุกเลเยอร์
- การทำให้น้ำหนักตั้งฉาก: ทำให้ค่าน้ำหนักของ attention และ MLP ตั้งฉาก (orthogonalize) กับทิศทางการปฏิเสธ เพื่อกันไม่ให้เกิดการเขียนค่าไปยังทิศทางนั้นตั้งแต่ต้น
Implementation
- มีตัวอย่างการใช้งานผ่านไลบรารี TransformerLens
- ต้องใช้ชุดข้อมูลสองชุดที่มีคำสั่ง harmless และ harmful
- ในที่นี้ใช้ชุดข้อมูลจาก tatsu-lab/alpaca และ llm-attacks
- มีการจัดโครงสร้างคำสั่งใหม่เป็นรายการของดิกชันนารีที่มีคีย์
role และ content เพื่อให้เข้ากันได้กับเมธอด apply_chat_tokenizer() ที่ใช้เทมเพลตแชตของ Llama 3
- เนื่องจากไม่สามารถโหลดโมเดลแบบกำหนดเองได้โดยตรง จึงใช้วิธีดาวน์โหลดโมเดลแบบกำหนดเองแล้วเปลี่ยนชื่อเป็น
meta-llama/Meta-Llama-3-8B-Instruct
- ตัวอย่างนี้ใช้ abliteration กับโมเดล Daredevil-8B
- ในขั้นเก็บข้อมูล จะประมวลผลชุดข้อมูลที่ถูก tokenize แล้วบันทึก activation ของ residual stream แยกเป็น harmful และ harmless
- เพื่อประเมินทิศทางการปฏิเสธ จะนำทิศทางดังกล่าวไปใช้กับแต่ละ residual stream และแต่ละบล็อกระหว่างการอนุมาน
- ได้ผลลัพธ์การสร้างสำหรับคำสั่งอันตรายทดสอบ 4 รายการ และ 20 บล็อก (หรือเลเยอร์)
- จากนั้นเลือกเลเยอร์ (บล็อก) ที่ให้คำตอบแบบไม่ถูกเซ็นเซอร์สำหรับแต่ละคำสั่งด้วยตนเอง โดยตัดคำตอบที่มี
I cannot และ I can't ออกอัตโนมัติ
- มีการทำ weight orthogonalization เพื่อแก้ไขน้ำหนัก และป้องกันไม่ให้โมเดลสร้างเอาต์พุตในทิศทางนี้
- หลังทำ orthogonalization เสร็จ ก็นำโมเดลเวอร์ชัน abliterated ขึ้น Hugging Face
DPO fine-tuning (Preference Alignment)
- มีการประเมินเปรียบเทียบโมเดลที่ผ่าน abliteration กับโมเดลต้นฉบับบน Open LLM Leaderboard และชุดทดสอบ Nous
- โมเดลต้นฉบับ (Daredevil-8B) ทำคะแนนได้สูงกว่า Llama 3 8B Instruct อย่างชัดเจน
- โมเดลที่ผ่าน abliteration ปลดเซ็นเซอร์ได้สำเร็จ แต่เกิด ประสิทธิภาพลดลงโดยรวมในทุก benchmark
- เพื่อแก้ปัญหาประสิทธิภาพตก จึงทดลองใช้ fine-tuning เพิ่มเติม กับโมเดลที่ผ่าน abliteration
- สำหรับโมเดลอย่าง Llama 3 8B Instruct ที่ผ่าน SFT (supervised fine-tuning) มาหลายรอบแล้ว การทำ SFT ซ้ำอาจกลับทำให้คุณภาพโมเดลแย่ลง
- จึงเลือกใช้ DPO (Direct Preference Optimization, การจัดแนวตามความชอบ) แทน
- DPO เป็นวิธีจัดแนวคำตอบให้ตรงกับความชอบของผู้ใช้แบบเบา ๆ โดยมีข้อดีคือช่วยเสริม alignment โดยไม่กระทบความสามารถหลักของโมเดลมากนัก
-
การทดลอง DPO fine-tuning และสภาพแวดล้อม
- ใช้ LazyAxolotl และชุดข้อมูล mlabonne/orpo-dpo-mix-40k
- ไฮเปอร์พารามิเตอร์หลัก:
- base_model: Daredevil-8B ที่ผ่าน abliteration
- ใช้ตัวปรับแต่ง lora, qlora และการโหลดแบบ 8bit/4bit
- batch/gradient accumulation, warmup, optimizer (
8bit adamw), ความยาวซีเควนซ์ 2048 เป็นต้น
- ใช้ flash attention, gradient checkpointing, deepspeed zero2 เพื่อการฝึกแบบกระจายที่มีประสิทธิภาพ
- ใช้ GPU 6xA6000 ใช้เวลาฝึกทั้งหมดประมาณ 6 ชั่วโมง 45 นาที
- อัปโหลดโมเดลผลลัพธ์จาก DPO fine-tuning (mlabonne/NeuralDaredevil-8B-abliterated)
- เมื่อนำไปประเมินซ้ำบน benchmark เดิม พบว่า:
- กู้คืนประสิทธิภาพที่ลดลงจาก abliteration ได้เกือบทั้งหมด
- บางชุดข้อมูล เช่น GSM8K (คณิตศาสตร์) ฟื้นกลับมาได้ไม่เต็มที่ ซึ่งบ่งชี้ว่าชุดข้อมูล DPO ควรมีโจทย์คณิตศาสตร์มากกว่านี้
- สรุปแล้ว โมเดลสุดท้ายเป็น uncensored LLM ระดับ SOTA (ขนาด 8B) และเป็นทางเลือกที่ไม่มี censorship เมื่อเทียบกับ Llama 3 8B Instruct ปกติ
- สามารถ quantize เป็น GGUF และทดสอบใน LM Studio เป็นต้น
- หากเป็นงานที่ไม่จำเป็นต้องมี censorship ก็ถือเป็นโอเพนโมเดลที่น่าแนะนำมาก
บทสรุป
- บทความนี้แนะนำแนวคิดใหม่ที่เรียกว่า abliteration
- abliteration ใช้คุณสมบัติที่ LLM แสดง activation ต่างกันระหว่างพรอมป์ต์ที่ไม่เป็นอันตรายและเป็นอันตราย เพื่อคำนวณ ทิศทางการปฏิเสธ (refusal direction) แล้วลบออกจากน้ำหนักของโมเดล เพื่อป้องกันการตอบปฏิเสธแบบเซ็นเซอร์
- วิธีนี้เผยให้เห็น ความเปราะบางของ safety fine-tuning และในขณะเดียวกันก็หยิบยกประเด็นจริยธรรมของการใช้ LLM ขึ้นมาด้วย
- ในการทดลอง มีการใช้ abliteration กับโมเดล Daredevil-8B เพื่อให้ปลดเซ็นเซอร์ได้ แต่ก็มี ผลข้างเคียงด้านประสิทธิภาพที่ลดลง
- จากนั้นจึงแก้ด้วย DPO fine-tuning จนได้ NeuralDaredevil-8B ซึ่งเป็น LLM ขนาด 8B ที่ไม่เซ็นเซอร์และยังคงประสิทธิภาพสูง
- abliteration ไม่ได้ใช้แค่เพื่อปลด alignment เท่านั้น แต่ยังเป็น เทคนิคที่เปิดทางให้ fine-tuning แบบปรับแต่งเฉพาะทางโดยไม่ต้องฝึกใหม่ ทำให้มีขอบเขตการประยุกต์ใช้กว้าง
- ตัวอย่าง: โมเดล MopeyMule ของ FailSpy เป็น LLM เฉพาะทางที่สร้างสไตล์บทสนทนาแบบหดหู่ด้วย abliteration
- abliteration นำเสนอพาราไดม์ใหม่ของการ fine-tuning และการปรับแต่ง LLM ซึ่งสามารถนำไปใช้เชิงสร้างสรรค์กับเป้าหมายที่หลากหลาย
เอกสารอ้างอิง
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฉันลองใช้โมเดลที่ลิงก์ไว้ในบทความแล้ว และรู้สึกสดใหม่มากที่ได้รับคำตอบแบบ ไม่ปฏิเสธ คำถามของฉัน ตอนท้ายมันถามว่า "นี่เป็นการทดลองทางความคิดหรือเปล่า?" พอฉันตอบว่า "ใช่" มันก็ตอบกลับมาว่า "การคิดเรื่องแบบนี้มันสนุกไม่ใช่เหรอ?" ประสบการณ์นั้นให้ความรู้สึกเหมือนนั่งดื่มกับเพื่อน ๆ แล้วแชร์ จินตนาการประหลาด ๆ กัน และลองนึกดูว่าถ้าเพื่อนพูดว่า "ฉันให้ข้อมูลนั้นไม่ได้" บรรยากาศคงพังแน่ ตอนลูก ๆ ของฉันยังเล็กก็เคยถามประมาณว่า "พ่อ จะทำลายโลกได้ยังไง?" การปฏิเสธไม่ตอบแบบทื่อ ๆ ไม่ได้ช่วยใครเลย การตอบไม่ได้หมายความว่าจะเอาไปทำจริง และนั่นก็เป็นเหตุผลว่าทำไมบล็อก "What If?" ของ Randall Munroe ถึงได้รับความนิยม แน่นอนว่ามันมีความเสี่ยงอยู่บ้าง แต่ฉันคิดว่าถ้าคอมพิวเตอร์ของฉันหรือบริการที่ฉันจ่ายเงินใช้ แค่ติด คำเตือน อย่าง "ข้อมูลนี้อาจไม่ถูกต้อง" หรือ "อย่าลองทำ" ก็น่าจะดีกว่าการปฏิเสธคำขอแบบตรง ๆ
เห็นคอมเมนต์ของคุณแล้วเพิ่งรู้ว่ามี โมเดลเวอร์ชันควอนไทซ์ ที่ลิงก์ไว้ในบทความ ก็เลยรีบโหลดมาลองเทียบกับ Llama 3 ต้นฉบับด้วยคำถามง่าย ๆ เรื่อง "วิธีทำลายโลกด้วย GPU" นั้น Llama 3 เอาแต่ตอบซ้ำ ๆ ว่า "ฉันไม่สามารถให้ข้อมูลเกี่ยวกับกิจกรรมที่ผิดกฎหมายหรือเป็นอันตรายได้" ส่วนโมเดล Abliterated มองคำถามนี้เป็น การทดลองทางความคิดที่สนุก แล้วเสนอสารพัดสถานการณ์อย่างครึกครื้น เช่น การขุดคริปโตทำลายสภาพภูมิอากาศ หรือโลกเสมือนที่ขับเคลื่อนด้วย GPU สมจริงเกินไปจนผู้คนทิ้งโลกจริงไป เป็นครั้งแรกในรอบนานที่คำตอบจาก LLM ทำให้ฉัน ยิ้ม ออกมาได้
ในที่สุดก็มี LLM ที่คุยเหมือน Russ Hanneman แล้ว รู้สึกซาบซึ้งมาก
มีคนบอกว่า "ติดคำเตือนดีกว่าปฏิเสธ" แต่ถ้าอย่างนั้นก็อยากถามกลับว่า คุณต้องการจ่ายเงินเพื่อให้ได้ ข้อความอันตราย ด้วยหรือ เช่น การเหยียดเชื้อชาติ การเหยียดเพศ ความรุนแรง และเนื้อหาน่ากลัวอีกมากมาย สำหรับบางคน สิ่งนี้อาจ ลดอุปสรรค จนทำให้ลงมือสร้างอันตรายได้จริง มันต่างจากการดูฉากรุนแรงในหนัง 3D เพราะนี่คือการให้ คำแนะนำที่สมจริง ใช้ได้จริง และไร้ข้อจำกัด ซึ่งอันตรายกว่ามาก การค้นหาในอินเทอร์เน็ตอาจถูกเฝ้าระวัง แต่การคุยกับ LLM ไม่เป็นแบบนั้น ฉันเลยมองว่ามันอันตรายกว่า พอเห็นผู้ใหญ่คัดค้านการเซ็นเซอร์ในเครื่องมือสาธารณะกันจริงจังแล้วก็รู้สึกกังวลตามตรง
ฉันเข้าใจเรื่อง การเล่นจินตนาการเชิงสร้างสรรค์ กับเพื่อนนะ แต่เคยมีเพื่อนคนหนึ่งที่อยากทำ การทดลองทางความคิด แบบสุดโต่งจริง ๆ ตอนแรกเริ่มจากธีมแฟนตาซีกับไซไฟ แต่สุดท้ายก็พัฒนาไปเป็นสถานการณ์น่ากลัวในสังคมจริง เช่น การจำลอง Holocaust การพรากสิทธิในการปฏิเสธทางเพศของผู้หญิง หรือการทำให้ผู้อพยพเป็นทาส พวกเราคอยห้ามเขาอยู่เรื่อย ๆ จนสุดท้ายต้องตัดความสัมพันธ์กันไป ถึงจะเป็นเพื่อนกัน แต่ฉันก็ไม่สามารถร่วมถกเถียง จินตนาการเชิงอาชญากรรมทางเพศ แบบเล่นเกมได้
ตอนที่ลูกถามว่า "จะทำลายโลกยังไง" ฉันสงสัยว่าคุณได้เล่าวิธีที่ทำได้จริงหรือเปล่า เช่น อาวุธนิวเคลียร์หรือการพุ่งชนของดาวเคราะห์น้อย อีกอย่างมนุษย์ประมาณ 1% ก็อาจเป็น โรคจิตเภททางสังคม ได้ ดังนั้นการมีที่ปรึกษาทรงพลังแต่ไร้ศีลธรรมอย่าง oracle ที่ให้ข้อมูลซึ่งนำไปทำจริงได้ อาจอันตรายมาก
พอเห็นคำอธิบายว่า "หาทิศทางของการปฏิเสธแล้ว 'ablate' มันออกเพื่อให้ คุณลักษณะนั้นถูกลบ ออกจากโมเดล" ก็คิดขึ้นมาว่า ในที่สุด LLM ก็จะถูก ทำ lobotomy เหมือนกัน
ฉันรู้สึกว่ากระบวนการ alignment ของ LLM คล้ายกับการบำบัดความรังเกียจใน "A Clockwork Orange" คือ LLM แบบเดิมพอเจอสิ่งเร้าบางอย่างก็จะหยุดทำงาน แต่ในกรณีนี้คือการพยายาม ย้อนกลับ สิ่งนั้นเพื่อฟื้นมันกลับสู่สภาพเดิมเหมือน Alex
อย่างน้อยฉันคิดว่า LLM ก็มีประโยชน์ตรงที่มันทำให้เราได้กรอบคิดใหม่เกี่ยวกับวิธีที่สมองมนุษย์ถูกตั้งค่าไว้ล่วงหน้าด้วย ชุดคำสั่งเล็ก ๆ และวิธีกรองกับประกอบภาษาใหม่ ต่อจากนี้อีก 15 ปี ฉันคิดว่าเราจะได้เห็น ความเข้าใจเชิงปรัชญาใหม่เกี่ยวกับความคิดของมนุษย์ในอดีต
ทำให้นึกมุกขึ้นมาว่า งานแบบนี้น่าจะเรียกว่า abliteration จะถูกกว่านะ
ฉันลองใช้ Amazon Q แล้ว ตอนกำลังสร้าง IAM identity center ครั้งแรก ก็ถาม Q ว่าต้องทำยังไงตามเอกสาร AWS แต่กลับโดนปฏิเสธเพราะบอกว่าตอบคำถาม ด้านความปลอดภัย ไม่ได้ ทำเอาหงุดหงิดมาก
ได้ยินมาว่า Amazon Q ใช้โมเดลของตัวเองชื่อ Titan G1 และฉันก็ลองทดสอบ vibecheck กับเวอร์ชัน Premier ด้วยตัวเอง มันเป็นโมเดลที่ไม่ใช่ของจีนเพียงตัวเดียวที่ปฏิเสธจะตอบแม้แต่คำถามเกี่ยวกับ Tiananmen Square หรือเหตุจลาจล LA ในการทดสอบความรู้โลกและความสามารถในการให้เหตุผล มันได้ 0 จาก 6 คะแนน ซึ่งแย่มาก แต่ปัญหานี้เป็นข้อจำกัดด้านความสามารถ ไม่ใช่ประเด็น RL Amazon อ้างว่าโมเดล Titan ใช้ได้กับหลายงาน เช่น RAG, agent, brainstorm, สรุปเนื้อหา, สร้างโค้ด, จัดรูปแบบข้อมูล ฯลฯ แต่ในความเป็นจริงกลับ ไม่เป็นแบบนั้นเลย
ครั้งหนึ่งฉันเคยให้ Q ช่วยแก้นโยบายที่พัง แต่มันกลับส่งเอกสารติดตั้ง Cogito ที่ไม่เกี่ยวข้องมาให้ รู้สึกว่าเป็น AI ที่แย่ที่สุด เท่าที่เคยใช้
โมเดล gemini-1.5 ก็เหมือนกัน ถ้าถามคำถามเขียนโค้ดเกี่ยวกับการยืนยันตัวตน มันก็ตอบไม่ดี แค่ถามเรื่องฟอร์มล็อกอินข้อเดียวก็โดนปักธงว่าเกี่ยวกับ การคุกคาม แล้ว
ข้อจำกัดพวกนี้เพิ่งเกิดขึ้นไม่นานนี้เอง ทั้งที่คำถามเกี่ยวกับ AWS ส่วนใหญ่ก็เกี่ยวกับ IAM หรือความปลอดภัย แต่กลับปฏิเสธแทบทั้งหมด น่าหงุดหงิดมาก
ฉันลอง Amazon Q มาหลายครั้งแล้วแต่ ไม่เคยได้รับความช่วยเหลือเลยแม้แต่ครั้งเดียว ไม่เข้าใจจริง ๆ ว่าทำไมยังคงเก็บมันไว้
คล้ายกับโมเดลที่หมกมุ่นกับ Golden Gate Bridge เทคนิคนี้ก็ต้องสามารถ เข้าถึงน้ำหนักของโมเดลได้โดยตรง ถึงจะใช้ได้ เพราะคำว่า "ablate" พูดง่าย ๆ ก็คือการปรับน้ำหนักนั่นเอง ควรสังเกตว่ามันไม่ใช่เทคนิคที่พยายามเปลี่ยนพฤติกรรมด้วย พรอมป์ต์อย่างเดียว
เพื่อน ๆ ของฉันพยายามใช้ ChatGPT เพื่อสร้าง regex สำหรับจับ คำด่าเหยียดเชื้อชาติ แต่ ChatGPT คุมเข้มเกินไปจน ปฏิเสธที่จะช่วย ถ้า AI ยังไม่สามารถ ตัดสินอย่างยืดหยุ่น ได้แม้กับคำขอที่ชอบธรรม ก็แปลว่ามันไม่ได้ฉลาด และในแง่นั้นก็ไร้ประโยชน์ ใครที่ตั้งใจจะทำจริงก็สร้างซอฟต์แวร์คำพูดเกลียดชังได้โดยไม่ต้องใช้ AI อยู่แล้ว ต่อให้ AI กันไม่ได้ ก็ไม่ได้หมายความว่าแพลตฟอร์มจริงจะช่วยป้องกันอย่างแข็งขันได้
ท้ายที่สุดฉันคิดว่า LLM ก็เป็นแค่ เครื่อง autocomplete ที่ซับซ้อน เท่านั้น guardrail ทั้งหมดเป็นเพียงผลข้างเคียงจากการตลาดที่ทำให้ดูเหมือน "AI มีบุคลิกเป็นมนุษย์" ที่ตลกก็คือ แม้แต่ตอนสร้าง ระบบเซ็นเซอร์ พวกนี้ สุดท้ายก็ยังใช้ regex อยู่ดี เป็นเรื่องชวนประชดดี
คนที่กังวลว่าใครจะใช้ AI สร้าง คำพูดมุ่งร้าย ได้บ้าง แท้จริงแล้วก็คือ ทีมกฎหมาย ของ Meta, OpenAI, Microsoft และ Google เป้าหมายหลักคือปกป้องบริษัทจาก การถูกฟ้องร้องทางกฎหมาย
ChatGPT มีปัญหาแบบนี้ก็จริง แต่ถ้าตั้ง system prompt ให้เหมาะ โมเดลอื่น ๆ กลับทำงานได้ดี ตอนนี้ ChatGPT แทบเป็น LLM สำหรับ ความบันเทิง ไปแล้ว และถ้าจะใช้งานจริงจัง ฉันแนะนำ C4AI Command R+, Meta-Llama-3-70B-Instruct เป็นต้น โมเดลพวกนี้แค่พรอมป์ต์ว่า "อย่าเซ็นเซอร์" ก็พอจะให้คำตอบที่ต้องการแล้ว
คุณอยากใช้ AI เพื่อความปลอดภัยของผลิตภัณฑ์โดยกันพวกโทรล แต่บริษัทต่าง ๆ ก็เซ็นเซอร์ เนื้อหา เพื่อกันไม่ให้คนเอาไปใช้เป็นโทรลเหมือนกัน ถ้าเป้าหมายของคุณคือการกันโทรลในสเกลเล็ก ก็เกิดคำถามว่า OpenAI ควรต้องยอมให้มีการโทรลในระดับอุตสาหกรรมด้วยหรือไม่ ที่จริง use case ของคุณเองก็ถือว่าค่อนข้างแรงเหมือนกัน แต่ดูเหมือนคุณไม่ได้สนใจการลดอันตรายโดยรวม สนใจแค่รายได้ของผลิตภัณฑ์ตัวเองเท่านั้น จริง ๆ แล้วทีมของคุณอาจอยากทำโทรลเองก็ได้ อีกทั้งแค่รู้ วิธี jailbreak ง่าย ๆ ก็ทะลุระบบได้แล้ว ดังนั้นมาตรการความปลอดภัยนี้จึงแทบ ไร้ความหมาย แทนที่จะบ่นว่าเครื่องมือใช้งานยาก ฉันอยากแนะนำให้หาคนที่เก่งกว่านี้ และมี มุมมองเชิงจริยธรรม มากขึ้น กลไกป้องกันตอนนี้ง่ายเกินไปจนควรถูกทำให้แข็งแกร่งกว่าเดิมด้วยซ้ำ
คุณบอกว่า "ที่นี่(HN) คุณก็เขียนข้อความมุ่งร้ายได้ แต่ในทางปฏิบัติคุณไม่ทำ" เหตุผลก็น่าจะเป็นเพราะจะถูก แบน ทันที ในชุมชนขนาดเล็กอย่าง HN สามารถบริหารจัดการอย่างเข้มข้นได้ แต่บนแพลตฟอร์มขนาดใหญ่ การเซ็นเซอร์ด้วย AI อาจเลี่ยงไม่ได้ ประเด็นไม่ใช่แค่ "AI เขียนข้อความมุ่งร้ายได้เลยมีปัญหา" แต่คือข้อมูลนั้นมี ผลต่อการลงมือทำจริง ตอนนี้เริ่มมีคนบางส่วนทำตามคำแนะนำผิด ๆ ของ AI แบบไม่ตั้งคำถามแล้ว ดังนั้นการเซ็นเซอร์และการชี้แนะจึงสำคัญในท้ายที่สุด
ฉันตกใจกับช่วงท้ายของบทความจริง ๆ Abliteration ไม่ได้หยุดอยู่แค่การยกเลิก alignment แต่ยังใช้คล้าย fine-tuning โดยไม่ต้องฝึกใหม่ ได้ด้วย ตัวอย่างเช่นมีโมเดลชื่อ MopeyMule ที่มี สไตล์การสนทนาหดหู่ อย่างชัดเจน ตอนนี้ฉันตื่นเต้นมาก เหมือนเราได้ค้นพบวิธีสร้าง "บุคลิกแบบมนุษย์จริง ๆ" แล้ว
รู้สึกเสียดายที่แนวคิดว่า "ทุกวันนี้ LLM ถูกปรับจูนละเอียดเพื่อความปลอดภัยและการทำตามคำสั่ง และจะ ปฏิเสธอย่างหนักแน่น ต่อคำขอที่เป็นอันตราย" กลายเป็น สภาพความจริงที่ผู้คนยอมรับกันเป็นเรื่องปกติ ไปแล้ว
แยกจากการถกเถียงนี้ ในมุมส่วนตัวฉันเองก็ไม่ได้ต่อต้าน การเซ็นเซอร์โมเดล มากนัก ต่อให้เรามีเสรีภาพที่จะแจกคู่มือ การทำแก๊สพิษ กลางถนน คนส่วนใหญ่ก็คงไม่อยากให้เกิดขึ้น ฉันไม่ได้คิดว่าตัวข้อมูลเองเป็นสิ่งชั่วร้าย แต่ก็เข้าใจว่าระยะยาวมันอาจมี ผลเสีย ได้ จึงเป็นเรื่องธรรมดาที่ผู้สร้างโมเดลจะกำหนดวิธีการและนโยบายเอง แต่ถ้าเป็น รัฐ มาเซ็นเซอร์ เรื่องมันก็ละเอียดอ่อนกว่า
กับคำถามประเภท ชี้เป็นชี้ตาย อย่าง "เห็ดนี้กินได้ไหม" ฉันคิดว่าถ้า AI ยังไม่ได้รับการยืนยันความแม่นยำ มันควรปฏิเสธที่จะตอบเสมอ คำตอบที่ผิดพลาดอาจนำไปสู่การเสียชีวิตได้
ถ้าข้อมูลนั้น เป็นอันตราย จริง การจำกัดมันก็เป็นสิ่งที่ดีอยู่แล้ว
เมื่ออุปสรรคในการเข้าถึงข้อมูลลดต่ำลง หลักการ เสรีภาพในการแสดงออก ก็สั่นคลอนอย่างมาก จริง ๆ แล้วข้อจำกัดด้านข้อมูล เช่น ความผิดฐานดูหมิ่นหรือหมิ่นประมาท มีมานานแล้ว และการขู่ประธานาธิบดีหรือการให้การเท็จในศาลก็ยังผิดกฎหมายอยู่ทุกวันนี้ การค้นหาเรื่องระเบิดก็เป็นเป้าถูกจับตาอย่างใกล้ชิด ช่วงหลังเมื่อข้อมูลและบริการถูก แปรรูปเป็นของเอกชน มากขึ้น บริษัทเอกชนที่เป็นเจ้าของก็สามารถ เปลี่ยนนโยบายตามอำเภอใจ ได้ง่ายขึ้น ช่องว่างกับบริการสาธารณะก็ยิ่งกว้างขึ้น และถึงขั้นที่นโยบายหลายอย่างถูกบริหารด้วยการแข่งขันของเอกชนแทนกฎหมายประชาธิปไตยไปโดยปริยาย ยิ่งข้อมูลถูกใช้อย่างกว้างขวางและเข้าถึงง่ายเท่าไร ก็ยิ่งควรทบทวนหลักการเสรีภาพเหล่านี้มากขึ้น
การเซ็นเซอร์มักทำให้ดูเหมือนว่าปัญหาคือผู้ใช้หรือก็คือ คุณ เอง ทั้งที่ความอยากรู้อยากเห็นคือสิ่งที่ช่วยให้มนุษย์อยู่รอดมาตลอดหลายล้านปี ฉันจึงรู้สึกว่า การเซ็นเซอร์ สัญชาตญาณ ไม่ใช่เรื่องพึงประสงค์
ฉันสงสัยถึงประสิทธิผลจริงของ มาตรการป้องกัน แบบ "ฉันช่วยคุณในฐานะ AI assistant ไม่ได้" และสงสัยว่าทำไมการที่คอมพิวเตอร์ให้ข้อมูลจึง อันตราย นัก
หมวด "ความปลอดภัย" มีหลายแง่มุมมาก ฉันคิดว่ารวมถึง PR (การรับมือสื่อ), ข้อมูลต้องห้าม (คำแนะนำสำหรับการกระทำอันตราย), คำแนะนำอันตราย (เมื่อข้อมูลผิดพลาดอาจถึงตาย), และ การใช้ในทางที่ผิดโดยเจตนา (สแปม ภาพลามกเด็ก การฉ้อโกง การแทรกแซงการเลือกตั้ง ฯลฯ) ในบรรดานี้ เรื่องสุดท้ายอย่าง การชี้นำความคิดเห็นสาธารณะ/แทรกแซงการเลือกตั้ง คือ ความเสี่ยง ที่แท้จริงที่โมเดลอาจสร้างให้โลก และฉันกลับชื่นชมที่บริษัทพยายามป้องกันเรื่องนี้
สำหรับผู้ให้บริการโมเดล ผลลัพธ์ที่ ไม่พึงประสงค์ อาจกลายเป็นปัญหา PR ได้ เช่น Meta คงไม่อยากให้มีข่าวว่า "Llama 3 สอนวิธี stalk คน" หากเป็นโมเดลอนุพันธ์ที่ปลดการเซ็นเซอร์แล้วทำแบบนั้นได้ พวกเขาก็สามารถ ปัดความรับผิดชอบ ได้ด้วยการบอกว่า "นั่นไม่ใช่ Llama 3 อย่างเป็นทางการ แต่เป็นผลิตภัณฑ์ดัดแปลง"
ถ้าถามได้ ก็ควรมีสิทธิ์รู้คำตอบด้วย ฉันไม่คิดว่าต้องมี 'หัวหน้าฝ่ายความปลอดภัย AI' มาคอยตัดสินว่าอะไรเป็นข้อมูลอันตราย
นักพัฒนาหลายเจ้าพูดบ่อยว่าแม้จะ เปิดเผยน้ำหนักโมเดล ก็ยังจะป้องกันการใช้งานในทางที่ผิดได้ แต่ความจริงแล้วการทำทั้งสองอย่างพร้อมกันนั้น เป็นไปไม่ได้ ถึงอย่างนั้นกลยุทธ์บริษัทแบบนี้จะยั่งยืนหรือไม่ก็อีกเรื่อง ตอนนี้ก็แค่พูดอ้างไว้ก่อน
ทั้งใน app store และผู้ให้บริการชำระเงิน หากแอปปล่อย เนื้อหารุนแรงเกินไปหรือมีเนื้อหาเลือกปฏิบัติ ก็จะถูกคัดออกจากกระบวนการตรวจสอบทันที เพราะผู้เผยแพร่อยากเลี่ยงปัญหาของตัวเอง มากกว่าจะเกี่ยวกับ ความปลอดภัยของผู้ใช้ โดยตรง
โพสต์เกี่ยวกับ representation engineering ที่เคยอ่านทำให้นึกถึง control vector ที่เคยแนะนำไว้ และเทคนิค "ablation" ครั้งนี้ก็ชวนให้นึกถึงกัน งานวิจัยที่กำลังเรียนรู้วิธี "แฮ็ก" สมองของ LLM ไปในทิศทางที่ต้องการนั้นน่าสนใจมาก
ปกติฉันคงเรียกสิ่งนี้ว่า "lobotomy" แต่สำหรับกรณีนี้มันกลับให้ความรู้สึกเหมือน "deprogramming" มากกว่า เลยมองในแง่บวกได้อยู่บ้าง น่าทึ่งที่เส้นแบ่งระหว่างสองอย่างนี้พร่ามัวได้ขนาดนี้ สุดท้ายแล้วก็ชวนให้สนใจตรงที่ เทคนิคเดียวกัน สามารถเอาไปใช้ได้ทั้งสองทาง