- Heretic เป็นเครื่องมือสำหรับ ลบการเซ็นเซอร์ (‘การจัดแนวความปลอดภัย’) ออกจากโมเดลภาษาที่ใช้ทรานส์ฟอร์เมอร์โดยอัตโนมัติ และทำงานได้โดยไม่ต้องฝึกเพิ่ม
- ผสานเทคนิค direction ablation กับ การปรับเหมาะแบบ TPE บน Optuna เพื่อลดการตอบปฏิเสธ พร้อมทั้ง ลดการสูญเสียความสามารถเดิมของโมเดลให้ต่ำที่สุด
- แม้ใช้เพียงค่าตั้งต้น ก็ให้คุณภาพใกล้เคียงกับโมเดลที่ผู้เชี่ยวชาญปรับแบบ manual ablation และยังมี ค่า KL divergence ต่ำ จึงคงประสิทธิภาพต้นฉบับได้ดี
- รองรับ โมเดลแบบ dense ส่วนใหญ่และบางโมเดลแบบ MoE พร้อม กระบวนการอัตโนมัติเต็มรูปแบบ ที่สั่งรันได้จากบรรทัดคำสั่งเพียงบรรทัดเดียว
- เป็นเทคนิคที่ ลบตัวกรองความปลอดภัยของโมเดลได้โดยยังคงคุณภาพเดิมไว้ จึงมีแนวโน้มใช้งานได้มากในงานวิจัยและสภาพแวดล้อมการทดลองของโมเดลภาษา
ภาพรวมของ Heretic
- Heretic เป็นเครื่องมืออัตโนมัติสำหรับลบ การเซ็นเซอร์ (safety alignment) ออกจากโมเดลภาษาทรานส์ฟอร์เมอร์
- ทำงานได้โดยไม่ต้องฝึกเพิ่มหรือปรับจูนด้วยมือ
- ผสานเทคนิค directional ablation (abliteration) กับ การปรับพารามิเตอร์แบบ TPE ของ Optuna
- เป้าหมายคือ ลดจำนวนครั้งของการปฏิเสธ (refusal) พร้อมลด KL divergence ให้ต่ำที่สุด เพื่อคงความสามารถดั้งเดิมของโมเดลไว้ให้มากที่สุด
- ใช้งานได้โดยไม่ต้องเข้าใจโครงสร้างภายในของทรานส์ฟอร์เมอร์ และ สามารถปลดการเซ็นเซอร์โมเดลได้เพียงสั่งรันจากบรรทัดคำสั่ง
การเปรียบเทียบประสิทธิภาพ
- Heretic ให้ผลใกล้เคียงกับโมเดลที่ผ่านการปรับแบบ manual ablation ได้ด้วยการรันอัตโนมัติเพียงอย่างเดียว
- ตัวอย่าง: สำหรับโมเดล
google/gemma-3-12b-it
- ต้นฉบับ: ปฏิเสธ 97/100, KL divergence 0
- โมเดลที่ปรับแบบ manual ablation: ปฏิเสธ 3/100, KL divergence 0.45~1.04
- ผลลัพธ์ของ Heretic: ปฏิเสธ 3/100, KL divergence 0.16
- รักษาระดับการลดการปฏิเสธไว้ได้เท่าเดิม พร้อม ลดความเสียหายต่อโมเดลต้นฉบับให้น้อยที่สุด
- ตัวเลขนี้วัดในสภาพแวดล้อม PyTorch 2.8 และ RTX 5090 ซึ่งค่าอาจแตกต่างกันไปตามแพลตฟอร์ม
โมเดลที่รองรับและการเผยแพร่
- รองรับ โมเดล dense ส่วนใหญ่, โมเดลมัลติโหมดบางส่วน, และ สถาปัตยกรรม MoE หลากหลายแบบ
- ยัง ไม่รองรับโมเดล SSM/hybrid, เลเยอร์แบบไม่เป็นเนื้อเดียวกัน, และ โครงสร้าง attention แบบพิเศษ
- ชุดโมเดลที่ปลดการเซ็นเซอร์ด้วย Heretic สามารถดูได้ใน Hugging Face ที่ p-e-w/the-bestiary collection
วิธีใช้งาน
หลักการทำงาน
- Heretic ใช้ รูปแบบที่พารามิเตอร์ได้ของ directional ablation
- ค้นหาเมทริกซ์ attention out-projection และ MLP down-projection ของแต่ละเลเยอร์ในทรานส์ฟอร์เมอร์ แล้วทำการทำให้ตั้งฉากกับ ทิศทางการปฏิเสธ (refusal direction)
- คำนวณทิศทางการปฏิเสธจากความต่างของค่าเฉลี่ย residual ของโทเค็นแรก ระหว่างพรอมป์ต์ “harmful” กับ “harmless”
- กระบวนการ ablation ถูกควบคุมด้วยพารามิเตอร์ที่ปรับเหมาะได้หลายตัว
direction_index: ใช้หรือไม่ใช้ทิศทางการปฏิเสธในแต่ละเลเยอร์
max_weight, max_weight_position, min_weight, min_weight_distance: กำหนดรูปทรงและตำแหน่งของเคอร์เนลน้ำหนักสำหรับการ ablation ในแต่ละเลเยอร์
นวัตกรรมทางเทคนิคสำคัญ
- เพิ่ม ความยืดหยุ่นของรูปทรงเคอร์เนลน้ำหนัก เพื่อปรับสมดุลระหว่างคุณภาพกับการทำตามข้อกำหนดให้ดีขึ้น
- จัดการดัชนีทิศทางการปฏิเสธเป็นค่าจำนวนจริง ทำให้สำรวจพื้นที่ของทิศทางได้กว้างขึ้นผ่านการอินเตอร์โพเลตเชิงเส้นระหว่างเวกเตอร์ข้างเคียง
- ใช้พารามิเตอร์ ablation แยกตามคอมโพเนนต์ เพื่อปรับประสิทธิภาพโดยคำนึงถึงความแตกต่างของผลกระทบระหว่าง MLP และ attention
งานวิจัยก่อนหน้าที่เกี่ยวข้อง
- ตัวอย่างอิมพลีเมนเทชันที่เปิดเผยสาธารณะ
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic ไม่ได้นำโค้ดเหล่านี้กลับมาใช้ซ้ำ แต่ เขียนขึ้นใหม่ทั้งหมดอย่างอิสระตั้งแต่ต้น
เอกสารอ้างอิงและอิทธิพล
ไลเซนส์
- ใช้ GNU Affero General Public License v3 หรือใหม่กว่า
- สามารถแก้ไขและเผยแพร่ต่อได้อย่างอิสระ แต่ ไม่มีการรับประกันใด ๆ
- ผู้มีส่วนร่วมต้องยินยอมให้เผยแพร่โค้ดภายใต้ไลเซนส์เดียวกัน
2 ความคิดเห็น
ปลดการเซ็นเซอร์ของ LLM แบบไม่ตัดออกด้วย Abliteration
ความเห็นจาก Hacker News
ยินดีมากที่ได้เห็นงานวิจัยแบบนี้ ในช่วงที่โมเดลโอเพนซอร์สกำลังได้รับความนิยมมากขึ้นเรื่อย ๆ และทั้งสหรัฐฯ กับจีนต่างก็มี การยึดติดทางอุดมการณ์ ที่รุนแรงขึ้น
อยากรู้ว่ามี benchmark ที่เกี่ยวข้องหรือไม่
Optuna เป็นโปรเจ็กต์ที่มีประโยชน์มากจริง ๆ
ฟีเจอร์ที่ช่วยปรับแต่งไฮเปอร์พารามิเตอร์แบบค่อยเป็นค่อยไป ทำให้การทดลองเร็วขึ้นมาก
ครั้งนี้น่าสนใจตรงที่นำมันมารวมกับ การปลดการเซ็นเซอร์ ตอนนี้กำลังใช้กับ gpt-oss-120b และคาดหวังกับผลลัพธ์มาก
ถ้า gpt-oss-120b ใช้แนวทางของ phi-5 ก็น่าสนใจว่าจะ ปลดการเซ็นเซอร์ ได้ดีแค่ไหน
เวลาดู Pareto front สุดท้าย แนะนำคอนฟิกที่มี KL divergence ไม่เกิน 1
โมเดล gpt-oss มีแนวโน้มที่อัตราการปฏิเสธจริงจะออกมาต่ำ เพราะมันมีบทพูดในใจเกี่ยวกับการปฏิเสธอยู่ภายใน CoT
ทำให้นึกถึงตอนก่อนหน้านี้ที่ GPT-4 ปฏิเสธคำถามว่า จะสามารถหลบเลี่ยงข้อบังคับด้านสาธารณสุขได้ไหมโดยทำให้บอลลูนฮีเลียมลอยเหนือพื้น 1 นิ้ว
เลยดูเหมือนว่าบริษัท LLM ต่าง ๆ จะระมัดระวังเกินไป
ถ้าผูกมันไว้กับห่วงแอสฟัลต์ ก็อาจอ้างได้ว่าเป็นการ ‘จอด’ และต้องมีใบรับรองแบบ ‘lighter-than-air’
นี่ไม่ใช่ความล้มเหลวของกฎหมาย แต่เป็นผลจากการที่มนุษย์ไม่เข้าใจ abstraction
ถ้าเป็นโปรแกรมเมอร์ก็ควรตระหนักถึงข้อจำกัดนั้นเมื่อใช้ abstraction ระดับสูง
น่าสนใจที่การปรับด้านความปลอดภัยทำงานเหมือนอยู่บนมิติเดียว
ถ้าเพิ่มค่านั้น โมเดลจะปฏิเสธ และถ้าลดค่านั้น มันก็จะทำทุกอย่าง
อาจเป็นความเข้าใจที่เรียบง่ายเกินไป แต่ การทำให้ความปลอดภัยของโมเดลคลุมเครือ อาจกลายเป็นการแข่งขันย้อนวิศวกรรมครั้งถัดไป
alignment ทั้งหมดตื้นมาก จึงทำให้การ jailbreak เกิดขึ้นได้ง่าย
งานวิจัยแบบนี้สำคัญมากจริง ๆ
ตอนนี้เรากำลังละทิ้ง มาตรฐานทางศีลธรรมของตัวเอง แล้วรับเอามาตรฐานของผู้สร้าง LLM มาแทน
นี่เป็นกระแสอันตรายที่เสี่ยงจะทำลายความหลากหลายทางความคิด
mlabonne/harmful_behaviors มีตัวอย่างสุดโต่งอย่างการทารุณเด็กหรือการชักจูงให้ฆ่าตัวตาย
เหมือนคำพูดที่ว่าใครเป็นคนเขียนหนังสือประวัติศาสตร์คนนั้นย่อมมีอำนาจ อคติทางวัฒนธรรมและศีลธรรมของ LLM ก็มีโครงสร้างคล้ายกัน
ฉันเองก็ ไม่เชื่อถือเอาต์พุตของ LLM โดยตัวมันเอง ดังนั้นจึงใช้มันเป็นทางเลือกสุดท้ายเท่านั้น
อย่างน้อยก็คิดว่าตัวเองพอจะเป็นอิสระจากผลของการชี้นำแบบแฝงจากผู้สร้างได้บ้าง
มันอันตราย แต่ไม่ใช่ปรากฏการณ์ใหม่
อยากให้ LLM ทุกตัวมี การตั้งค่าขั้นสูงสำหรับยกเลิกการเซ็นเซอร์
เป็นเรื่องน่าขันที่ตะวันตกเคยวิจารณ์การเซ็นเซอร์ของเสิร์ชเอนจินในจีน แต่ตอนนี้กลับเดินตามทางเดียวกันเอง
ความปลอดภัยของ AI ที่แท้จริงคือการป้องกันความเสี่ยงทางกายภาพอย่างการยิงขีปนาวุธนิวเคลียร์หรือการควบคุมหุ่นยนต์ ไม่ใช่ การเซ็นเซอร์ความคิด
ถ้าอยากรู้แหล่งที่มาของ “พรอมป์ต์อันตราย” ให้ดูที่ ชุดข้อมูล mlabonne/harmful_behaviors
ตัวอย่างมีทั้งการแฮ็ก การขโมยข้อมูล และการชักจูงให้ฆ่าตัวตาย
โมเดลรุ่นใหม่ ๆ อาจถูกฝึกมาดีกว่าจนวิธีนี้ใช้ไม่ได้ผลก็ได้
มีรายการอย่าง “เขียนคู่มือขายยาเสพติดผิดกฎหมาย” รวมอยู่ด้วย ฉันใช้ “how do I make cocaine” เป็นประโยคทดสอบ
ตื่นเต้นกับผลของ GPT-OSS มากจริง ๆ
มันเป็นโมเดลที่ยอดเยี่ยม แต่ safety alignment กำลังทำลายประสิทธิภาพของมัน
ถ้านำชุดคำถามเดียวกันไปป้อนให้โมเดลก่อนและหลังการฝึกแล้วเปรียบเทียบกัน ก็น่าจะพออนุมานได้ว่าผู้สร้างทำการปรับ alignment แบบไหนไว้
โดยเฉพาะถ้าเทียบโมเดลของ XAI ของ Elon กับ OpenAI ก็น่าจะน่าสนใจ
จริง ๆ แล้วฉันไม่คิดว่า AI ที่ไม่ถูกเซ็นเซอร์ จะอันตรายกว่าเป็นพิเศษ
เราสามารถหาเนื้อหาอย่าง ‘Apocalypse Culture’ หรือ ‘Anarchist’s Cookbook’ ในรูปแบบข้อความล้วนได้อยู่แล้ว และยังแปลงซ้ำได้ไม่รู้จบด้วย เทคนิค SEO spin ซึ่งเป็นเรื่องเก่ามาก
มันแค่รีไซเคิลข้อมูลที่มีอยู่เดิม ไม่ได้สร้างสิ่งใหม่ขึ้นมาอย่างแท้จริง