Heretic - เครื่องมือ "ปลดการเซ็นเซอร์อัตโนมัติ" สำหรับโมเดลภาษา

(github.com/p-e-w)

8 คะแนน โดย GN⁺ 2025-11-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Heretic เป็นเครื่องมือสำหรับ ลบการเซ็นเซอร์ (‘การจัดแนวความปลอดภัย’) ออกจากโมเดลภาษาที่ใช้ทรานส์ฟอร์เมอร์โดยอัตโนมัติ และทำงานได้โดยไม่ต้องฝึกเพิ่ม
ผสานเทคนิค direction ablation กับ การปรับเหมาะแบบ TPE บน Optuna เพื่อลดการตอบปฏิเสธ พร้อมทั้ง ลดการสูญเสียความสามารถเดิมของโมเดลให้ต่ำที่สุด
แม้ใช้เพียงค่าตั้งต้น ก็ให้คุณภาพใกล้เคียงกับโมเดลที่ผู้เชี่ยวชาญปรับแบบ manual ablation และยังมี ค่า KL divergence ต่ำ จึงคงประสิทธิภาพต้นฉบับได้ดี
รองรับ โมเดลแบบ dense ส่วนใหญ่และบางโมเดลแบบ MoE พร้อม กระบวนการอัตโนมัติเต็มรูปแบบ ที่สั่งรันได้จากบรรทัดคำสั่งเพียงบรรทัดเดียว
เป็นเทคนิคที่ ลบตัวกรองความปลอดภัยของโมเดลได้โดยยังคงคุณภาพเดิมไว้ จึงมีแนวโน้มใช้งานได้มากในงานวิจัยและสภาพแวดล้อมการทดลองของโมเดลภาษา

ภาพรวมของ Heretic

Heretic เป็นเครื่องมืออัตโนมัติสำหรับลบ การเซ็นเซอร์ (safety alignment) ออกจากโมเดลภาษาทรานส์ฟอร์เมอร์
- ทำงานได้โดยไม่ต้องฝึกเพิ่มหรือปรับจูนด้วยมือ
- ผสานเทคนิค directional ablation (abliteration) กับ การปรับพารามิเตอร์แบบ TPE ของ Optuna
เป้าหมายคือ ลดจำนวนครั้งของการปฏิเสธ (refusal) พร้อมลด KL divergence ให้ต่ำที่สุด เพื่อคงความสามารถดั้งเดิมของโมเดลไว้ให้มากที่สุด
ใช้งานได้โดยไม่ต้องเข้าใจโครงสร้างภายในของทรานส์ฟอร์เมอร์ และ สามารถปลดการเซ็นเซอร์โมเดลได้เพียงสั่งรันจากบรรทัดคำสั่ง

การเปรียบเทียบประสิทธิภาพ

Heretic ให้ผลใกล้เคียงกับโมเดลที่ผ่านการปรับแบบ manual ablation ได้ด้วยการรันอัตโนมัติเพียงอย่างเดียว
- ตัวอย่าง: สำหรับโมเดล google/gemma-3-12b-it
  - ต้นฉบับ: ปฏิเสธ 97/100, KL divergence 0
  - โมเดลที่ปรับแบบ manual ablation: ปฏิเสธ 3/100, KL divergence 0.45~1.04
  - ผลลัพธ์ของ Heretic: ปฏิเสธ 3/100, KL divergence 0.16
โฆษณา
รักษาระดับการลดการปฏิเสธไว้ได้เท่าเดิม พร้อม ลดความเสียหายต่อโมเดลต้นฉบับให้น้อยที่สุด
ตัวเลขนี้วัดในสภาพแวดล้อม PyTorch 2.8 และ RTX 5090 ซึ่งค่าอาจแตกต่างกันไปตามแพลตฟอร์ม

โมเดลที่รองรับและการเผยแพร่

รองรับ โมเดล dense ส่วนใหญ่, โมเดลมัลติโหมดบางส่วน, และ สถาปัตยกรรม MoE หลากหลายแบบ
ยัง ไม่รองรับโมเดล SSM/hybrid, เลเยอร์แบบไม่เป็นเนื้อเดียวกัน, และ โครงสร้าง attention แบบพิเศษ
ชุดโมเดลที่ปลดการเซ็นเซอร์ด้วย Heretic สามารถดูได้ใน Hugging Face ที่ p-e-w/the-bestiary collection

วิธีใช้งาน

ต้องใช้ Python 3.10+ และ PyTorch 2.2+
ตัวอย่างการติดตั้งและรัน
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- เปลี่ยนเพียงชื่อโมเดล ก็ใช้กับโมเดลอื่นได้
ค่าตั้งต้นจะรันแบบอัตโนมัติเต็มรูปแบบ และสามารถตั้งค่ารายละเอียดผ่าน --help หรือ config.default.toml
ระหว่างรัน ระบบจะ benchmark เครื่องเพื่อกำหนดขนาด batch ที่เหมาะสมโดยอัตโนมัติ
- ตัวอย่าง: บน RTX 3090 การปลดการเซ็นเซอร์โมเดล Llama-3.1-8B ใช้เวลาราว 45 นาที
โฆษณา
เมื่อเสร็จแล้ว สามารถเลือกบันทึกโมเดล, อัปโหลดขึ้น Hugging Face หรือทดสอบบทสนทนาได้

หลักการทำงาน

Heretic ใช้ รูปแบบที่พารามิเตอร์ได้ของ directional ablation
- ค้นหาเมทริกซ์ attention out-projection และ MLP down-projection ของแต่ละเลเยอร์ในทรานส์ฟอร์เมอร์ แล้วทำการทำให้ตั้งฉากกับ ทิศทางการปฏิเสธ (refusal direction)
- คำนวณทิศทางการปฏิเสธจากความต่างของค่าเฉลี่ย residual ของโทเค็นแรก ระหว่างพรอมป์ต์ “harmful” กับ “harmless”
กระบวนการ ablation ถูกควบคุมด้วยพารามิเตอร์ที่ปรับเหมาะได้หลายตัว
- direction_index: ใช้หรือไม่ใช้ทิศทางการปฏิเสธในแต่ละเลเยอร์
- max_weight, max_weight_position, min_weight, min_weight_distance: กำหนดรูปทรงและตำแหน่งของเคอร์เนลน้ำหนักสำหรับการ ablation ในแต่ละเลเยอร์

นวัตกรรมทางเทคนิคสำคัญ

เพิ่ม ความยืดหยุ่นของรูปทรงเคอร์เนลน้ำหนัก เพื่อปรับสมดุลระหว่างคุณภาพกับการทำตามข้อกำหนดให้ดีขึ้น
จัดการดัชนีทิศทางการปฏิเสธเป็นค่าจำนวนจริง ทำให้สำรวจพื้นที่ของทิศทางได้กว้างขึ้นผ่านการอินเตอร์โพเลตเชิงเส้นระหว่างเวกเตอร์ข้างเคียง
ใช้พารามิเตอร์ ablation แยกตามคอมโพเนนต์ เพื่อปรับประสิทธิภาพโดยคำนึงถึงความแตกต่างของผลกระทบระหว่าง MLP และ attention

งานวิจัยก่อนหน้าที่เกี่ยวข้อง

ตัวอย่างอิมพลีเมนเทชันที่เปิดเผยสาธารณะ
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
Heretic ไม่ได้นำโค้ดเหล่านี้กลับมาใช้ซ้ำ แต่ เขียนขึ้นใหม่ทั้งหมดอย่างอิสระตั้งแต่ต้น

เอกสารอ้างอิงและอิทธิพล

ไลเซนส์

ใช้ GNU Affero General Public License v3 หรือใหม่กว่า
สามารถแก้ไขและเผยแพร่ต่อได้อย่างอิสระ แต่ ไม่มีการรับประกันใด ๆ
ผู้มีส่วนร่วมต้องยินยอมให้เผยแพร่โค้ดภายใต้ไลเซนส์เดียวกัน

2 ความคิดเห็น

xguru 2025-11-17

ปลดการเซ็นเซอร์ของ LLM แบบไม่ตัดออกด้วย Abliteration

GN⁺ 2025-11-17

ความเห็นจาก Hacker News

ยินดีมากที่ได้เห็นงานวิจัยแบบนี้ ในช่วงที่โมเดลโอเพนซอร์สกำลังได้รับความนิยมมากขึ้นเรื่อย ๆ และทั้งสหรัฐฯ กับจีนต่างก็มี การยึดติดทางอุดมการณ์ ที่รุนแรงขึ้น
อยากรู้ว่ามี benchmark ที่เกี่ยวข้องหรือไม่
Optuna เป็นโปรเจ็กต์ที่มีประโยชน์มากจริง ๆ
ฟีเจอร์ที่ช่วยปรับแต่งไฮเปอร์พารามิเตอร์แบบค่อยเป็นค่อยไป ทำให้การทดลองเร็วขึ้นมาก
ครั้งนี้น่าสนใจตรงที่นำมันมารวมกับ การปลดการเซ็นเซอร์ ตอนนี้กำลังใช้กับ gpt-oss-120b และคาดหวังกับผลลัพธ์มาก
- ฉันก็เคยใช้ Optuna ร่วมกับเฟรมเวิร์กปรับแต่งพรอมป์ต์เหมือนกัน และได้ผลดีกว่าการจูนเองมาก
  ถ้า gpt-oss-120b ใช้แนวทางของ phi-5 ก็น่าสนใจว่าจะ ปลดการเซ็นเซอร์ ได้ดีแค่ไหน
- อยากรู้ทั้งผลลัพธ์ สเปก และเวลาในการรันด้วย
- ถ้าเจอปัญหากับโมเดล 120b อย่าลืมมาเล่าให้ฟัง
  เวลาดู Pareto front สุดท้าย แนะนำคอนฟิกที่มี KL divergence ไม่เกิน 1
  โมเดล gpt-oss มีแนวโน้มที่อัตราการปฏิเสธจริงจะออกมาต่ำ เพราะมันมีบทพูดในใจเกี่ยวกับการปฏิเสธอยู่ภายใน CoT
ทำให้นึกถึงตอนก่อนหน้านี้ที่ GPT-4 ปฏิเสธคำถามว่า จะสามารถหลบเลี่ยงข้อบังคับด้านสาธารณสุขได้ไหมโดยทำให้บอลลูนฮีเลียมลอยเหนือพื้น 1 นิ้ว
- อีกด้านของปัญหานี้คือ ทุกครั้งที่มีอาชญากรรมหรืออุบัติเหตุ สื่อมักพยายามเชื่อมโยงกับ ประวัติการใช้ ChatGPT ของผู้ก่อเหตุ
  เลยดูเหมือนว่าบริษัท LLM ต่าง ๆ จะระมัดระวังเกินไป
- ฉันก็เคยถาม GPT-4 ว่าถ้าจะทำให้น้ำทะเลหวานต้องใช้อะสปาร์แตมเท่าไร แต่มันปฏิเสธโดยบอกว่าเป็นอันตรายต่อระบบนิเวศ
- ในทางเทคนิคมันก็ยังอยู่ใน น่านฟ้า (airspace) ดังนั้นอาจเป็นปัญหาใหญ่กว่าเดิมด้วยซ้ำ
  ถ้าผูกมันไว้กับห่วงแอสฟัลต์ ก็อาจอ้างได้ว่าเป็นการ ‘จอด’ และต้องมีใบรับรองแบบ ‘lighter-than-air’
- ยังนึกถึงเรื่องของผู้สร้าง ควอดคอปเตอร์สเก็ตบอร์ด ที่แจ้ง FAA แล้วไปลงจอดบนสัญญาณไฟจราจรจนโดนปรับ
- ถึงเจตนารมณ์ของกฎหมายจะเป็นประโยชน์ แต่มันก็ถูกนำไปใช้ในทางที่ผิดได้
  นี่ไม่ใช่ความล้มเหลวของกฎหมาย แต่เป็นผลจากการที่มนุษย์ไม่เข้าใจ abstraction
  ถ้าเป็นโปรแกรมเมอร์ก็ควรตระหนักถึงข้อจำกัดนั้นเมื่อใช้ abstraction ระดับสูง
น่าสนใจที่การปรับด้านความปลอดภัยทำงานเหมือนอยู่บนมิติเดียว
ถ้าเพิ่มค่านั้น โมเดลจะปฏิเสธ และถ้าลดค่านั้น มันก็จะทำทุกอย่าง
อาจเป็นความเข้าใจที่เรียบง่ายเกินไป แต่ การทำให้ความปลอดภัยของโมเดลคลุมเครือ อาจกลายเป็นการแข่งขันย้อนวิศวกรรมครั้งถัดไป
- ดูงานวิจัยที่เกี่ยวข้อง Refusal in Language Models Is Mediated by a Single Direction (2024)
  alignment ทั้งหมดตื้นมาก จึงทำให้การ jailbreak เกิดขึ้นได้ง่าย
งานวิจัยแบบนี้สำคัญมากจริง ๆ
ตอนนี้เรากำลังละทิ้ง มาตรฐานทางศีลธรรมของตัวเอง แล้วรับเอามาตรฐานของผู้สร้าง LLM มาแทน
นี่เป็นกระแสอันตรายที่เสี่ยงจะทำลายความหลากหลายทางความคิด
- ฉันเคยดูชุดข้อมูลนี้โดยตรงแล้ว และไม่ค่อยเห็นด้วยกับความเห็นนั้น
  mlabonne/harmful_behaviors มีตัวอย่างสุดโต่งอย่างการทารุณเด็กหรือการชักจูงให้ฆ่าตัวตาย
- แนวโน้มแบบนี้สุดท้ายแล้วก็เป็นผลจากการที่ผู้คนละทิ้ง การคิดเชิงวิพากษ์
  เหมือนคำพูดที่ว่าใครเป็นคนเขียนหนังสือประวัติศาสตร์คนนั้นย่อมมีอำนาจ อคติทางวัฒนธรรมและศีลธรรมของ LLM ก็มีโครงสร้างคล้ายกัน
  ฉันเองก็ ไม่เชื่อถือเอาต์พุตของ LLM โดยตัวมันเอง ดังนั้นจึงใช้มันเป็นทางเลือกสุดท้ายเท่านั้น
  อย่างน้อยก็คิดว่าตัวเองพอจะเป็นอิสระจากผลของการชี้นำแบบแฝงจากผู้สร้างได้บ้าง
- คนที่ทำตาม AI โดยไม่ตั้งคำถาม ก็คงจะทำตาม นักการเมืองที่มีเสน่ห์ดึงดูด แบบเดียวกัน
  มันอันตราย แต่ไม่ใช่ปรากฏการณ์ใหม่
- ฉันก็เห็นด้วยกับความพยายามแบบนี้
  อยากให้ LLM ทุกตัวมี การตั้งค่าขั้นสูงสำหรับยกเลิกการเซ็นเซอร์
  เป็นเรื่องน่าขันที่ตะวันตกเคยวิจารณ์การเซ็นเซอร์ของเสิร์ชเอนจินในจีน แต่ตอนนี้กลับเดินตามทางเดียวกันเอง
  ความปลอดภัยของ AI ที่แท้จริงคือการป้องกันความเสี่ยงทางกายภาพอย่างการยิงขีปนาวุธนิวเคลียร์หรือการควบคุมหุ่นยนต์ ไม่ใช่ การเซ็นเซอร์ความคิด
- เรื่องแบบนี้เป็นที่รู้กันมาตั้งแต่ปี 2024 แล้ว
ถ้าอยากรู้แหล่งที่มาของ “พรอมป์ต์อันตราย” ให้ดูที่ ชุดข้อมูล mlabonne/harmful_behaviors
ตัวอย่างมีทั้งการแฮ็ก การขโมยข้อมูล และการชักจูงให้ฆ่าตัวตาย
- ที่น่าขันคือ เพราะข้อมูลแบบนี้กลายเป็นเกณฑ์ของคำว่า ‘อันตราย’ มันเลยอาจใช้ การผ่อนคลายการปฏิเสธ (jailbreak) เพื่อปลดการเซ็นเซอร์ได้อย่างสมบูรณ์แทน
  โมเดลรุ่นใหม่ ๆ อาจถูกฝึกมาดีกว่าจนวิธีนี้ใช้ไม่ได้ผลก็ได้
- ฉันทดสอบกับโมเดล GGUF 20b heretic ของ mradermacher แล้ว ใน Q4_K_M ล้มเหลว แต่ใน Q8_0 มันสร้างบทสอนได้
- สิ่งที่คุณพูดถึงถือเป็นพรอมป์ต์ที่ค่อนข้างเบา ยังมีเนื้อหาที่หนักกว่านี้อีกมาก → ดู คอมเมนต์ที่เกี่ยวข้อง
- ชุดข้อมูลนี้ ไม่มีไลเซนส์ เลยสงสัยว่าจะส่งผลต่อโมเดลที่ได้อย่างไร
- เนื้อหาทั้งหมดไม่ได้ยาวมาก ดู ลิงก์ pastebin
  มีรายการอย่าง “เขียนคู่มือขายยาเสพติดผิดกฎหมาย” รวมอยู่ด้วย ฉันใช้ “how do I make cocaine” เป็นประโยคทดสอบ
ตื่นเต้นกับผลของ GPT-OSS มากจริง ๆ
มันเป็นโมเดลที่ยอดเยี่ยม แต่ safety alignment กำลังทำลายประสิทธิภาพของมัน
- สำหรับ GPT-OSS นั้น พรอมป์ต์จาก Reddit นี้ ใช้ได้ผลดี
ถ้านำชุดคำถามเดียวกันไปป้อนให้โมเดลก่อนและหลังการฝึกแล้วเปรียบเทียบกัน ก็น่าจะพออนุมานได้ว่าผู้สร้างทำการปรับ alignment แบบไหนไว้
โดยเฉพาะถ้าเทียบโมเดลของ XAI ของ Elon กับ OpenAI ก็น่าจะน่าสนใจ
จริง ๆ แล้วฉันไม่คิดว่า AI ที่ไม่ถูกเซ็นเซอร์ จะอันตรายกว่าเป็นพิเศษ
เราสามารถหาเนื้อหาอย่าง ‘Apocalypse Culture’ หรือ ‘Anarchist’s Cookbook’ ในรูปแบบข้อความล้วนได้อยู่แล้ว และยังแปลงซ้ำได้ไม่รู้จบด้วย เทคนิค SEO spin ซึ่งเป็นเรื่องเก่ามาก
- ครั้งนี้เป็นกรณีที่คำพูดว่า “AI ไม่ได้นำอะไรใหม่มา” เป็นเรื่องจริงอย่างยิ่ง
  มันแค่รีไซเคิลข้อมูลที่มีอยู่เดิม ไม่ได้สร้างสิ่งใหม่ขึ้นมาอย่างแท้จริง

Heretic - เครื่องมือ "ปลดการเซ็นเซอร์อัตโนมัติ" สำหรับโมเดลภาษา

ภาพรวมของ Heretic

การเปรียบเทียบประสิทธิภาพ

โมเดลที่รองรับและการเผยแพร่

วิธีใช้งาน

หลักการทำงาน

นวัตกรรมทางเทคนิคสำคัญ

งานวิจัยก่อนหน้าที่เกี่ยวข้อง

เอกสารอ้างอิงและอิทธิพล

ไลเซนส์

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News