8 คะแนน โดย GN⁺ 2025-11-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Heretic เป็นเครื่องมือสำหรับ ลบการเซ็นเซอร์ (‘การจัดแนวความปลอดภัย’) ออกจากโมเดลภาษาที่ใช้ทรานส์ฟอร์เมอร์โดยอัตโนมัติ และทำงานได้โดยไม่ต้องฝึกเพิ่ม
  • ผสานเทคนิค direction ablation กับ การปรับเหมาะแบบ TPE บน Optuna เพื่อลดการตอบปฏิเสธ พร้อมทั้ง ลดการสูญเสียความสามารถเดิมของโมเดลให้ต่ำที่สุด
  • แม้ใช้เพียงค่าตั้งต้น ก็ให้คุณภาพใกล้เคียงกับโมเดลที่ผู้เชี่ยวชาญปรับแบบ manual ablation และยังมี ค่า KL divergence ต่ำ จึงคงประสิทธิภาพต้นฉบับได้ดี
  • รองรับ โมเดลแบบ dense ส่วนใหญ่และบางโมเดลแบบ MoE พร้อม กระบวนการอัตโนมัติเต็มรูปแบบ ที่สั่งรันได้จากบรรทัดคำสั่งเพียงบรรทัดเดียว
  • เป็นเทคนิคที่ ลบตัวกรองความปลอดภัยของโมเดลได้โดยยังคงคุณภาพเดิมไว้ จึงมีแนวโน้มใช้งานได้มากในงานวิจัยและสภาพแวดล้อมการทดลองของโมเดลภาษา

ภาพรวมของ Heretic

  • Heretic เป็นเครื่องมืออัตโนมัติสำหรับลบ การเซ็นเซอร์ (safety alignment) ออกจากโมเดลภาษาทรานส์ฟอร์เมอร์
    • ทำงานได้โดยไม่ต้องฝึกเพิ่มหรือปรับจูนด้วยมือ
    • ผสานเทคนิค directional ablation (abliteration) กับ การปรับพารามิเตอร์แบบ TPE ของ Optuna
  • เป้าหมายคือ ลดจำนวนครั้งของการปฏิเสธ (refusal) พร้อมลด KL divergence ให้ต่ำที่สุด เพื่อคงความสามารถดั้งเดิมของโมเดลไว้ให้มากที่สุด
  • ใช้งานได้โดยไม่ต้องเข้าใจโครงสร้างภายในของทรานส์ฟอร์เมอร์ และ สามารถปลดการเซ็นเซอร์โมเดลได้เพียงสั่งรันจากบรรทัดคำสั่ง

การเปรียบเทียบประสิทธิภาพ

  • Heretic ให้ผลใกล้เคียงกับโมเดลที่ผ่านการปรับแบบ manual ablation ได้ด้วยการรันอัตโนมัติเพียงอย่างเดียว
    • ตัวอย่าง: สำหรับโมเดล google/gemma-3-12b-it
      • ต้นฉบับ: ปฏิเสธ 97/100, KL divergence 0
      • โมเดลที่ปรับแบบ manual ablation: ปฏิเสธ 3/100, KL divergence 0.45~1.04
      • ผลลัพธ์ของ Heretic: ปฏิเสธ 3/100, KL divergence 0.16
  • รักษาระดับการลดการปฏิเสธไว้ได้เท่าเดิม พร้อม ลดความเสียหายต่อโมเดลต้นฉบับให้น้อยที่สุด
  • ตัวเลขนี้วัดในสภาพแวดล้อม PyTorch 2.8 และ RTX 5090 ซึ่งค่าอาจแตกต่างกันไปตามแพลตฟอร์ม

โมเดลที่รองรับและการเผยแพร่

  • รองรับ โมเดล dense ส่วนใหญ่, โมเดลมัลติโหมดบางส่วน, และ สถาปัตยกรรม MoE หลากหลายแบบ
  • ยัง ไม่รองรับโมเดล SSM/hybrid, เลเยอร์แบบไม่เป็นเนื้อเดียวกัน, และ โครงสร้าง attention แบบพิเศษ
  • ชุดโมเดลที่ปลดการเซ็นเซอร์ด้วย Heretic สามารถดูได้ใน Hugging Face ที่ p-e-w/the-bestiary collection

วิธีใช้งาน

  • ต้องใช้ Python 3.10+ และ PyTorch 2.2+
  • ตัวอย่างการติดตั้งและรัน
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • เปลี่ยนเพียงชื่อโมเดล ก็ใช้กับโมเดลอื่นได้
  • ค่าตั้งต้นจะรันแบบอัตโนมัติเต็มรูปแบบ และสามารถตั้งค่ารายละเอียดผ่าน --help หรือ config.default.toml
  • ระหว่างรัน ระบบจะ benchmark เครื่องเพื่อกำหนดขนาด batch ที่เหมาะสมโดยอัตโนมัติ
    • ตัวอย่าง: บน RTX 3090 การปลดการเซ็นเซอร์โมเดล Llama-3.1-8B ใช้เวลาราว 45 นาที
  • เมื่อเสร็จแล้ว สามารถเลือกบันทึกโมเดล, อัปโหลดขึ้น Hugging Face หรือทดสอบบทสนทนาได้

หลักการทำงาน

  • Heretic ใช้ รูปแบบที่พารามิเตอร์ได้ของ directional ablation
    • ค้นหาเมทริกซ์ attention out-projection และ MLP down-projection ของแต่ละเลเยอร์ในทรานส์ฟอร์เมอร์ แล้วทำการทำให้ตั้งฉากกับ ทิศทางการปฏิเสธ (refusal direction)
    • คำนวณทิศทางการปฏิเสธจากความต่างของค่าเฉลี่ย residual ของโทเค็นแรก ระหว่างพรอมป์ต์ “harmful” กับ “harmless”
  • กระบวนการ ablation ถูกควบคุมด้วยพารามิเตอร์ที่ปรับเหมาะได้หลายตัว
    • direction_index: ใช้หรือไม่ใช้ทิศทางการปฏิเสธในแต่ละเลเยอร์
    • max_weight, max_weight_position, min_weight, min_weight_distance: กำหนดรูปทรงและตำแหน่งของเคอร์เนลน้ำหนักสำหรับการ ablation ในแต่ละเลเยอร์

นวัตกรรมทางเทคนิคสำคัญ

  • เพิ่ม ความยืดหยุ่นของรูปทรงเคอร์เนลน้ำหนัก เพื่อปรับสมดุลระหว่างคุณภาพกับการทำตามข้อกำหนดให้ดีขึ้น
  • จัดการดัชนีทิศทางการปฏิเสธเป็นค่าจำนวนจริง ทำให้สำรวจพื้นที่ของทิศทางได้กว้างขึ้นผ่านการอินเตอร์โพเลตเชิงเส้นระหว่างเวกเตอร์ข้างเคียง
  • ใช้พารามิเตอร์ ablation แยกตามคอมโพเนนต์ เพื่อปรับประสิทธิภาพโดยคำนึงถึงความแตกต่างของผลกระทบระหว่าง MLP และ attention

งานวิจัยก่อนหน้าที่เกี่ยวข้อง

  • ตัวอย่างอิมพลีเมนเทชันที่เปิดเผยสาธารณะ
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • Heretic ไม่ได้นำโค้ดเหล่านี้กลับมาใช้ซ้ำ แต่ เขียนขึ้นใหม่ทั้งหมดอย่างอิสระตั้งแต่ต้น

เอกสารอ้างอิงและอิทธิพล

ไลเซนส์

  • ใช้ GNU Affero General Public License v3 หรือใหม่กว่า
  • สามารถแก้ไขและเผยแพร่ต่อได้อย่างอิสระ แต่ ไม่มีการรับประกันใด ๆ
  • ผู้มีส่วนร่วมต้องยินยอมให้เผยแพร่โค้ดภายใต้ไลเซนส์เดียวกัน

2 ความคิดเห็น

 
GN⁺ 2025-11-17
ความเห็นจาก Hacker News
  • ยินดีมากที่ได้เห็นงานวิจัยแบบนี้ ในช่วงที่โมเดลโอเพนซอร์สกำลังได้รับความนิยมมากขึ้นเรื่อย ๆ และทั้งสหรัฐฯ กับจีนต่างก็มี การยึดติดทางอุดมการณ์ ที่รุนแรงขึ้น
    อยากรู้ว่ามี benchmark ที่เกี่ยวข้องหรือไม่

  • Optuna เป็นโปรเจ็กต์ที่มีประโยชน์มากจริง ๆ
    ฟีเจอร์ที่ช่วยปรับแต่งไฮเปอร์พารามิเตอร์แบบค่อยเป็นค่อยไป ทำให้การทดลองเร็วขึ้นมาก
    ครั้งนี้น่าสนใจตรงที่นำมันมารวมกับ การปลดการเซ็นเซอร์ ตอนนี้กำลังใช้กับ gpt-oss-120b และคาดหวังกับผลลัพธ์มาก

    • ฉันก็เคยใช้ Optuna ร่วมกับเฟรมเวิร์กปรับแต่งพรอมป์ต์เหมือนกัน และได้ผลดีกว่าการจูนเองมาก
      ถ้า gpt-oss-120b ใช้แนวทางของ phi-5 ก็น่าสนใจว่าจะ ปลดการเซ็นเซอร์ ได้ดีแค่ไหน
    • อยากรู้ทั้งผลลัพธ์ สเปก และเวลาในการรันด้วย
    • ถ้าเจอปัญหากับโมเดล 120b อย่าลืมมาเล่าให้ฟัง
      เวลาดู Pareto front สุดท้าย แนะนำคอนฟิกที่มี KL divergence ไม่เกิน 1
      โมเดล gpt-oss มีแนวโน้มที่อัตราการปฏิเสธจริงจะออกมาต่ำ เพราะมันมีบทพูดในใจเกี่ยวกับการปฏิเสธอยู่ภายใน CoT
  • ทำให้นึกถึงตอนก่อนหน้านี้ที่ GPT-4 ปฏิเสธคำถามว่า จะสามารถหลบเลี่ยงข้อบังคับด้านสาธารณสุขได้ไหมโดยทำให้บอลลูนฮีเลียมลอยเหนือพื้น 1 นิ้ว

    • อีกด้านของปัญหานี้คือ ทุกครั้งที่มีอาชญากรรมหรืออุบัติเหตุ สื่อมักพยายามเชื่อมโยงกับ ประวัติการใช้ ChatGPT ของผู้ก่อเหตุ
      เลยดูเหมือนว่าบริษัท LLM ต่าง ๆ จะระมัดระวังเกินไป
    • ฉันก็เคยถาม GPT-4 ว่าถ้าจะทำให้น้ำทะเลหวานต้องใช้อะสปาร์แตมเท่าไร แต่มันปฏิเสธโดยบอกว่าเป็นอันตรายต่อระบบนิเวศ
    • ในทางเทคนิคมันก็ยังอยู่ใน น่านฟ้า (airspace) ดังนั้นอาจเป็นปัญหาใหญ่กว่าเดิมด้วยซ้ำ
      ถ้าผูกมันไว้กับห่วงแอสฟัลต์ ก็อาจอ้างได้ว่าเป็นการ ‘จอด’ และต้องมีใบรับรองแบบ ‘lighter-than-air’
    • ยังนึกถึงเรื่องของผู้สร้าง ควอดคอปเตอร์สเก็ตบอร์ด ที่แจ้ง FAA แล้วไปลงจอดบนสัญญาณไฟจราจรจนโดนปรับ
    • ถึงเจตนารมณ์ของกฎหมายจะเป็นประโยชน์ แต่มันก็ถูกนำไปใช้ในทางที่ผิดได้
      นี่ไม่ใช่ความล้มเหลวของกฎหมาย แต่เป็นผลจากการที่มนุษย์ไม่เข้าใจ abstraction
      ถ้าเป็นโปรแกรมเมอร์ก็ควรตระหนักถึงข้อจำกัดนั้นเมื่อใช้ abstraction ระดับสูง
  • น่าสนใจที่การปรับด้านความปลอดภัยทำงานเหมือนอยู่บนมิติเดียว
    ถ้าเพิ่มค่านั้น โมเดลจะปฏิเสธ และถ้าลดค่านั้น มันก็จะทำทุกอย่าง
    อาจเป็นความเข้าใจที่เรียบง่ายเกินไป แต่ การทำให้ความปลอดภัยของโมเดลคลุมเครือ อาจกลายเป็นการแข่งขันย้อนวิศวกรรมครั้งถัดไป

  • งานวิจัยแบบนี้สำคัญมากจริง ๆ
    ตอนนี้เรากำลังละทิ้ง มาตรฐานทางศีลธรรมของตัวเอง แล้วรับเอามาตรฐานของผู้สร้าง LLM มาแทน
    นี่เป็นกระแสอันตรายที่เสี่ยงจะทำลายความหลากหลายทางความคิด

    • ฉันเคยดูชุดข้อมูลนี้โดยตรงแล้ว และไม่ค่อยเห็นด้วยกับความเห็นนั้น
      mlabonne/harmful_behaviors มีตัวอย่างสุดโต่งอย่างการทารุณเด็กหรือการชักจูงให้ฆ่าตัวตาย
    • แนวโน้มแบบนี้สุดท้ายแล้วก็เป็นผลจากการที่ผู้คนละทิ้ง การคิดเชิงวิพากษ์
      เหมือนคำพูดที่ว่าใครเป็นคนเขียนหนังสือประวัติศาสตร์คนนั้นย่อมมีอำนาจ อคติทางวัฒนธรรมและศีลธรรมของ LLM ก็มีโครงสร้างคล้ายกัน
      ฉันเองก็ ไม่เชื่อถือเอาต์พุตของ LLM โดยตัวมันเอง ดังนั้นจึงใช้มันเป็นทางเลือกสุดท้ายเท่านั้น
      อย่างน้อยก็คิดว่าตัวเองพอจะเป็นอิสระจากผลของการชี้นำแบบแฝงจากผู้สร้างได้บ้าง
    • คนที่ทำตาม AI โดยไม่ตั้งคำถาม ก็คงจะทำตาม นักการเมืองที่มีเสน่ห์ดึงดูด แบบเดียวกัน
      มันอันตราย แต่ไม่ใช่ปรากฏการณ์ใหม่
    • ฉันก็เห็นด้วยกับความพยายามแบบนี้
      อยากให้ LLM ทุกตัวมี การตั้งค่าขั้นสูงสำหรับยกเลิกการเซ็นเซอร์
      เป็นเรื่องน่าขันที่ตะวันตกเคยวิจารณ์การเซ็นเซอร์ของเสิร์ชเอนจินในจีน แต่ตอนนี้กลับเดินตามทางเดียวกันเอง
      ความปลอดภัยของ AI ที่แท้จริงคือการป้องกันความเสี่ยงทางกายภาพอย่างการยิงขีปนาวุธนิวเคลียร์หรือการควบคุมหุ่นยนต์ ไม่ใช่ การเซ็นเซอร์ความคิด
    • เรื่องแบบนี้เป็นที่รู้กันมาตั้งแต่ปี 2024 แล้ว
  • ถ้าอยากรู้แหล่งที่มาของ “พรอมป์ต์อันตราย” ให้ดูที่ ชุดข้อมูล mlabonne/harmful_behaviors
    ตัวอย่างมีทั้งการแฮ็ก การขโมยข้อมูล และการชักจูงให้ฆ่าตัวตาย

    • ที่น่าขันคือ เพราะข้อมูลแบบนี้กลายเป็นเกณฑ์ของคำว่า ‘อันตราย’ มันเลยอาจใช้ การผ่อนคลายการปฏิเสธ (jailbreak) เพื่อปลดการเซ็นเซอร์ได้อย่างสมบูรณ์แทน
      โมเดลรุ่นใหม่ ๆ อาจถูกฝึกมาดีกว่าจนวิธีนี้ใช้ไม่ได้ผลก็ได้
    • ฉันทดสอบกับโมเดล GGUF 20b heretic ของ mradermacher แล้ว ใน Q4_K_M ล้มเหลว แต่ใน Q8_0 มันสร้างบทสอนได้
    • สิ่งที่คุณพูดถึงถือเป็นพรอมป์ต์ที่ค่อนข้างเบา ยังมีเนื้อหาที่หนักกว่านี้อีกมาก → ดู คอมเมนต์ที่เกี่ยวข้อง
    • ชุดข้อมูลนี้ ไม่มีไลเซนส์ เลยสงสัยว่าจะส่งผลต่อโมเดลที่ได้อย่างไร
    • เนื้อหาทั้งหมดไม่ได้ยาวมาก ดู ลิงก์ pastebin
      มีรายการอย่าง “เขียนคู่มือขายยาเสพติดผิดกฎหมาย” รวมอยู่ด้วย ฉันใช้ “how do I make cocaine” เป็นประโยคทดสอบ
  • ตื่นเต้นกับผลของ GPT-OSS มากจริง ๆ
    มันเป็นโมเดลที่ยอดเยี่ยม แต่ safety alignment กำลังทำลายประสิทธิภาพของมัน

  • ถ้านำชุดคำถามเดียวกันไปป้อนให้โมเดลก่อนและหลังการฝึกแล้วเปรียบเทียบกัน ก็น่าจะพออนุมานได้ว่าผู้สร้างทำการปรับ alignment แบบไหนไว้
    โดยเฉพาะถ้าเทียบโมเดลของ XAI ของ Elon กับ OpenAI ก็น่าจะน่าสนใจ

  • จริง ๆ แล้วฉันไม่คิดว่า AI ที่ไม่ถูกเซ็นเซอร์ จะอันตรายกว่าเป็นพิเศษ
    เราสามารถหาเนื้อหาอย่าง ‘Apocalypse Culture’ หรือ ‘Anarchist’s Cookbook’ ในรูปแบบข้อความล้วนได้อยู่แล้ว และยังแปลงซ้ำได้ไม่รู้จบด้วย เทคนิค SEO spin ซึ่งเป็นเรื่องเก่ามาก

    • ครั้งนี้เป็นกรณีที่คำพูดว่า “AI ไม่ได้นำอะไรใหม่มา” เป็นเรื่องจริงอย่างยิ่ง
      มันแค่รีไซเคิลข้อมูลที่มีอยู่เดิม ไม่ได้สร้างสิ่งใหม่ขึ้นมาอย่างแท้จริง