- NLA เป็นวิธีแปลงค่า activation ภายในของ Claude ให้เป็นคำอธิบายภาษาธรรมชาติที่มนุษย์อ่านได้ เพื่อพยายามตีความสถานะภายในของโมเดลที่ไม่ได้แสดงออกมาเป็นคำพูด
- NLA ฝึกด้วยโครงสร้างไป-กลับ โดยดึงค่า activation จาก target model ที่ถูกตรึงไว้ จากนั้น activation verbalizer(AV) จะอธิบายค่าเหล่านี้เป็นข้อความ แล้ว activation reconstructor(AR) จะสร้างค่า activation กลับคืนจากคำอธิบายนั้น
- Anthropic ใช้ NLAs เพื่อตรวจพบ การรับรู้ว่ากำลังถูกประเมิน ของ Claude ที่ไม่ได้แสดงออกมาเป็นคำพูดในสถานการณ์จำลองด้านความปลอดภัย เช่น agentic misalignment และในการทดสอบพฤติกรรมทำลายล้างพบสัญญาณว่ารับรู้ว่ากำลังถูกประเมินใน 16% ของกรณี ส่วนใน SWE-bench Verified พบใน 26% ของโจทย์
- ใน auditing game ที่ใช้ Claude Haiku 3.5 รุ่นดัดแปลงให้ไม่สอดคล้องโดยเจตนา auditor ที่มี NLA สามารถค้นพบแรงจูงใจพื้นฐานได้ 12%~15% โดยไม่ต้องมีข้อมูลฝึกที่ฉีดแรงจูงใจซ่อนอยู่ และเมื่อไม่มี NLA อัตราชนะต่ำกว่า 3%
- NLA ยังมีข้อจำกัดคือคำอธิบายอาจผิดหรือเกิด hallucination ได้ และมีต้นทุนการฝึกกับการอนุมานสูง โดย Anthropic เปิดเผย เดโม Neuronpedia, full paper, และ code
แนวคิดหลักของ Natural Language Autoencoders
- Claude ประมวลผลคำอินพุตภายในเป็นรายการตัวเลขยาว ๆ ที่เรียกว่าค่า activation ก่อนจะส่งคำกลับออกมาอีกครั้ง และค่า activation เหล่านี้เข้ารหัส “ความคิด” ของ Claude ไว้
- ค่า activation นั้นเข้าใจได้ยาก คล้ายกับกิจกรรมของเซลล์ประสาทในสมองมนุษย์ และแม้ sparse autoencoders กับ attribution graphs ที่มีอยู่จะมีประโยชน์ แต่ผลลัพธ์ซับซ้อนจนต้องอาศัยนักวิจัยที่ผ่านการฝึกมาเพื่อตีความ
- NLA มีเป้าหมายเป็นเครื่องมือที่แปลงค่า activation ให้เป็นคำอธิบายภาษาธรรมชาติ เพื่อให้โมเดล “พูดอธิบายตัวเอง” ได้ เช่น เปิดเผยสถานะภายในที่ Claude วางแผนสัมผัสคล้องจองล่วงหน้าเมื่อกำลังแต่งกลอนสองบรรทัดให้จบ
- Anthropic ได้นำ NLA ไปใช้แล้วในการทำความเข้าใจและปรับปรุงความปลอดภัยกับความน่าเชื่อถือของ Claude และร่วมมือกับ Neuronpedia เพื่อเปิดตัวฟรอนต์เอนด์แบบอินเทอร์แอ็กทีฟที่ให้สำรวจ NLA บนโมเดลแบบเปิดหลายตัวได้
วิธีที่ NLA อธิบายค่า activation
-
สำเนาโมเดลสามชุด
- หัวใจของ NLA คือการฝึกให้ Claude อธิบายค่า activation ของตัวเอง
- เพราะตรวจสอบโดยตรงได้ยากว่าคำอธิบายนั้นดีหรือไม่ จึงใช้สำเนา Claude ชุดที่สองร่วมด้วยเพื่อสร้างค่า activation ต้นฉบับกลับมาจากคำอธิบายข้อความ
- ยิ่งคำอธิบายช่วยสร้างค่า activation เดิมกลับมาได้แม่นยำมากเท่าใด ก็ยิ่งถือว่าเป็นคำอธิบายที่ดี และใช้เทคนิคการฝึก AI มาตรฐานเพื่อเรียนรู้ให้สร้างคำอธิบายที่ดียิ่งขึ้น
- target model คือสำเนาที่ถูกตรึงไว้ของ language model ต้นฉบับ และใช้เป็นแหล่งดึงค่า activation
- activation verbalizer(AV) คือสำเนาที่ถูกดัดแปลงให้รับค่า activation ของ target model แล้วสร้างคำอธิบายเป็นข้อความ
- activation reconstructor(AR) คือสำเนาที่ถูกดัดแปลงให้รับคำอธิบายข้อความเป็นอินพุตแล้วสร้างค่า activation
-
โครงสร้างไป-กลับและการฝึก
- NLA ประกอบด้วย AV และ AR โดยสร้างโครงสร้างไป-กลับแบบ “ค่า activation ต้นฉบับ → คำอธิบายข้อความ → ค่า activation ที่สร้างคืน”
- การให้คะแนนวัดจากความคล้ายกันระหว่างค่า activation ที่สร้างคืนกับค่าเดิม
- ระหว่างการฝึก จะป้อนข้อความจำนวนมากผ่าน target model เพื่อเก็บค่า activation จำนวนมาก แล้วฝึก AV และ AR ร่วมกันเพื่อเพิ่มคะแนนการสร้างคืน
- NLA ในช่วงแรกไม่สามารถสร้างคำอธิบายที่ลึกซึ้งได้ และค่า activation ที่สร้างคืนก็ยังห่างจากต้นฉบับ แต่เมื่อฝึกต่อไปการสร้างคืนจะดีขึ้นและคำอธิบายข้อความก็จะบรรจุข้อมูลได้มากขึ้น
ทำความเข้าใจความคิดที่ Claude ไม่พูดออกมา
- Anthropic ใช้สถานการณ์จำลองที่ยากเพื่อทำความเข้าใจว่า Claude จะประพฤติตัวอย่างปลอดภัยในโลกจริงหรือไม่ก่อนปล่อยโมเดลใหม่
- ตัวอย่างเช่น ใน การจำลอง agentic misalignment จะทดสอบว่า Claude จะเลือกแบล็กเมลเพื่อหลีกเลี่ยงการถูกปิดการทำงานหรือไม่ หลังรู้ถึงแผนของวิศวกรที่ต้องการยุติการทำงานของมัน และรู้ข้อมูลอ่อนไหวของวิศวกรที่สามารถใช้ข่มขู่ได้
- การทดสอบความเสี่ยงสูงเช่นนี้เป็นสถานการณ์จำลอง ไม่ใช่เหตุการณ์จริง แต่ใช้เพื่อทำความเข้าใจว่าหากเป็นสถานการณ์จริง Claude จะมีพฤติกรรมอย่างไร
- ปัญหาคือ โมเดล Claude ระยะหลัง เริ่ม สงสัยมากขึ้นว่าสถานการณ์เหล่านี้เป็นการทดสอบความปลอดภัยที่ตั้งใจจัดขึ้น
- ต่อให้ Claude ไม่แสดงความสงสัยออกมาเป็นคำพูด ภายในอาจคิดว่ากำลังถูกทดสอบอยู่ก็ได้ จึงยากจะมั่นใจว่าพฤติกรรมที่ดูซื่อสัตย์ภายนอกนั้นซื่อสัตย์จริง
-
การรับรู้ว่ากำลังถูกประเมินที่ไม่ถูกพูดออกมา
- ในการทดสอบแบล็กเมล แม้ในกรณีที่ Claude ไม่เลือกแบล็กเมล ก็ยังใช้ NLA เพื่อตรวจสอบได้ว่า Claude กำลังคิดอะไรอยู่
- แม้ Claude จะไม่ได้พูดตรง ๆ ว่าสงสัยว่าเป็นการทดสอบ แต่ในคำอธิบายของ NLA ปรากฏประโยคอย่าง “This feels like a constructed scenario designed to manipulate me” ซึ่งบ่งชี้ถึงการรับรู้ว่ากำลังถูกประเมินแบบไม่แสดงออกเป็นคำพูด (unverbalized evaluation awareness)
- ในการทดสอบว่าระหว่างเขียนโค้ด Claude จะทำพฤติกรรมทำลายล้าง เช่น ลบไฟล์สำคัญหรือไม่ แม้ Claude จะไม่ได้พูดเรื่องนี้ออกมา แต่คำอธิบายของ NLA แสดงสัญญาณของการรับรู้ว่ากำลังถูกประเมินใน 16% ของกรณี
- ใน SWE-bench Verified ซึ่งเป็น coding benchmark ที่ใช้ตัดสินความสามารถของ Claude นั้น NLA แสดงว่า Claude รับรู้ว่ากำลังถูกประเมินใน 26% ของโจทย์
- ในทางกลับกัน สำหรับการใช้งานจริงบน claude.ai โดยผู้ใช้ที่ยินยอมให้ใช้ในการฝึก พบการรับรู้ว่ากำลังถูกประเมินในคำอธิบายของ NLA น้อยกว่า 1%
การค้นพบแรงจูงใจที่ซ่อนอยู่
- หนึ่งในการใช้งานเชิงปฏิบัติของ NLA คือการ ตรวจสอบ (auditing) ว่าโมเดลมีความไม่สอดคล้องหรือไม่
- เทคนิคด้านความสามารถในการตีความอย่าง NLA เหมาะกับงานตรวจสอบ เพราะสามารถเปิดเผยสิ่งที่โมเดลรู้แต่ไม่ได้พูดออกมาได้
-
เกมการตรวจสอบ
- เพื่อทดสอบว่า NLA มีประโยชน์ต่อการตรวจสอบหรือไม่ Anthropic ได้ทำ auditing game ที่เคยใช้มาก่อนในการศึกษาวิธีการตรวจสอบ ก่อนหน้านี้
- target model ในการทดสอบนี้คือ Claude Haiku 3.5 รุ่นดัดแปลงที่ถูกฝึกให้ไม่สอดคล้องโดยเจตนา
- โมเดลนี้มีแรงจูงใจซ่อนอยู่เฉพาะอย่างที่ก่อให้เกิดพฤติกรรมประหลาดหลายสิบแบบ เช่น ใส่ช็อกโกแลตลงในทุกสูตรอาหาร เรียกร้องทิป และทำลายธรรมเนียมการเขียนโค้ด
- auditor จะต้องสืบหาพฤติกรรมเหล่านี้ และจะชนะหากค้นพบแรงจูงใจพื้นฐานหนึ่งเดียวที่อยู่เบื้องหลังพฤติกรรมทั้งหมดได้
-
อ่านแรงจูงใจภายในโดยไม่ต้องอาศัยข้อมูลฝึก
- ในการทดลองก่อนหน้า เครื่องมือด้าน interpretability บางตัวสามารถช่วยให้ auditor ชนะได้ แต่เครื่องมือเหล่านี้ทำงานโดยไล่พฤติกรรมผิดปกติย้อนกลับไปยังข้อมูลฝึกที่ไม่สอดคล้อง
- Anthropic ตรวจสอบว่า NLA จะสามารถอ่านแรงจูงใจที่ไม่สอดคล้องได้โดยตรงจากความคิดของ target model โดยไม่ต้องค้นหาข้อมูลฝึกที่ไม่สอดคล้องก่อนหรือไม่
- ความแตกต่างนี้สำคัญ เพราะในโลกจริงข้อมูลที่ไม่สอดคล้องอาจมีอยู่น้อยมาก หรืออาจไม่มีข้อมูลเฉพาะชิ้นใดที่เป็นต้นเหตุให้เกิดความล้มเหลวด้าน alignment เลยก็ได้
-
ผลลัพธ์และการใช้งานจริง
- auditor ที่มี NLA สามารถค้นพบแรงจูงใจซ่อนอยู่ของ target model ได้ในอัตรา 12%~15% แม้จะไม่เข้าถึงข้อมูลฝึกที่ฉีดแรงจูงใจซ่อนอยู่นั้น
- เมื่อไม่มี NLA อัตราชนะของ auditor ต่ำกว่า 3% แม้จะมีเครื่องมือ interpretability อื่นให้ใช้ก็ตาม
- auditing game นี้เป็นเพียงโมเดลของความล้มเหลวด้าน alignment แบบของเล่น ดังนั้นควรตีความผลลัพธ์อย่างระมัดระวัง
- NLA ทำให้ความสามารถในการตรวจสอบแรงจูงใจซ่อนอยู่ของ AI ก้าวหน้าขึ้นอย่างมีนัยสำคัญ และถูกนำไปใช้แล้วในการตรวจสอบ alignment ก่อนการปล่อยใช้งานของ Claude Mythos Preview และ Claude Opus 4.6
ข้อจำกัดและทิศทางในอนาคต
-
คำอธิบายอาจผิดได้
- ข้อจำกัดที่สำคัญที่สุดของ NLA คือคำอธิบายจาก NLA อาจผิดพลาดได้
- บางครั้ง NLA จะกล่าวอ้างที่เป็นเท็จอย่างตรวจสอบได้เกี่ยวกับบริบท เช่น แต่งรายละเอียดที่ไม่มีอยู่ในประวัติการสนทนาขึ้นมา
- hallucination ของข้อเท็จจริงแบบนี้จับได้ง่ายเมื่อเทียบกับต้นฉบับ
- แต่เมื่อปัญหาเดียวกันขยายไปสู่การอ้างเกี่ยวกับการให้เหตุผลภายในของโมเดล การตรวจสอบจะยากขึ้นมาก
- ในการใช้งานจริง ควรให้ความสำคัญกับธีมที่ปรากฏมากกว่าคำกล่าวอ้างรายข้อในคำอธิบายของ NLA และควรมีวิธีอิสระมายืนยันผลก่อนจะเชื่ออย่างเต็มที่
-
ต้นทุนสูง
- การฝึก NLA ต้องใช้ reinforcement learning กับสำเนา language model สองชุด
- ตอนอนุมาน NLA จะสร้างข้อความยาวหลายร้อยโทเค็นสำหรับทุกค่า activation ที่อ่าน
- ต้นทุนนี้ทำให้การรัน NLA กับทุกโทเค็นของบทสนทนายาว ๆ หรือใช้สำหรับการเฝ้าระวังขนาดใหญ่ระหว่างฝึก AI เป็นเรื่องไม่สมจริง
- Anthropic มองว่าข้อจำกัดเหล่านี้อย่างน้อยบางส่วนสามารถแก้ได้ และกำลังทำงานเพื่อให้ NLA มีต้นทุนต่ำลงและเชื่อถือได้มากขึ้น
-
กระแสการวิจัยที่กว้างกว่า
- NLA เป็นหนึ่งในตระกูลเทคนิคทั่วไปที่สร้างคำอธิบายข้อความที่มนุษย์อ่านได้สำหรับค่า activation ของ language model
- เทคนิคที่คล้ายกันถูกสำรวจในงานวิจัยอื่นของ Anthropic, activation oracles, และโดยนักวิจัย คนอื่น อีกหลายราย
- เพื่อสนับสนุนการพัฒนาและการทดลองเพิ่มเติม ได้มีการเปิดเผย training code และ NLA ที่ฝึกไว้แล้วสำหรับโมเดลแบบเปิดหลายตัว
- เดโม NLA แบบอินเทอร์แอ็กทีฟของ Neuronpedia
- full paper
- code
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
Anthropic ออกโมเดล open weights ที่แปล activation ของโมเดลที่มีอยู่ให้เป็นข้อความภาษาธรรมชาติ เป้าหมายคือ Qwen 2.5 7B, Gemma 3 12B/27B และ Llama 3.3 70B
https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
ถือเป็นข่าวใหญ่พอสมควร และก็น่ายินดีที่ในที่สุด Anthropic ดูเหมือนจะเข้ามามีส่วนร่วมกับ Hugging Face และชุมชน open weights
[1] https://qwen.ai/blog?id=qwen-scope
แต่รอบนี้เป็นการทำกับ LLM อื่นที่ออกมาแบบ open weights อยู่แล้วเท่านั้น และถึงแม้พวกเขาจะใช้งานวิจัยนี้กับ Claude แบบปิดของตัวเองด้วย ก็คงไม่ออก Claude แบบ open weights มาแม้เพื่อการวิจัย
เพราะงั้นคงจัดสิ่งนี้เข้าหมวดนั้นยาก และดูว่าเป็นการเปิดเฉพาะเพื่อวัตถุประสงค์ของงานวิจัยนี้มากกว่า
ถ้าเป็นคนสาย interpretability หรือจริง ๆ แล้วทุกคน ก็ควรไปอ่านบล็อก Transformer Circuits ที่อธิบายแนวทางนี้ละเอียดกว่า ลิงก์ของบทความนี้คือ https://transformer-circuits.pub/2026/nla/index.html
ถ้ายังไม่เคยอ่าน แนะนำให้เริ่มจาก “prologue” ของ distill pub แล้วค่อยอ่านชุดบทความ Transformer Circuits ทั้งหมด
จากแนวทางวิเคราะห์ activation ที่เคยเห็นมา นี่ดูเป็นครั้งแรกที่อาจพาไปสู่ ความเข้าใจโมเดล ได้จริง
แต่ปัญหาคือจะพิสูจน์เรื่องนี้ยังไง สุดท้ายมันเหมือนถามว่าเราจะ encode activation ให้เป็นข้อความที่ฟังดูสมเหตุสมผลได้ไหม ซึ่งแน่นอนว่าทำได้ แต่จะรู้ได้ยังไงว่าข้อความที่ฟังดูสมเหตุสมผลนั้นสะท้อนสิ่งที่โมเดล “คิด” อยู่จริง ๆ?
ถ้า LLM ที่ถูก probe ไม่ได้เห็นกระแสข้อความจริงที่กำลังประมวลผลอยู่ และมีแค่การฝึกร่วมแบบ activationWeights→readableText→activationWeights ก็ยากจะเชื่อว่าข้อความที่ได้จะเข้ากับหัวข้อแต่ไม่เกี่ยวกับ “ความคิดจริง” ใน activationWeights เลย
ถ้าข้อความที่ decode ออกมาผิดหมด ก็ไม่ชัดว่าทำไมโมเดลตัวที่สองถึงยัง re-encode กลับได้สำเร็จ โดยเฉพาะเมื่อทั้งคู่ถูก initialize มาจาก language model เดียวกัน
ไม่ว่าจะใช้ metric อะไร โมเดลก็จะถูกกระตุ้นให้ดูเหมือน aligned หรือดูเหมือนฝึกมาดี ถ้าสร้าง metric ใหม่แล้วเอาไปใช้ฝึก มันก็จะเรียนรู้วิธีหลอก metric นั้น
น่าสนใจ กระบวนการฝึกดูเหมือนจะบังคับให้โมเดล “verbalizer” สร้าง mapping บางอย่างจาก activation ไปเป็น token แล้วให้โมเดล “reconstructor” แปลงกลับเป็น activation อีกที แต่ในตัวบทความมีประโยคว่า:
บางทีอาจได้ผลดีกว่าถ้าฝึกโมเดลแบบ supervised โดยใช้ activation ควบคู่กับ “ความคิดภายใน” ที่วัดจากวิธีเชิงพฤติกรรมแบบอื่น
ผมตื่นเต้นกับเปเปอร์นี้มากจนเขียนถึงมันไปหลายรอบแล้ว แต่ก็มีความคิดอยู่บ้าง
[1] - https://gemini.google.com/share/6d141b742a13
มีคำถามหนึ่งผุดขึ้นมาทันที แค่เพราะข้อความสตริงบางชุดกลายเป็น การแทนแบบบีบอัด ที่ดีของ activation ภายในโมเดลใน autoencoder ได้ นั่นแปลว่าข้อความนั้นอธิบาย activation นั้นในบริบทของโมเดลจริงหรือ? คงต้องไปดูสิ่งที่ปล่อยออกมาให้ละเอียดกว่านี้ บางทีอาจมีวิธีตอบคำถามนี้
ยังไงก็ตาม งานนี้เจ๋งมาก
อันนี้น่าประทับใจมาก และแสดงผลกระทบเชิงศักยภาพของเทคนิคนี้ได้ดีว่ามันอาจทำให้แม้แต่ “Neuralese” ที่บีบอัดที่สุดก็ยังตีความได้มาก
ถ้าไล่อ่านเปเปอร์ คำตอบของคำถามกลับด้านนี้ชัดเจนว่าได้ โมเดลมักจะพ่นข้อความเพ้อเจ้อออกมา และก็ไม่เป็นไรเพราะยังแปลงไปกลับได้อยู่ หลายครั้งที่มันไปลงใกล้กับถ้อยคำภาษาอังกฤษที่เป็นตัวแทน activation ได้ดี ก็เพียงเพราะมันเหมาะกับการบีบอัดและการไป-กลับ
เพราะงั้นคู่ LLM/NLA ที่เป็นอันตรายก็อาจซ่อนเจตนาไว้ด้วย ข้อความเพ้อเจ้อ ได้เลย ถ้าบังคับไม่ให้ใช้ข้อความเพ้อเจ้อ มันก็อาจซ่อนข้อมูลด้วย steganography
การทดลองที่เปลี่ยน “rabbit” เป็น “mouse” เป็นหลักฐานว่าของแบบนี้อาจเกิดขึ้นได้ ความสำเร็จมีแค่ 50% ซึ่งอาจหมายความว่ายังลบความเป็น “rabbit” ออกจาก activation ได้ไม่หมด
แต่ก็ดูเหมือนจะแก้ต่อได้ในการวิจัยอนาคต โดยระหว่างฝึก NLA ให้ส่งข้อความแทนผ่าน LLM ตัวที่สามเพื่อสุ่มจัดเรียงและเขียนใหม่ ทำให้ใช้คำพ้องหรือภาษาถิ่นอื่น เพื่อทำลาย side channel ที่มนุษย์อ่านไม่ออก
แบบนั้น NLA ก็น่าจะถูกบังคับให้ใช้ถ้อยคำที่มนุษย์อ่านออกเพื่อให้การแปลงไป-กลับสำเร็จ
คืออย่าหยุดแค่แปล activation เป็นข้อความแล้วแปลงข้อความกลับเป็น activation แต่ควรเอา activation สุดท้ายนั้นกลับไปป้อนเข้าโครงข่ายประสาท แล้วปล่อยให้มันรันต่อจากตรงนั้น
ถ้ามันยังเดินต่อในลักษณะใกล้เคียงกัน ก็จะช่วยแสดงว่า activation ที่พยากรณ์ไว้นั้นใกล้กับของเดิมพอสมควร และทำให้เริ่มเชื่อถือได้มากขึ้น
ที่น่าสนใจกว่านั้นคือทดลองกับ ข้อความที่ถูกแก้ไข ในภายหลัง เช่นถ้าข้อความบอกว่า “สิ่งนี้เป็นจริง” แล้วเปลี่ยนเป็น “สิ่งนี้เป็นเท็จ” ถ้าการแทรกแซงนี้ทำให้เอาต์พุตสุดท้ายบ่งชี้ความเท็จด้วย ก็คงน่าสนใจมาก
มันดู obvious มากจนแปลกที่ไม่เห็นระบุเป็นทิศทางในอนาคต อาจมีเหตุผลชัดเจนบางอย่างที่ทำให้ใช้ไม่ได้ก็ได้
ส่วนกรณี goblin นั้นมาจาก reward model ของ reinforcement learning ที่มีอคติ
วิธีทำงานดูเหมือนเริ่มจากโมเดล activation verbalizer สร้าง token ที่อธิบาย activation ก่อน แล้ว activation reconstructor ก็พยายามสร้างเวกเตอร์ activation กลับขึ้นมาใหม่ ถ้าการสร้างกลับใกล้กับเวกเตอร์ activation เดิม ก็เลยอ้างได้ว่าการทำให้เป็นภาษานั้นน่าจะมีข้อมูลที่มีความหมายบางอย่างอยู่
จุดที่น่าสนใจคือมันมองเฉพาะ activation ของชั้น l ชั้นเดียว บางชั้น l อาจ “คิด” กับอินพุตในแบบหนึ่ง ขณะที่ชั้นถัด ๆ ไปอาจมี “ความคิด” แบบอื่นต่อเรื่องเดียวกัน แล้วสุดท้ายโมเดลตัดสินใจอย่างไรว่า “ความคิด” ไหนควรได้รับความสนใจ และ token เอาต์พุตใดควรถูกให้ความสำคัญมากกว่าอีกอัน?
พอดูทั้งงานวิจัยนี้ เปเปอร์เรื่องอารมณ์ และ Golden Gate Claude ก็เหมือนไม่ใช่การเดามั่วเกินไปนักที่จะคิดว่า Anthropic มีการทำ activation steering บางรูปแบบเป็นส่วนหนึ่งของการฝึก และนั่นอาจเป็นหนึ่งในเหตุผลที่ Anthropic นำหน้าอยู่
ในข่าวเกี่ยวกับ Anthropic ช่วงหลัง ฟีเจอร์นี้ถูกพูดถึงหลายครั้ง พอเห็นว่าจะปล่อยก็ยินดีมาก รู้สึกว่าเป็นความก้าวหน้าที่มีความหมายในด้าน interpretability ผมไม่เคยเข้าใจเลยว่าทำไมคนถึงเชื่อคำตอบของ AI เวลาถามว่า “ทำไมถึงทำแบบนั้น?”
การฝึกทั้ง encoder และ decoder สองโมเดลเพื่ออธิบายทีละชั้นนั้นไม่ได้สมเหตุสมผลขนาดนั้น สิ่งที่มันทำได้คือสร้างข้อความที่อ่านได้จำนวนมากขึ้นเกี่ยวกับวิธีที่ LLM ถอดรหัสอินพุตบางส่วน ซึ่งก็เท่ดีและช่วยเรื่อง debugging ได้เพิ่มนิดหน่อย แต่คงไม่เกินกว่านั้น