แยกภาษาโมเดลออกเป็นองค์ประกอบที่เข้าใจได้

(anthropic.com)

1 คะแนน โดย GN⁺ 2023-10-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anthropic ศึกษาวิธีค้นหา ฟีเจอร์ (feature) ที่ตีความได้ง่ายกว่านิวรอนเดี่ยว ในภาษาโมเดลแบบ Transformer ขนาดเล็ก เพื่อแบ่งภายในของโครงข่ายประสาทออกเป็นหน่วยที่มนุษย์เข้าใจได้
นิวรอนหนึ่งตัวอาจถูกกระตุ้นพร้อมกันในบริบทที่ไม่เกี่ยวข้องกัน เช่น การอ้างอิงทางวิชาการ บทสนทนาภาษาอังกฤษ คำขอ HTTP หรือข้อความภาษาเกาหลี จึงยากที่จะจับคู่กับ พฤติกรรมของโมเดล ได้อย่างเสถียร
งานวิจัยนี้แยกชั้นหนึ่งที่มีนิวรอน 512 ตัวออกเป็นฟีเจอร์มากกว่า 4,000 รายการ ทำให้คุณลักษณะอย่างลำดับ DNA สำนวนกฎหมาย คำขอ HTTP ข้อความภาษาฮีบรู และฉลากโภชนาการ ปรากฏออกมาแยกจากกัน
ในการประเมินแบบ blind โดยมนุษย์และการประเมิน ความตีความได้ แบบอัตโนมัติที่อิง LLM ฟีเจอร์ตีความได้ง่ายกว่านิวรอน และเมื่อกระตุ้นฟีเจอร์บางตัวแบบจงใจ พฤติกรรมของโมเดลก็เปลี่ยนไปในแบบที่คาดการณ์ได้
หากฟีเจอร์ที่เรียนรู้มาใช้ได้ค่อนข้างเป็นสากลข้ามโมเดลต่าง ๆ งานขยายแนวทางนี้ไปสู่ frontier model ที่ใหญ่กว่าจะกลายเป็นโจทย์ด้านวิศวกรรมมากกว่าวิทยาศาสตร์

ทำไมการตีความโครงข่ายประสาทจึงยาก

โครงข่ายประสาทไม่ได้มีมนุษย์เขียนกฎให้โดยตรง แต่ เรียนรู้จากข้อมูล และระหว่างการฝึก พารามิเตอร์ตั้งแต่หลายล้านถึงหลายพันล้านตัวจะถูกอัปเดต
เราสามารถติดตามการคำนวณทางคณิตศาสตร์ของโครงข่ายที่ฝึกแล้วได้
- นิวรอนแต่ละตัวทำการคำนวณเลขคณิตอย่างง่าย
- แต่ยังไม่ชัดเจนว่าทำไมการคำนวณนั้นจึงนำไปสู่พฤติกรรมที่สังเกตได้
ความไม่โปร่งใสนี้ทำให้การวินิจฉัยรูปแบบความล้มเหลว การหาวิธีแก้ไข และการรับรองความปลอดภัยของโมเดลเป็นเรื่องยาก

นิวรอนเดี่ยวไม่ใช่หน่วยตีความที่เสถียร

ประสาทวิทยาก็เผชิญปัญหาคล้ายกันในการทำความเข้าใจรากฐานทางชีววิทยาของพฤติกรรมมนุษย์ แต่ในโครงข่ายประสาทเทียมสามารถทำการทดลองได้ง่ายกว่ามาก
- บันทึกการกระตุ้นของนิวรอนทั้งหมดพร้อมกันได้
- แทรกแซงโดยทำให้นิวรอนเงียบลงหรือกระตุ้นมันได้
- ทดสอบการตอบสนองของโครงข่ายต่ออินพุตที่เป็นไปได้ต่าง ๆ ได้
อย่างไรก็ตาม นิวรอนเดี่ยว ไม่มีความสัมพันธ์ที่สม่ำเสมอกับพฤติกรรมของโครงข่าย
- นิวรอนเดี่ยว ในภาษาโมเดลขนาดเล็กอาจถูกกระตุ้นในหลายบริบทที่ไม่เกี่ยวข้องกัน เช่น การอ้างอิงทางวิชาการ บทสนทนาภาษาอังกฤษ คำขอ HTTP หรือข้อความภาษาเกาหลี
- นิวรอนเดี่ยว ในโมเดลการมองเห็นแบบคลาสสิกอาจตอบสนองทั้งใบหน้าแมวและด้านหน้าของรถยนต์
แม้จะเป็นการกระตุ้นของนิวรอนตัวเดียวกัน แต่ความหมายก็อาจต่างกันไปตามบริบท

แนวทางแยกโมเดลด้วยฟีเจอร์ (feature)

งานวิจัย Towards Monosemanticity: Decomposing Language Models With Dictionary Learning กล่าวถึงการมีอยู่ของหน่วยวิเคราะห์ที่ดีกว่านิวรอนเดี่ยว
หน่วยนี้คือ ฟีเจอร์ (feature) ซึ่งสอดคล้องกับรูปแบบของการกระตุ้นนิวรอน หรือก็คือการรวมเชิงเส้นของมัน
Anthropic สร้างกลไกสำหรับค้นหาฟีเจอร์เหล่านี้ในโมเดล Transformer ขนาดเล็ก
แนวทางนี้เป็นเส้นทางสู่การแยกโครงข่ายประสาทที่ซับซ้อนออกเป็นส่วนที่เข้าใจได้ และต่อยอดจากงานเดิมในประสาทวิทยา แมชชีนเลิร์นนิง และสถิติ ที่พยายามตีความระบบมิติสูง

แยกนิวรอน 512 ตัวออกเป็นฟีเจอร์กว่า 4,000 รายการ

ในภาษาโมเดลแบบ Transformer หนึ่งตัว มีการแยกชั้นที่มีนิวรอน 512 ตัวออกเป็น ฟีเจอร์มากกว่า 4,000 รายการ
ฟีเจอร์ที่แยกออกมาแสดงคุณสมบัติที่แตกต่างกันอย่างเป็นอิสระ
- ลำดับ DNA
- ภาษากฎหมาย
- คำขอ HTTP
- ข้อความภาษาฮีบรู
- ฉลากโภชนาการ
คุณสมบัติของโมเดลส่วนใหญ่ในลักษณะนี้จะไม่ปรากฏให้เห็นหากดูเฉพาะการกระตุ้นของนิวรอนเดี่ยว

การตรวจสอบความสามารถในการตีความ

ผู้ประเมินมนุษย์แบบ blind ให้คะแนน ความสามารถในการตีความ ของฟีเจอร์และนิวรอน
- ฟีเจอร์ได้คะแนนสูงกว่านิวรอนอย่างมาก
ยังมีการใช้การประเมิน ความตีความได้ แบบอัตโนมัติด้วย LLM ควบคู่กัน
- ภาษาโมเดลขนาดใหญ่สร้างคำอธิบายสั้น ๆ สำหรับฟีเจอร์ของโมเดลขนาดเล็ก
- จากนั้นอีกโมเดลหนึ่งให้คะแนนว่าคำอธิบายนั้นเพียงอย่างเดียวทำนายการกระตุ้นของฟีเจอร์ได้ดีเพียงใด
- ในการประเมินนี้ ฟีเจอร์ก็ได้คะแนนสูงกว่านิวรอนเช่นกัน
ผลลัพธ์โดยรวมเพิ่มหลักฐานว่าการกระตุ้นของฟีเจอร์และผลกระทบปลายน้ำต่อพฤติกรรมของโมเดลสามารถตีความได้อย่างสม่ำเสมอ

การบังคับทิศทางโมเดลด้วยฟีเจอร์

ฟีเจอร์ยังเป็นเครื่องมือสำหรับ บังคับทิศทาง โมเดลอย่างตรงเป้าหมาย
เมื่อกระตุ้นฟีเจอร์บางตัวแบบจงใจ พฤติกรรมของโมเดลจะเปลี่ยนไปในลักษณะที่คาดการณ์ได้
ดังนั้นฟีเจอร์จึงไม่ใช่แค่หน่วยสำหรับการสังเกต แต่สามารถมองเป็นองค์ประกอบภายในที่มีอิทธิพลต่อพฤติกรรมของโมเดลได้

ความเป็นสากลและการปรับความละเอียด

ฟีเจอร์ที่เรียนรู้มามีลักษณะ เป็นสากล ในระดับหนึ่งระหว่างโมเดลที่ต่างกัน
- สิ่งที่ได้จากการศึกษาฟีเจอร์ของโมเดลหนึ่งอาจสรุปใช้กับอีกโมเดลหนึ่งได้
การปรับจำนวนฟีเจอร์ที่เรียนรู้ช่วยเปลี่ยน ความละเอียด ในการมองโมเดลได้
- หากแยกด้วยชุดฟีเจอร์ขนาดเล็ก จะได้มุมมองแบบหยาบที่เข้าใจง่าย
- หากแยกด้วยชุดฟีเจอร์ขนาดใหญ่ จะเห็นคุณสมบัติที่ละเอียดอ่อนของโมเดลจากมุมมองที่ละเอียดขึ้น
คำอธิบายที่เกี่ยวข้องเชื่อมโยงกับการทดลอง การเปลี่ยนความละเอียด

ความปลอดภัยของ AI และโจทย์ถัดไป

งานนี้เป็นผลจากการลงทุนวิจัยของ Anthropic ด้าน mechanistic interpretability และเป็นหนึ่งในทิศทางวิจัยระยะยาวเพื่อความปลอดภัยของ AI
การที่นิวรอนเดี่ยวตีความได้ยากเป็นอุปสรรคใหญ่ต่อความเข้าใจภาษาโมเดลในเชิงกลไก
การแยกกลุ่มนิวรอนออกเป็นฟีเจอร์ที่ตีความได้อาจช่วยก้าวข้ามอุปสรรคนี้
ในระยะยาว สิ่งนี้อาจเชื่อมไปสู่การเฝ้าติดตามและบังคับทิศทางพฤติกรรมของโมเดลจากภายใน เพื่อเพิ่มความปลอดภัยและความน่าเชื่อถือที่จำเป็นต่อการใช้งานในองค์กรและสังคม
โจทย์ถัดไปคือการขยายวิธีที่สำเร็จในโมเดลขนาดเล็กไปสู่ frontier model ที่ใหญ่และซับซ้อนกว่ามาก
- มองว่าอุปสรรคสำคัญถัดไปของการตีความ LLM ขนาดใหญ่เป็นเรื่องทางวิศวกรรมมากกว่าวิทยาศาสตร์เป็นครั้งแรก
รายละเอียดเพิ่มเติมดูได้ใน Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

1 ความคิดเห็น

GN⁺ 2023-10-09

ความคิดเห็นบน Hacker News

บังเอิญเจอบทความที่มีประโยชน์ซึ่งเปรียบเทียบกับงานวิจัยอีกฉบับที่เพิ่งออกมาไม่นานมาก และดูเหมือนจะสนับสนุนข้อค้นพบบางส่วนหลัก ๆ ได้ในทางปฏิบัติ น่าจะเป็นบทความเปรียบเทียบที่ผู้เขียนงานวิจัยอีกฉบับนั้นเขียนเอง: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
พอดีว่าผม/ฉันกำลังทำสิ่งนี้แทบจะเหมือนกันเป๊ะ ๆ เป็น ไซด์โปรเจกต์ อยู่ เริ่มจากความอยากรู้อยากเห็นล้วน ๆ และแม้จะไม่เหมือนกันทุกประการ แต่กำลังปรับแต่งอัลกอริทึมที่รับเอาเอาต์พุตหลายชุดที่ถูกปรับเทียบอย่างระมัดระวังจาก LLM บางตัว แล้วอนุมานชุดพารามิเตอร์ที่น่าจะอยู่เบื้องหลังมัน
คาดไว้ว่าจะได้คลัสเตอร์ของพารามิเตอร์ที่คล้ายกับสิ่งที่สังเกตพบอยู่แล้ว แบบไม่เป็นทางการเรียกปัญหานี้ว่า “การคำนวณย้อนกลับ LLM” ซึ่งแน่นอนว่าไม่ใช่เรื่องง่าย แต่ก็ไม่ได้เป็นไปไม่ได้เสียทีเดียว และจนถึงตอนนี้ก็เจอการประมาณที่ค่อนข้างดีแล้ว
สมมติฐานช่วงท้ายของต้นฉบับที่ลิงก์ไว้ว่า “บาง feature จริง ๆ แล้วเป็นแมนิโฟลด์ feature มิติสูง และ dictionary learning อาจเป็นการประมาณสิ่งนั้น” ก็น่าสนใจเช่นกัน ในแง่ที่ว่ามีบางสิ่งที่ทำตัวเหมือนพื้นที่ต่อเนื่องและเรียบ จึงสามารถนิยามแมนิโฟลด์ได้มากเท่าที่ต้องการตามความจำเป็น นั่นก็ถือว่าถูกแล้ว ถ้าพักประเด็นความเคร่งครัดทางคณิตศาสตร์ไว้ก่อน ผม/ฉันมองว่าสิ่งนี้กำลังเกิดขึ้นจริง และเป็นกรอบที่ถูกต้องในการเข้าใกล้ปัญหานี้
ความตระหนักที่น่าทึ่งจากเรื่องนี้คือ สิ่งที่เป็นคู่เทียบเชิงแนวคิดของ ฟังก์ชันทรานซิชัน ที่เชื่อมแมนิโฟลด์ต่าง ๆ ภายใน พื้นที่ LLM นี้คืออะไร เมื่อเห็นมันแล้ว คุณอาจรู้สึกหัวจะระเบิด ไม่ใช่เพราะมันซับซ้อน แต่เพราะมันเรียบง่ายอย่างผิดปกติต่างหาก
- ช่วยอธิบายเพิ่มได้ไหมว่า “ฟังก์ชันทรานซิชัน” ที่พูดถึงตรงนี้หมายถึงอะไรกันแน่?
- อยากรู้ว่าเริ่มทำสิ่งนี้ด้วยแนวทางแบบไหน และอยากเรียนรู้เพิ่มเติมด้วยว่า LLM ทำงานอย่างไร
- หมายถึงในเชิงลำดับชั้นหรือเปล่า? หรือผม/ฉันพลาดประเด็นไปโดยสิ้นเชิง
นี่ดูเหมือนเป็นความก้าวหน้าครั้งใหญ่ใน งานวิจัยด้าน alignment ปัญหาใหญ่จนถึงตอนนี้คือ LLM เป็นก้อนตัวเลขที่ตีความได้ยาก และเราแทบไม่รู้เลยว่าข้างในเกิดอะไรขึ้น
ถ้าเทคนิคนี้ขยายไปสู่สเกลที่ใหญ่ขึ้นได้ Anthropic ก็ถือว่าแก้ปัญหานั้นไปได้มาก เราสามารถหาคำตอบได้ว่ากลุ่ม neuron ต่าง ๆ ทำอะไรจริง ๆ และใช้สิ่งนั้นควบคุมพฤติกรรมของ LLM ได้ อาจช่วยป้องกัน AI ที่ alignment คลาดเคลื่อนโดยไม่ตั้งใจได้
- สำหรับผม/ฉัน ฟังดูเหมือนเบาะแสที่ดีสำหรับ การ prune มากกว่า
- ส่วนที่ว่า “feature ที่เรียนรู้ได้นั้นโดยมากเป็นสากลข้ามโมเดลต่าง ๆ ดังนั้นบทเรียนที่ได้จากการศึกษา feature ของโมเดลหนึ่งจึงอาจ generalize ไปยังโมเดลอื่นได้” อยากให้ขยายความมากกว่านี้
  หมายความว่าเมื่อเทรนด้วยข้อมูลชุดเดียวกันแล้วพบตัวตรวจจับ feature แบบเดียวกันหรือเปล่า? หรือหมายถึงอย่างอื่น? มันบอกอะไรบางอย่างก็จริง แต่ยังไม่ชัดว่าบอกอะไรแน่
สงสัยว่าจะเกิดอะไรขึ้นถ้าใส่ คอมโพเนนต์ที่โปรแกรมด้วยมือ เข้าไปใน neural network คอมโพเนนต์ง่าย ๆ อย่างการตรวจจับลำดับ DNA น่าจะตั้งค่าน้ำหนักใส่เข้าไปโดยตรงได้
ในทำนองเดียวกัน เราอาจให้คอมโพเนนต์ด้านคณิตศาสตร์แก่ neural network ได้ ระหว่างการเทรน เครือข่ายจะค้นพบและใช้คอมโพเนนต์ที่นิยามไว้ล่วงหน้าเหล่านี้หรือไม่ หรือจะเมินมันแล้วสร้างวิธีตรวจจับลำดับ DNA ของตัวเองขึ้นมาใหม่?
- ถ้าอยากค้นต่อ ประวัติและการใช้งานของแนวคิดนี้เรียกว่า feature engineering
  tokenization ก็เป็นรูปแบบหนึ่งของสิ่งนี้ เพราะเป็นการแปลงข้อมูลล่วงหน้าเพื่อให้โมเดลไม่ต้องเรียนรู้แพตเทิร์นที่เรารู้อยู่แล้วว่าสำคัญด้วยตัวเอง
- เราสามารถโปรแกรม Transformer ด้วยมือได้: https://srush.github.io/raspy/
  แต่ไม่รู้ว่าจะผสานมันเข้าไปในโมเดลได้หรือไม่ สิ่งแบบนี้ไม่กำกวม จึงกิน “พื้นที่” มากกว่า neuron ที่เรียนรู้ได้มาก สุดท้ายอาจทำให้พื้นที่ไม่พอก็ได้
- อาจมองได้ว่าเป็นการเพิ่ม การแปลงอินพุตเชิงคาดเดา เป็นส่วนหนึ่งของอินพุตของเลเยอร์ใดเลเยอร์หนึ่ง แล้วให้เครือข่ายตัดสินใจเองว่าจะใช้การแปลงนั้นหรือไม่ คล้ายกับเลเยอร์ convolution ของ CNN แต่ปรับให้เฉพาะโดเมนมากกว่ามาก
  แต่ก็ไม่แน่ใจว่ามีงานวิจัยเกี่ยวกับเลเยอร์ประหลาด ๆ แบบนี้มากแค่ไหน
- ในบาง use case ที่ความแม่นยำสำคัญมาก อาจเลือกใช้ โค้ดที่เขียนด้วยมือ สำหรับการคำนวณได้ วิธีนี้ทำให้มั่นใจในประสิทธิภาพของวิธีที่มนุษย์สร้างขึ้นได้ มากกว่าการมอบหมายงานเฉพาะบางอย่างให้ LLM
  แต่ยังไม่ชัดว่าสิ่งนี้จะถูกรวมเข้ากับเครือข่ายโดยตรง หรือจะเป็นเครื่องมือที่ LLM ใช้ได้ น่าสนใจที่มันดูคล้ายกับทางเลือกว่าเราจะเสริมสมองมนุษย์ด้วยอะไรอย่าง Neuralink หรือแค่ยื่นเครื่องคิดเลขให้ก็พอ
หวังว่างานวิจัยแบบนี้จะนำไปสู่วิธีสร้างโมเดลที่เล็กและมีประสิทธิภาพกว่ามาก แต่ยัง ปรับแต่งอย่างละเอียดและ steerable ได้
ถ้าเรามองเห็นว่าแต่ละส่วนทำอะไร ในทางทฤษฎีก็น่าจะหาวิธีสร้างเฉพาะชุด feature ที่ต้องการได้ หรืออาจปรับ feature ที่มีความจุซ้ำซ้อนก็ได้
เมื่อศึกษาฟีเจอร์ไปเรื่อย ๆ อาจไปถึงจุดที่สามารถกลั่นความรู้ออกมาเป็นรูปแบบที่ใกล้เคียงกับกราฟความรู้ที่มั่งคั่งและนิยามไว้อย่างละเอียดมาก
- Anthropic น่าจะกำลังเดินไต่เชือกหลายมิติอยู่ พวกเขาต้องการความปลอดภัยของ AI และคงอยากหลีกเลี่ยงไม่ให้ใคร ๆ ก็มีโมเดลทรงพลังได้ด้วย
  แต่ถ้าผลวิจัยของพวกเขาถูก Meta หรือกลุ่ม Discord ต่าง ๆ ดูดซับไป LLM ขนปุยแบบทุกวันนี้ก็จะกลายเป็นคู่แข่งที่ทรงพลัง และทุกคนก็จะเข้าถึงพลังนั้นได้ ผม/ฉันไม่ได้มั่นใจมากว่าแบบไหนดีกว่า แต่เอนเอียงไปทาง โมเดลเปิด เล็กน้อย
  อย่างไรก็ตาม คนธรรมดาอย่างเราก็ได้รับอนุญาตให้ใช้สิ่งต่าง ๆ อย่างคอมพิวเตอร์ CPU รุ่นใหม่ และอินเทอร์เน็ตอยู่แล้ว แม้จะมีเรื่องแย่ ๆ อย่างการหลอกลวง และเรื่องที่แย่กว่านั้นเกิดขึ้น แต่ผม/ฉันคิดว่ายังดีกว่าการจำกัดสิ่งที่ผู้คนสามารถทำได้
โมเดลยักษ์ตัวเดียวไม่ใช่ วิธีที่สมองทำงาน และก็ไม่ใช่วิธีที่ผังองค์กรทำงานด้วย
การที่ LLM แสดงความสามารถระดับนี้ได้ด้วยความหนาแน่นการคำนวณในปัจจุบัน ดูเป็นสัญญาณแรงว่าภารกิจในการสร้างคนทำงานความรู้ที่มีประสิทธิผลได้เข้าสู่เขตศักยภาพส่วนเกินแล้ว
ชิ้นส่วนที่ยังขาดไม่ใช่ความก้าวหน้าของ LLM แต่คือ การจัดการ LLM แก่นสำคัญคือการทำให้ผังองค์กรของ LLM ที่ภายในมีความเป็นปฏิปักษ์กันรายงานมาหาเรา และสร้างความไว้วางใจภายในนั้น
- วิธีที่ระบบแบบนี้ทำงานให้ความรู้สึกว่าไร้ประสิทธิภาพอย่างมหาศาล
  เราไม่ได้ประเมินโมเดลฟิสิกส์ดาราศาสตร์ใหม่ทุกครั้งที่อ่านตำราอาหาร
สงสัยว่า neuron แต่ละตัวในสมองมนุษย์มีความ polysemantic แค่ไหน สิ่งที่ต้องการจริง ๆ และสิ่งที่สมองมนุษย์อาจมีอยู่ คือ neural network แบบ monosemantic ที่มีปริมาณข้อมูลสูง หรือเครือข่ายที่อิง feature อิง concept และอิงแพตเทิร์นระดับมหภาค
แม้จะมี neuron แบบ polysemantic อยู่ ก็น่าจะเป็น neuron ที่แชร์ข้อมูลคล้ายกันหรือเหมือนกันภายใน feature ที่มันสังกัด เพื่อให้ได้ประสิทธิภาพด้านพื้นที่และการคำนวณ ในขณะที่โมเดล Transformer แบบนี้ ดูเหมือนเอาสมองมนุษย์เป็นล้าน ๆ สมองมาซ้อนทับบนเครือข่ายเดียวกัน แล้วพยายามเฉลี่ย feature ทั้งหมดในชุดการเรียนรู้ออกมาเป็น neuron เฉพาะตัวอย่างใดอย่างหนึ่ง ผลก็คือย่อมกลายเป็น “สมอง” ที่ใหญ่กว่ามาก
ในบทความวิจัยบอกว่า neuron แบบ monosemantic ในเครือข่ายทำงานได้ไม่ดี แต่ตามสัญชาตญาณของผม/ฉัน อาจเป็นเพราะมัน “ความละเอียดสูง” เกินไป และไม่ได้เข้ารหัสข้อมูลในระดับ feature มากพอ feature อาจมีมิติต่ำ ส่วน neuron มิติสูงแบบ monosemantic อาจเข้ารหัสข้อมูลได้น้อยเกินไป อย่างไรก็ตาม นี่เป็นความคิดจากมุมที่ยังรู้เรื่องสมองมนุษย์ไม่มากนัก จึงอาจมีความคล้ายคลึงอีกมากที่ผม/ฉันไม่รู้
คิดว่านี่เจ๋งมาก ดูเหมือน LLM ทุกตัวกำลัง converge เข้าหา feature ร่วม เหล่านี้
ในฐานะคนนอกวงการ ตามที่ผม/ฉันเข้าใจ โมเดลที่เทรนแล้วอธิบายทรานซิชันจากสัญลักษณ์หนึ่งไปยังสัญลักษณ์ถัดไปเป็นความน่าจะเป็นระหว่างโหนด กราฟนี้มีโครงสร้างอยู่ หากไม่มีโครงสร้าง ก็คงเทรนไม่ได้ตั้งแต่แรก
แต่โครงสร้างนั้นเหมือนกระดาษแผ่นหนึ่งที่นิยามของแต่ละโหนดถูกทาทับซ้อนกันด้วยหมึกคนละสีเป็นชั้น ๆ งานวิจัยนี้และงานวิจัยพ่อแม่-พี่น้องในบทความ LessWrong ดูเหมือนการคัดแยกองค์ประกอบกราฟสีต่าง ๆ ออกจาก ซุปตัวเลขจุดลอยตัว นั้น

แยกภาษาโมเดลออกเป็นองค์ประกอบที่เข้าใจได้

ทำไมการตีความโครงข่ายประสาทจึงยาก

นิวรอนเดี่ยวไม่ใช่หน่วยตีความที่เสถียร

แนวทางแยกโมเดลด้วยฟีเจอร์ (feature)

แยกนิวรอน 512 ตัวออกเป็นฟีเจอร์กว่า 4,000 รายการ

การตรวจสอบความสามารถในการตีความ

การบังคับทิศทางโมเดลด้วยฟีเจอร์

ความเป็นสากลและการปรับความละเอียด

ความปลอดภัยของ AI และโจทย์ถัดไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News