- ทำสำเร็จด้วยการ คัดลอก 7 เลเยอร์กลางของ LLM ขนาด 72B พารามิเตอร์ แล้วนำมาจัดเรียงใหม่ จนขึ้นอันดับ 1 บนลีดเดอร์บอร์ดได้โดยไม่ต้องฝึกเพิ่มเติมใด ๆ
- การทดลองทำบน RTX 4090 สองใบ และไม่ได้แก้ไขน้ำหนักของโมเดล แต่เปลี่ยนเฉพาะโครงสร้างให้ รันเลเยอร์กลางซ้ำ
- ใช้ พร็อกซีทาสก์ขนาดเล็ก สองแบบคือการให้เหตุผลทางคณิตศาสตร์และการให้เหตุผลทางอารมณ์ (EQ) เพื่อค้นหาช่วงเลเยอร์ที่เหมาะสมที่สุด
- ผลลัพธ์คือ โมเดล RYS-XLarge ที่อิงบน Qwen2-72B มีคะแนนเฉลี่ยเพิ่มขึ้น +2.61% โดยเฉพาะ MuSR +17.72% และ MATH +8.16%
- แนวทางนี้ชี้ให้เห็นถึงความเป็นไปได้ของการมีอยู่ของ “วงจรเชิงหน้าที่ (functional circuit)” ภายใน LLM และต่อยอดไปสู่การศึกษาด้าน “โครงสร้างประสาทกายวิภาค” ของโมเดลขนาดใหญ่
Open LLM Leaderboard และที่มาของการทดลอง
- ในช่วงกลางปี 2024 Open LLM Leaderboard ของ HuggingFace เป็นสนามแข่งขันของโมเดลที่เปิดเผยน้ำหนักสู่สาธารณะ
- หัวข้อประเมิน: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- ผู้เขียนทำการทดลองโดย ไม่ฝึกโมเดลใหม่หรือทำ fine-tuning แต่ใช้วิธี คัดลอกบางส่วนของเลเยอร์กลาง จากโมเดลเดิม
- เลเยอร์ที่ถูกคัดลอกคาดว่าเป็นส่วนที่รับหน้าที่ในกระบวนการ “คิด (thinking)” ของโมเดล
เบาะแส 1 – การทดลองสนทนาแบบ Base64
- สังเกตว่า LLM สามารถ เข้าใจคำถามที่เข้ารหัสเป็น Base64 และตอบกลับที่ถูกต้องเป็น Base64 ได้
- จากการที่โมเดลยังคงให้เหตุผลได้แม้รูปแบบอินพุตต่างออกไป จึงตั้งสมมติฐานว่า เลเยอร์ต้นทำหน้าที่ตีความอินพุต (translation) และ เลเยอร์ท้ายทำหน้าที่แปลงเอาต์พุตกลับ (re-translation)
- ดังนั้น เลเยอร์กลางจึงอาจเป็นบริเวณที่ทำหน้าที่คิดเชิงนามธรรม
เบาะแส 2 – โครงสร้างผิดปกติของโมเดล Goliath-120B
- Goliath-120B ของ HuggingFace มีโครงสร้างที่นำโมเดล Llama-2 70B สองตัวมาสลับเชื่อมกัน โดย ป้อนเอาต์พุตของเลเยอร์ท้ายกลับเข้าไปเป็นอินพุตของเลเยอร์ต้น
- พบว่าแม้จะเป็นโครงสร้างที่อยู่นอกการกระจายของการฝึกตามปกติ โมเดลก็ยังทำงานได้
- สิ่งนี้บ่งชี้ว่า รีเพรเซนเทชันระหว่างเลเยอร์สามารถใช้งานร่วมกันได้ และ รีเพรเซนเทชันภายใน Transformer มีความเป็นเนื้อเดียวกัน (homogenous)
การสร้าง “brain scanner”
- สร้างไปป์ไลน์เพื่อทดสอบ ทุกคู่ช่วงเลเยอร์ (i, j) ของโมเดล Qwen2-72B รวม 3,241 ชุด
- ในแต่ละชุด จะปรับโมเดลให้ ผ่านช่วงเลเยอร์ที่กำหนดสองรอบ
- เกณฑ์การประเมินต้องผ่าน 3 เงื่อนไข
- ลดความยาวเอาต์พุตให้น้อยที่สุด (เพื่อความเร็ว)
- ให้คะแนนแบบวัตถุวิสัยได้
- มีความเป็นอิสระเชิงการรับรู้ (ถ้าดีขึ้นพร้อมกันทั้งสองทาสก์ จะถือว่าเป็นการปรับปรุงเชิงโครงสร้าง)
การออกแบบพร็อกซีทาสก์
- Hard Math Probe: ประเมินคำตอบของโจทย์เลขคณิตที่ซับซ้อนโดยตรง
- EQ-Bench Probe: ทำนายความเข้มของอารมณ์ในสถานการณ์ทางสังคมเป็นค่า 0~100
- ทั้งสองทาสก์มี เอาต์พุตสั้นและคำตอบชัดเจน จึงเหมาะกับการวัดการเปลี่ยนแปลงเชิงโครงสร้าง
ฟังก์ชันให้คะแนนคณิตศาสตร์และการประเมินคำตอบบางส่วน
- พัฒนาฟังก์ชันคำนวณ คะแนนความตรงกันบางส่วน เพื่อรองรับข้อผิดพลาดเชิงตัวเลขของ LLM เช่น หลุดหลักหรือสลับตำแหน่งตัวเลข
- โดยแพดคำตอบสั้นและคำนวณความคลาดเคลื่อนสัมพัทธ์ เพื่อ แปลงความถูกต้องเป็นคะแนนต่อเนื่อง
- ทำให้สามารถแยกความต่างของประสิทธิภาพเล็กน้อยออกมาเชิงปริมาณได้
โครงสร้างของโมเดล RYS-XLarge
- ชุดที่ดีที่สุดคือ (45, 52) ซึ่งหมายถึงการรันเลเยอร์ 45~51 ซ้ำอีกหนึ่งรอบ
- สรุปคือมีการ คัดลอก 7 เลเยอร์กลาง ทำให้พารามิเตอร์รวมเพิ่มจาก 72B → 78B
- เปลี่ยนเฉพาะโครงสร้างโดยไม่แตะน้ำหนัก, และทำผ่านการคัดลอกพอยน์เตอร์จึงไม่ต้องใช้ VRAM เพิ่ม
ผลลัพธ์บนลีดเดอร์บอร์ด
| รายการ |
คะแนน |
การปรับดีขึ้นเมื่อเทียบฐาน |
| ค่าเฉลี่ย |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- ดีขึ้นใน 5 รายการ และขึ้นอันดับ 1 บนลีดเดอร์บอร์ดด้วยคะแนนเฉลี่ย
- เนื่องจากไม่ได้ใช้หัวข้อบนลีดเดอร์บอร์ดระหว่างการพัฒนา จึงถูกมองว่าเป็น ผลของการทำให้เป็นทั่วไปเชิงโครงสร้างอย่างแท้จริง
การค้นพบ “วงจรเชิงหน้าที่” ของ Transformer
- การรันซ้ำเพียงเลเยอร์เดียวไม่ให้ผล แต่ การรันซ้ำเป็นบล็อกของเลเยอร์ที่ต่อเนื่องกัน กลับทำให้ประสิทธิภาพดีขึ้น
- หมายความว่าเลเยอร์กลางไม่ได้ทำงานเป็นการคำนวณซ้ำอย่างอิสระ แต่ทำงานเป็น วงจรการคำนวณหลายขั้นตอน (circuit)
- ตัวอย่างเช่น เลเยอร์ 46~52 ทำงานเป็นเหมือน “สูตร” ที่ดำเนินการให้เหตุผลทีละขั้น
- เมื่อรันทั้งบล็อกซ้ำ จะเกิดผลเหมือน ทำกระบวนการให้เหตุผลอีกรอบหนึ่ง
การวิเคราะห์ Heatmap และ “LLM Neuroanatomy”
- ฮีตแมป ที่แสดงประสิทธิภาพของแต่ละคู่ (i, j) มีรูปแบบคล้าย fMRI
- ในทาสก์คณิตศาสตร์ การรันซ้ำเลเยอร์กลางช่วยให้ดีขึ้น ขณะที่ทาสก์ EQ ดีขึ้นในอีกบริเวณหนึ่ง
- สิ่งนี้ชี้ว่าภายใน Transformer มีวงจรเชิงหน้าที่เฉพาะตามประเภทงาน
ผลข้างเคียงจากการคัดลอกที่ไม่ถูกต้อง
- บางชุดทำให้โมเดลเกิด การวนซ้ำทางภาษาที่ผิดปกติและเอาต์พุตหลงผิด
- สิ่งนี้ถูกเปรียบเทียบว่าเป็นผลจากการขยายวงจรบางชุดมากเกินไป หรือเหมือน “ความเสียหายของสมองเทียม”
- ตัวอย่างเช่น เมื่อวงจรด้านความเหมาะสมทางสังคมเสียหาย ก็จะเกิดรูปแบบการสนทนาที่ผิดปกติ
งานวิจัยต่อยอดและโมเดลที่สืบทอดมา
- บนพื้นฐานของ RYS-XLarge มีนักวิจัยหลายคนทำ fine-tuning และการฝึกแบบ ORPO เพิ่มเติม
- ณ ต้นปี 2026 โมเดล 4 อันดับแรกบนลีดเดอร์บอร์ดล้วนเป็น โมเดล 78B ที่อิงโครงสร้าง RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys เป็นต้น
การขยายเชิงโครงสร้างและความหมาย
- การคัดลอกเลเยอร์ เป็นอิสระจาก fine-tuning และทำควบคู่กันได้
- มันไม่ใช่วิธีเปลี่ยนว่าโมเดล “รู้อะไร” แต่เป็นวิธีเปลี่ยนว่าโมเดล “คิดอย่างไร”
- ยิ่งโมเดลมีขนาดใหญ่ พื้นที่การทำงานยิ่งแยกหน้าที่ชัดเจน ทำให้การคัดลอกระดับวงจรมีประสิทธิผล
- ส่วนโมเดลขนาดเล็ก ฟังก์ชันการเข้ารหัส การให้เหตุผล และการถอดรหัสยังพันกันอยู่ จึงให้ผลแบบเดียวกันได้จำกัด
แผนต่อไป
- กำลังนำเทคนิคเดียวกันนี้ไปใช้กับโมเดลใหม่อย่าง Qwen, MiniMax, GLM และอื่น ๆ
- ยืนยันว่าแต่ละโมเดลมี “โครงสร้างประสาทกายวิภาค” เฉพาะตัว
- มีแผน เปิดเผยโค้ดและปล่อยซีรีส์ RYS เพิ่มเติมในอนาคต
- ผู้เขียนอธิบายว่า “ตอนนี้เราไม่ได้ผ่าสมองหนูแล้ว แต่กำลังผ่าสมองเทียม”
บทสรุป
- การทดลองที่ เพิ่มประสิทธิภาพ LLM ได้ด้วยการคัดลอกเลเยอร์เท่านั้น โดยไม่ต้องเปลี่ยนน้ำหนัก
- เป็นหลักฐานเชิงประจักษ์ว่าภายใน Transformer มี วงจรเชิงหน้าที่และการแยกโครงสร้างตามหน้าที่
- และชี้ทิศทางใหม่ให้กับทั้ง ความสามารถในการตีความโมเดล (mechanistic interpretability) และ การขยายสถาปัตยกรรมอย่างมีประสิทธิภาพ
1 ความคิดเห็น
ความเห็นจาก Hacker News
น่าประหลาดใจที่จำนวนคอมเมนต์เมื่อเทียบกับคะแนนนั้น ไม่สมดุล กันขนาดนี้
เนื้อหาในบทความแน่นมาก และน่าประทับใจที่อธิบายเรื่องเทคนิคได้ดีจนคนทั่วไปก็เข้าใจได้
โดยเฉพาะประเด็นที่ว่า “การที่ Goliath ใช้งานได้จริงนั้นน่าทึ่งในตัวมันเอง” ผมคิดว่านี่คือแก่นสำคัญ เลยสงสัยว่าทำไมนักวิจัยถึงไม่ได้ให้ความสนใจกับเรื่องนี้มากกว่านี้
อีกอย่าง เส้นทางที่ผู้เขียนเริ่มจากการวิจัยสมองในสาขาชีววิทยา แล้วมาเล่น AI อยู่ในห้องใต้ดินที่เต็มไปด้วย GPU(?) ก็น่าสนใจเหมือนกัน
เหมือนกับที่เคอร์เนลของชั้นแรก ๆ ใน CNN มักจะลู่เข้าเป็น Gabor filter ชั้นภายในของ LLM ก็น่าจะลู่เข้าไปสู่ การเหมาะที่สุดทางคณิตศาสตร์แบบสากล อย่างประสิทธิภาพพลังงาน การบีบอัดข้อมูล และการปรับเอนโทรปีให้เหมาะสม
ชอบมากที่เขาเล่าเส้นทางการค้นพบอย่างละเอียด กระบวนการน่าสนใจกว่าผลลัพธ์เสียอีก
โดยเฉพาะส่วนที่ใช้ การให้เหตุผลเชิงนามธรรมแบบซ้อนทับ เพื่อเพิ่มประสิทธิภาพ และส่วนที่ใช้ heatmap ทำให้เห็นภาพการกระจายความน่าจะเป็นได้ชัดเจนมาก
งานวิจัยที่เกี่ยวข้องก็กำลังค่อย ๆ ไล่ตามมา
แต่โมเดลแบบ SOLAR สุดท้ายก็น่าจะชนข้อจำกัดอยู่ดี ดูจาก heatmap จะเห็นว่า transformer stack เริ่มจากน้ำหนักแบบสุ่ม แล้วระหว่างการฝึกก็ค่อย ๆ เปลี่ยนเป็นโครงสร้างเฉพาะทางเหมือน ‘อวัยวะ’
อวัยวะแบบ ‘token-to-thought’ กับ ‘thought-to-token’ ควรมีอย่างละชิ้นเดียว สุดท้ายแล้ว โครงสร้างเฉพาะทาง น่าจะชนะเสมอ
เห็นด้วยกับประโยคที่ว่า “การที่ Goliath ใช้งานได้จริงนั้นน่าทึ่ง”
ก่อนหน้านี้ก็มีการทดลองเอาหลายโมเดลมารวมกันอยู่บ้าง แต่ส่วนใหญ่เป็นแค่ การทดลองของคอมมูนิตี้ บน Reddit หรือ Discord มากกว่า นักวิจัยในมหาวิทยาลัยหรือในบริษัทไม่ได้สนใจมากนัก
ถึงอย่างนั้นก็ยังอยากรู้ว่าถ้าเอาชั้นของโมเดลที่ต่างกันมากอย่าง Llama กับ Qwen มาผสมกัน จะยังทำงานได้ไหม
อีกเรื่องที่น่าสนใจคือทำไม LLM ถึงมักพลาดแบบแปลก ๆ ในโจทย์เลขคณิต เช่น ลืมเลขหลักสุดท้ายหรือสลับลำดับตัวเลข อยากลองทดสอบดูว่าถ้าบังคับ การ parse ไวยากรณ์ จะช่วยได้ไหม
ไอเดียที่ว่าอาจมี ภาษากลางทางการรับรู้ (cognitive lingua franca) ซ่อนอยู่ภายใน LLM เป็นอะไรที่น่าสนใจมาก
ถ้าใช้สิ่งนี้ได้ เราอาจสร้าง คลังความรู้แบบเสียบเพิ่มได้ ก็ได้
ถ้าสร้างโมเดลขนาดเล็กที่เสียบเฉพาะความรู้ที่ต้องใช้ เราก็อาจคงความทันสมัยของความรู้ไว้ได้โดยไม่ต้องฝึกใหม่ทั้งโมเดล
สิ่งที่ผู้เขียนพูดเรื่อง latent space reasoning น่าประทับใจจริง ๆ
แค่คัดลอกชั้นก็ทำให้การฝึกยังย้อนกลับผ่าน backpropagation ได้ น่าทึ่งมาก
เลยอยากรู้ว่าถ้าเอาชั้นที่คัดลอกแล้วมาวนซ้ำเป็น loop ประสิทธิภาพจะเปลี่ยนอย่างไร ถ้าเทียบกับโมเดล MoE ก็อาจช่วยดูได้ว่าแต่ละชั้นทำงานเหมือนผู้เชี่ยวชาญอิสระหรือไม่
แต่การทดลองคัดลอกหลายช่วงชั้นพร้อมกัน แล้วให้ meta-model ที่ใช้ XGBoost ทำนายการรวมผล กลับน่าสนใจมาก และใช้กับ MoE ได้ดีด้วย
เพียงแต่ภรรยาผมไม่ได้ชอบการเสียเวลาแบบนี้นัก(?)
แนวคิดเรื่อง ‘ผ่าตัดสมอง’ ของ LLM นั้นชวนหลงใหลมาก ตอนที่ llama.cpp เริ่มรองรับโมเดล vision ผมเคยลองทำ embedding บางส่วนที่ projector สร้างขึ้นให้เป็น 0 แล้วให้ LLM อธิบายภาพ
ปรากฏว่ามันสร้างรายละเอียดที่ไม่มีอยู่จริงขึ้นมาได้อย่างน่าทึ่ง เช่น คนหรือฉากหลัง ที่ไม่เคยมีอยู่
สักวันหนึ่งอยากทดลองอย่างเป็นระบบว่ามิติของเวกเตอร์แต่ละตัวสัมพันธ์กับความหมายอย่างไร
ผมเองก็มีลางสังหรณ์คล้ายกันเกี่ยวกับ การใช้ชั้นกลาง
ผมเริ่มจัดระเบียบความคิดหลังดู วิดีโอ YouTube นี้ แล้วได้ข้อสรุปว่ายิ่งวนชั้นซ้ำมากเท่าไร ลำดับของชั้นก็ยิ่งไม่จำเป็นต้องตายตัว
ถ้าระหว่างการวนซ้ำมีบางชั้นที่ไม่จำเป็นและข้ามได้ หรือมีแค่บางชั้นที่ควรวนซ้ำ สุดท้ายมันอาจลงเอยเป็น โมเดล MOE แบบชั้นเดียว ก็ได้
อาจมีแนวคิดแบบปุ่มปรับ ความเข้มข้นของการให้เหตุผล เพื่อกำหนดว่า “จะคิดลึกแค่ไหน” ด้วย
ถึงอย่างนั้น การลองสุ่มลำดับการเรียก transformer block แล้วดูว่าประสิทธิภาพเปลี่ยนอย่างไร ก็น่าจะน่าสนใจ
ระหว่างอ่านบทความ ผมรู้สึกคล้อยตามกับแนวคิดเรื่อง โครงสร้างเชิงเรขาคณิตของความรู้
วิธีคิดแบบ generalist ที่ข้ามสาขาไปมาได้น่าจะสะท้อนโครงสร้างประสาทแบบนี้
อ่านแล้ววันนี้อารมณ์ดีขึ้นเลย
น่าสนใจที่ดูเหมือนว่าจะมีบล็อกชั้นอยู่ราว 7 ชั้นที่ทำงานได้ และถ้ามากหรือน้อยกว่านั้นกลับใช้ไม่ได้
นี่อาจบ่งชี้ว่าภายใน transformer มี หน่วยการทำงาน (‘อวัยวะ’) ที่เรายังไม่เข้าใจอยู่
เลยอยากรู้ว่าในสถาปัตยกรรมอื่นนอกจาก Qwen เช่น Llama หรือ Mistral จะมี ‘เวทมนตร์ 7 ชั้น’ แบบเดียวกันไหม
พอมองจากไอเดียนี้ ก็มีสองคำถามโผล่ขึ้นมา
ถ้าโมเดลทนต่อการดัดแปลงชั้นภายในได้มากขนาดนี้ ก็อาจไม่จำเป็นต้องให้ทุกโทเคนวิ่งผ่านทุกชั้นเสมอไป
ถ้าสร้างโมเดลที่ปรับจำนวนรอบการวนตามความยากของปัญหาได้ โจทย์ง่ายก็จะตอบได้เร็ว ส่วนโจทย์ยากก็ใช้การให้เหตุผลที่ลึกขึ้นได้
ระหว่างการฝึก อาจสอนให้มันประเมิน confidence ของตัวเองเพื่อใช้ตัดสินว่าจำเป็นต้องคำนวณเพิ่มหรือไม่