Qwen2-72B โคลนเลเยอร์กลาง 7 ชั้น ครองอันดับ 1 บนลีดเดอร์บอร์ด โดยไม่แตะน้ำหนักแม้แต่นิดเดียว
(dnhkng.github.io)David Noel Ng นักพัฒนา ใช้วิธีที่เรียบง่ายมากกับโมเดล Qwen2-72B โดยให้ ช่วงเลเยอร์กลาง 7 ชั้นผ่านซ้ำอีกครั้ง ทำให้ขึ้นอันดับ 1 บน HuggingFace Open LLM leaderboard ปี 2024 ได้โดยไม่ต้องแตะทั้ง weights หรือ fine-tuning เลย
ประเด็นสำคัญ
-
ใน Qwen2-72B (ทั้งหมด 80 เลเยอร์) มีการปรับโมเดลโดยให้ช่วงกลางบางช่วง (เลเยอร์ 45~51 รวม 7 ชั้น) ผ่านอีกหนึ่งรอบ
→ พารามิเตอร์เพิ่มจาก 72B → ราว 78B แต่ ไม่มีการเพิ่มน้ำหนักใหม่แม้แต่ตัวเดียว -
ผลลัพธ์ benchmark
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- จาก 6 benchmark หลัก มี 5 รายการที่ประสิทธิภาพดีขึ้น → ทำคะแนนเฉลี่ยจนขึ้นอันดับ 1 บนลีดเดอร์บอร์ด
ทำไมถึงได้ผล?
- มีสมมติฐานว่าในโมเดลทรานส์ฟอร์เมอร์มี ‘วงจร (circuit)’ ที่แยกหน้าที่กันอยู่ภายใน (LLM Neuroanatomy)
- เลเยอร์ช่วงต้น: เข้ารหัสอินพุต
- เลเยอร์ช่วงกลาง: ส่วนที่ใช้อนุมานและคิดจริง (มีวงจรเฉพาะสำหรับคณิตศาสตร์ การเข้าใจอารมณ์ ฯลฯ)
- เลเยอร์ช่วงท้าย: ถอดรหัสเอาต์พุต
→ หากให้วงจรอนุมานตรงกลางทำงานซ้ำอีกครั้ง ฟังก์ชันนั้นก็จะถูกเสริมให้แข็งแรงขึ้น
วิธีทดลอง
ใช้ RTX 4090 จำนวน 2 ใบ สำรวจครบทุกชุดผสมของช่วงเลเยอร์ 3,241 แบบ → วิเคราะห์ด้วย heatmap
→ พบแพตเทิร์นว่าหากให้เฉพาะบางช่วง (45~52) ทำงานซ้ำ ประสิทธิภาพจะพุ่งขึ้นอย่างมาก
อินไซต์เพิ่มเติม
- การทำซ้ำเลเยอร์เดี่ยว → ประสิทธิภาพลดลง
- การทำซ้ำเป็นบล็อกหลายเลเยอร์ → เสริมฟังก์ชันเฉพาะบางอย่าง
- หลังจากนั้น โมเดลที่ต่อยอดจากไอเดียนี้ (RYS-XLarge → calme-3.2 เป็นต้น) ก็ขึ้นไปอยู่กลุ่มบนของลีดเดอร์บอร์ดในช่วงต้นปี 2026 ได้เช่นกัน
สรุป
LLM ไม่ได้เป็นเพียงการซ้อนเลเยอร์ธรรมดา แต่มี วงจรที่แยกหน้าที่เชิงฟังก์ชันเหมือนสมอง อยู่ภายใน
การค้นหาวงจรเหล่านี้แล้วให้มันทำงานซ้ำ ก็อาจยกระดับประสิทธิภาพได้มากโดยไม่ต้องแตะน้ำหนักเลย
1 ความคิดเห็น
> ดูเหมือนว่ายิ่งโมเดลเล็กเท่าไร โครงสร้างก็ยิ่งซับซ้อนมากขึ้นเท่านั้น ฟังก์ชันการเข้ารหัส การอนุมาน และการถอดรหัสมีการพันกันอย่างซับซ้อนและกระจายอยู่ทั่วทั้งโมเดล ผมไม่พบพื้นที่ซ้ำซ้อนของฟังก์ชันที่สามารถทำให้ทั่วไปได้ข้ามหลายงานเลย แต่มีอยู่จุดหนึ่งที่ชัดเจนมาก คือการเสริม "ความสามารถ" อย่างหนึ่งสามารถทำให้อีกความสามารถหนึ่งอ่อนลงได้ อย่างไรก็ตาม เมื่อโมเดลมีขนาดใหญ่ขึ้น โครงสร้างเชิงหน้าที่ก็จะแยกออกจากกันมากขึ้น โมเดลขนาดใหญ่มี "พื้นที่" มากพอที่จะพัฒนาวงจร "การคิด" แบบทั่วไปได้ และนี่อาจเป็นเหตุผลว่าทำไมวิธีของผมจึงได้ผลอย่างมากกับโมเดล 72B ต่ำกว่าค่าเกณฑ์บางอย่างของพารามิเตอร์ "เปลือกสมองสำหรับการอนุมาน" จะยังไม่แยกตัวอย่างสมบูรณ์จากส่วนที่เหลือของสมอง
ถ้าเป็นแบบนี้ต่อไป ช่องว่างด้านประสิทธิภาพระหว่างโมเดลเล็กกับโมเดลใหญ่อาจยิ่งถ่างออกอย่างสุดขั้วก็ได้นะ