11 คะแนน โดย davespark 2026-03-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

David Noel Ng นักพัฒนา ใช้วิธีที่เรียบง่ายมากกับโมเดล Qwen2-72B โดยให้ ช่วงเลเยอร์กลาง 7 ชั้นผ่านซ้ำอีกครั้ง ทำให้ขึ้นอันดับ 1 บน HuggingFace Open LLM leaderboard ปี 2024 ได้โดยไม่ต้องแตะทั้ง weights หรือ fine-tuning เลย

ประเด็นสำคัญ

  • ใน Qwen2-72B (ทั้งหมด 80 เลเยอร์) มีการปรับโมเดลโดยให้ช่วงกลางบางช่วง (เลเยอร์ 45~51 รวม 7 ชั้น) ผ่านอีกหนึ่งรอบ
    → พารามิเตอร์เพิ่มจาก 72B → ราว 78B แต่ ไม่มีการเพิ่มน้ำหนักใหม่แม้แต่ตัวเดียว

  • ผลลัพธ์ benchmark

    • MATH Lvl 5: +8.16%
    • MuSR: +17.72%
    • จาก 6 benchmark หลัก มี 5 รายการที่ประสิทธิภาพดีขึ้น → ทำคะแนนเฉลี่ยจนขึ้นอันดับ 1 บนลีดเดอร์บอร์ด

ทำไมถึงได้ผล?

  • มีสมมติฐานว่าในโมเดลทรานส์ฟอร์เมอร์มี ‘วงจร (circuit)’ ที่แยกหน้าที่กันอยู่ภายใน (LLM Neuroanatomy)
  • เลเยอร์ช่วงต้น: เข้ารหัสอินพุต
  • เลเยอร์ช่วงกลาง: ส่วนที่ใช้อนุมานและคิดจริง (มีวงจรเฉพาะสำหรับคณิตศาสตร์ การเข้าใจอารมณ์ ฯลฯ)
  • เลเยอร์ช่วงท้าย: ถอดรหัสเอาต์พุต
    → หากให้วงจรอนุมานตรงกลางทำงานซ้ำอีกครั้ง ฟังก์ชันนั้นก็จะถูกเสริมให้แข็งแรงขึ้น

วิธีทดลอง
ใช้ RTX 4090 จำนวน 2 ใบ สำรวจครบทุกชุดผสมของช่วงเลเยอร์ 3,241 แบบ → วิเคราะห์ด้วย heatmap
→ พบแพตเทิร์นว่าหากให้เฉพาะบางช่วง (45~52) ทำงานซ้ำ ประสิทธิภาพจะพุ่งขึ้นอย่างมาก

อินไซต์เพิ่มเติม

  • การทำซ้ำเลเยอร์เดี่ยว → ประสิทธิภาพลดลง
  • การทำซ้ำเป็นบล็อกหลายเลเยอร์ → เสริมฟังก์ชันเฉพาะบางอย่าง
  • หลังจากนั้น โมเดลที่ต่อยอดจากไอเดียนี้ (RYS-XLarge → calme-3.2 เป็นต้น) ก็ขึ้นไปอยู่กลุ่มบนของลีดเดอร์บอร์ดในช่วงต้นปี 2026 ได้เช่นกัน

สรุป
LLM ไม่ได้เป็นเพียงการซ้อนเลเยอร์ธรรมดา แต่มี วงจรที่แยกหน้าที่เชิงฟังก์ชันเหมือนสมอง อยู่ภายใน
การค้นหาวงจรเหล่านี้แล้วให้มันทำงานซ้ำ ก็อาจยกระดับประสิทธิภาพได้มากโดยไม่ต้องแตะน้ำหนักเลย

https://aisparkup.com/posts/9997

1 ความคิดเห็น

 
sygys10293 2026-03-13

> ดูเหมือนว่ายิ่งโมเดลเล็กเท่าไร โครงสร้างก็ยิ่งซับซ้อนมากขึ้นเท่านั้น ฟังก์ชันการเข้ารหัส การอนุมาน และการถอดรหัสมีการพันกันอย่างซับซ้อนและกระจายอยู่ทั่วทั้งโมเดล ผมไม่พบพื้นที่ซ้ำซ้อนของฟังก์ชันที่สามารถทำให้ทั่วไปได้ข้ามหลายงานเลย แต่มีอยู่จุดหนึ่งที่ชัดเจนมาก คือการเสริม "ความสามารถ" อย่างหนึ่งสามารถทำให้อีกความสามารถหนึ่งอ่อนลงได้ อย่างไรก็ตาม เมื่อโมเดลมีขนาดใหญ่ขึ้น โครงสร้างเชิงหน้าที่ก็จะแยกออกจากกันมากขึ้น โมเดลขนาดใหญ่มี "พื้นที่" มากพอที่จะพัฒนาวงจร "การคิด" แบบทั่วไปได้ และนี่อาจเป็นเหตุผลว่าทำไมวิธีของผมจึงได้ผลอย่างมากกับโมเดล 72B ต่ำกว่าค่าเกณฑ์บางอย่างของพารามิเตอร์ "เปลือกสมองสำหรับการอนุมาน" จะยังไม่แยกตัวอย่างสมบูรณ์จากส่วนที่เหลือของสมอง

ถ้าเป็นแบบนี้ต่อไป ช่องว่างด้านประสิทธิภาพระหว่างโมเดลเล็กกับโมเดลใหญ่อาจยิ่งถ่างออกอย่างสุดขั้วก็ได้นะ