1 คะแนน โดย GN⁺ 2026-03-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทำสำเร็จด้วยการ คัดลอก 7 เลเยอร์กลางของ LLM ขนาด 72B พารามิเตอร์ แล้วนำมาจัดเรียงใหม่ จนขึ้นอันดับ 1 บนลีดเดอร์บอร์ดได้โดยไม่ต้องฝึกเพิ่มเติมใด ๆ
  • การทดลองทำบน RTX 4090 สองใบ และไม่ได้แก้ไขน้ำหนักของโมเดล แต่เปลี่ยนเฉพาะโครงสร้างให้ รันเลเยอร์กลางซ้ำ
  • ใช้ พร็อกซีทาสก์ขนาดเล็ก สองแบบคือการให้เหตุผลทางคณิตศาสตร์และการให้เหตุผลทางอารมณ์ (EQ) เพื่อค้นหาช่วงเลเยอร์ที่เหมาะสมที่สุด
  • ผลลัพธ์คือ โมเดล RYS-XLarge ที่อิงบน Qwen2-72B มีคะแนนเฉลี่ยเพิ่มขึ้น +2.61% โดยเฉพาะ MuSR +17.72% และ MATH +8.16%
  • แนวทางนี้ชี้ให้เห็นถึงความเป็นไปได้ของการมีอยู่ของ “วงจรเชิงหน้าที่ (functional circuit)” ภายใน LLM และต่อยอดไปสู่การศึกษาด้าน “โครงสร้างประสาทกายวิภาค” ของโมเดลขนาดใหญ่

Open LLM Leaderboard และที่มาของการทดลอง

  • ในช่วงกลางปี 2024 Open LLM Leaderboard ของ HuggingFace เป็นสนามแข่งขันของโมเดลที่เปิดเผยน้ำหนักสู่สาธารณะ
    • หัวข้อประเมิน: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • ผู้เขียนทำการทดลองโดย ไม่ฝึกโมเดลใหม่หรือทำ fine-tuning แต่ใช้วิธี คัดลอกบางส่วนของเลเยอร์กลาง จากโมเดลเดิม
  • เลเยอร์ที่ถูกคัดลอกคาดว่าเป็นส่วนที่รับหน้าที่ในกระบวนการ “คิด (thinking)” ของโมเดล

เบาะแส 1 – การทดลองสนทนาแบบ Base64

  • สังเกตว่า LLM สามารถ เข้าใจคำถามที่เข้ารหัสเป็น Base64 และตอบกลับที่ถูกต้องเป็น Base64 ได้
  • จากการที่โมเดลยังคงให้เหตุผลได้แม้รูปแบบอินพุตต่างออกไป จึงตั้งสมมติฐานว่า เลเยอร์ต้นทำหน้าที่ตีความอินพุต (translation) และ เลเยอร์ท้ายทำหน้าที่แปลงเอาต์พุตกลับ (re-translation)
  • ดังนั้น เลเยอร์กลางจึงอาจเป็นบริเวณที่ทำหน้าที่คิดเชิงนามธรรม

เบาะแส 2 – โครงสร้างผิดปกติของโมเดล Goliath-120B

  • Goliath-120B ของ HuggingFace มีโครงสร้างที่นำโมเดล Llama-2 70B สองตัวมาสลับเชื่อมกัน โดย ป้อนเอาต์พุตของเลเยอร์ท้ายกลับเข้าไปเป็นอินพุตของเลเยอร์ต้น
  • พบว่าแม้จะเป็นโครงสร้างที่อยู่นอกการกระจายของการฝึกตามปกติ โมเดลก็ยังทำงานได้
  • สิ่งนี้บ่งชี้ว่า รีเพรเซนเทชันระหว่างเลเยอร์สามารถใช้งานร่วมกันได้ และ รีเพรเซนเทชันภายใน Transformer มีความเป็นเนื้อเดียวกัน (homogenous)

การสร้าง “brain scanner”

  • สร้างไปป์ไลน์เพื่อทดสอบ ทุกคู่ช่วงเลเยอร์ (i, j) ของโมเดล Qwen2-72B รวม 3,241 ชุด
  • ในแต่ละชุด จะปรับโมเดลให้ ผ่านช่วงเลเยอร์ที่กำหนดสองรอบ
  • เกณฑ์การประเมินต้องผ่าน 3 เงื่อนไข
    • ลดความยาวเอาต์พุตให้น้อยที่สุด (เพื่อความเร็ว)
    • ให้คะแนนแบบวัตถุวิสัยได้
    • มีความเป็นอิสระเชิงการรับรู้ (ถ้าดีขึ้นพร้อมกันทั้งสองทาสก์ จะถือว่าเป็นการปรับปรุงเชิงโครงสร้าง)

การออกแบบพร็อกซีทาสก์

  • Hard Math Probe: ประเมินคำตอบของโจทย์เลขคณิตที่ซับซ้อนโดยตรง
  • EQ-Bench Probe: ทำนายความเข้มของอารมณ์ในสถานการณ์ทางสังคมเป็นค่า 0~100
  • ทั้งสองทาสก์มี เอาต์พุตสั้นและคำตอบชัดเจน จึงเหมาะกับการวัดการเปลี่ยนแปลงเชิงโครงสร้าง

ฟังก์ชันให้คะแนนคณิตศาสตร์และการประเมินคำตอบบางส่วน

  • พัฒนาฟังก์ชันคำนวณ คะแนนความตรงกันบางส่วน เพื่อรองรับข้อผิดพลาดเชิงตัวเลขของ LLM เช่น หลุดหลักหรือสลับตำแหน่งตัวเลข
  • โดยแพดคำตอบสั้นและคำนวณความคลาดเคลื่อนสัมพัทธ์ เพื่อ แปลงความถูกต้องเป็นคะแนนต่อเนื่อง
  • ทำให้สามารถแยกความต่างของประสิทธิภาพเล็กน้อยออกมาเชิงปริมาณได้

โครงสร้างของโมเดล RYS-XLarge

  • ชุดที่ดีที่สุดคือ (45, 52) ซึ่งหมายถึงการรันเลเยอร์ 45~51 ซ้ำอีกหนึ่งรอบ
  • สรุปคือมีการ คัดลอก 7 เลเยอร์กลาง ทำให้พารามิเตอร์รวมเพิ่มจาก 72B → 78B
  • เปลี่ยนเฉพาะโครงสร้างโดยไม่แตะน้ำหนัก, และทำผ่านการคัดลอกพอยน์เตอร์จึงไม่ต้องใช้ VRAM เพิ่ม

ผลลัพธ์บนลีดเดอร์บอร์ด

รายการ คะแนน การปรับดีขึ้นเมื่อเทียบฐาน
ค่าเฉลี่ย 44.75 +2.61%
MATH Lvl 5 38.97 +8.16%
MuSR 23.72 +17.72%
BBH +2.51%
GPQA +2.58%
IFEval -2.05%
  • ดีขึ้นใน 5 รายการ และขึ้นอันดับ 1 บนลีดเดอร์บอร์ดด้วยคะแนนเฉลี่ย
  • เนื่องจากไม่ได้ใช้หัวข้อบนลีดเดอร์บอร์ดระหว่างการพัฒนา จึงถูกมองว่าเป็น ผลของการทำให้เป็นทั่วไปเชิงโครงสร้างอย่างแท้จริง

การค้นพบ “วงจรเชิงหน้าที่” ของ Transformer

  • การรันซ้ำเพียงเลเยอร์เดียวไม่ให้ผล แต่ การรันซ้ำเป็นบล็อกของเลเยอร์ที่ต่อเนื่องกัน กลับทำให้ประสิทธิภาพดีขึ้น
  • หมายความว่าเลเยอร์กลางไม่ได้ทำงานเป็นการคำนวณซ้ำอย่างอิสระ แต่ทำงานเป็น วงจรการคำนวณหลายขั้นตอน (circuit)
  • ตัวอย่างเช่น เลเยอร์ 46~52 ทำงานเป็นเหมือน “สูตร” ที่ดำเนินการให้เหตุผลทีละขั้น
    • เมื่อรันทั้งบล็อกซ้ำ จะเกิดผลเหมือน ทำกระบวนการให้เหตุผลอีกรอบหนึ่ง

การวิเคราะห์ Heatmap และ “LLM Neuroanatomy”

  • ฮีตแมป ที่แสดงประสิทธิภาพของแต่ละคู่ (i, j) มีรูปแบบคล้าย fMRI
  • ในทาสก์คณิตศาสตร์ การรันซ้ำเลเยอร์กลางช่วยให้ดีขึ้น ขณะที่ทาสก์ EQ ดีขึ้นในอีกบริเวณหนึ่ง
  • สิ่งนี้ชี้ว่าภายใน Transformer มีวงจรเชิงหน้าที่เฉพาะตามประเภทงาน

ผลข้างเคียงจากการคัดลอกที่ไม่ถูกต้อง

  • บางชุดทำให้โมเดลเกิด การวนซ้ำทางภาษาที่ผิดปกติและเอาต์พุตหลงผิด
  • สิ่งนี้ถูกเปรียบเทียบว่าเป็นผลจากการขยายวงจรบางชุดมากเกินไป หรือเหมือน “ความเสียหายของสมองเทียม”
  • ตัวอย่างเช่น เมื่อวงจรด้านความเหมาะสมทางสังคมเสียหาย ก็จะเกิดรูปแบบการสนทนาที่ผิดปกติ

งานวิจัยต่อยอดและโมเดลที่สืบทอดมา

  • บนพื้นฐานของ RYS-XLarge มีนักวิจัยหลายคนทำ fine-tuning และการฝึกแบบ ORPO เพิ่มเติม
  • ณ ต้นปี 2026 โมเดล 4 อันดับแรกบนลีดเดอร์บอร์ดล้วนเป็น โมเดล 78B ที่อิงโครงสร้าง RYS
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys เป็นต้น

การขยายเชิงโครงสร้างและความหมาย

  • การคัดลอกเลเยอร์ เป็นอิสระจาก fine-tuning และทำควบคู่กันได้
  • มันไม่ใช่วิธีเปลี่ยนว่าโมเดล “รู้อะไร” แต่เป็นวิธีเปลี่ยนว่าโมเดล “คิดอย่างไร”
  • ยิ่งโมเดลมีขนาดใหญ่ พื้นที่การทำงานยิ่งแยกหน้าที่ชัดเจน ทำให้การคัดลอกระดับวงจรมีประสิทธิผล
  • ส่วนโมเดลขนาดเล็ก ฟังก์ชันการเข้ารหัส การให้เหตุผล และการถอดรหัสยังพันกันอยู่ จึงให้ผลแบบเดียวกันได้จำกัด

แผนต่อไป

  • กำลังนำเทคนิคเดียวกันนี้ไปใช้กับโมเดลใหม่อย่าง Qwen, MiniMax, GLM และอื่น ๆ
  • ยืนยันว่าแต่ละโมเดลมี “โครงสร้างประสาทกายวิภาค” เฉพาะตัว
  • มีแผน เปิดเผยโค้ดและปล่อยซีรีส์ RYS เพิ่มเติมในอนาคต
  • ผู้เขียนอธิบายว่า “ตอนนี้เราไม่ได้ผ่าสมองหนูแล้ว แต่กำลังผ่าสมองเทียม”

บทสรุป

  • การทดลองที่ เพิ่มประสิทธิภาพ LLM ได้ด้วยการคัดลอกเลเยอร์เท่านั้น โดยไม่ต้องเปลี่ยนน้ำหนัก
  • เป็นหลักฐานเชิงประจักษ์ว่าภายใน Transformer มี วงจรเชิงหน้าที่และการแยกโครงสร้างตามหน้าที่
  • และชี้ทิศทางใหม่ให้กับทั้ง ความสามารถในการตีความโมเดล (mechanistic interpretability) และ การขยายสถาปัตยกรรมอย่างมีประสิทธิภาพ

1 ความคิดเห็น

 
GN⁺ 2026-03-11
ความเห็นจาก Hacker News
  • น่าประหลาดใจที่จำนวนคอมเมนต์เมื่อเทียบกับคะแนนนั้น ไม่สมดุล กันขนาดนี้
    เนื้อหาในบทความแน่นมาก และน่าประทับใจที่อธิบายเรื่องเทคนิคได้ดีจนคนทั่วไปก็เข้าใจได้
    โดยเฉพาะประเด็นที่ว่า “การที่ Goliath ใช้งานได้จริงนั้นน่าทึ่งในตัวมันเอง” ผมคิดว่านี่คือแก่นสำคัญ เลยสงสัยว่าทำไมนักวิจัยถึงไม่ได้ให้ความสนใจกับเรื่องนี้มากกว่านี้
    อีกอย่าง เส้นทางที่ผู้เขียนเริ่มจากการวิจัยสมองในสาขาชีววิทยา แล้วมาเล่น AI อยู่ในห้องใต้ดินที่เต็มไปด้วย GPU(?) ก็น่าสนใจเหมือนกัน

    • โปรเจ็กต์ optogenetics กับ CRISPR/Cas9 ก่อนหน้านี้ก็มีแผนจะเอามาลงบล็อกด้วย
      1. งานอื่น ๆ (เช่น Solar10.7B) ก็เคยลองแนวทางคล้ายกัน แต่มีการยืนยันเชิงทดลองแล้วว่าการคัดลอก transformer stack ทั้งก้อนไม่ใช่ไอเดียที่ดี เพราะมันเหมือนการคัดลอก ‘อวัยวะ’ ซ้ำทั้งชิ้น ทำให้ประสิทธิภาพลดลง
      2. งานวิจัยทางชีววิทยาสนุกดี แต่ การรีวิวเปเปอร์กับการขอทุนวิจัย ไม่เข้าทางผม เลยเริ่มเขียนบล็อกในฐานะนักวิจัยอิสระ หวังว่าสักวันจะมีคนอ้างอิงงานนี้
    • อุปมาเรื่องเอาสมองแมวไปใส่หัวสุนัขนี่ตลกดี จริง ๆ แล้วผมไม่ได้คิดว่ามันน่าแปลกใจมาก
      เหมือนกับที่เคอร์เนลของชั้นแรก ๆ ใน CNN มักจะลู่เข้าเป็น Gabor filter ชั้นภายในของ LLM ก็น่าจะลู่เข้าไปสู่ การเหมาะที่สุดทางคณิตศาสตร์แบบสากล อย่างประสิทธิภาพพลังงาน การบีบอัดข้อมูล และการปรับเอนโทรปีให้เหมาะสม
  • ชอบมากที่เขาเล่าเส้นทางการค้นพบอย่างละเอียด กระบวนการน่าสนใจกว่าผลลัพธ์เสียอีก
    โดยเฉพาะส่วนที่ใช้ การให้เหตุผลเชิงนามธรรมแบบซ้อนทับ เพื่อเพิ่มประสิทธิภาพ และส่วนที่ใช้ heatmap ทำให้เห็นภาพการกระจายความน่าจะเป็นได้ชัดเจนมาก
    งานวิจัยที่เกี่ยวข้องก็กำลังค่อย ๆ ไล่ตามมา

    • SOLAR / DUS (Kim et al., 2023): คัดลอกชั้น transformer เพื่อสร้างโมเดล 10.7B และได้ผลดีกว่าโมเดล 30B
    • The Curse of Depth (2025): อธิบายว่าโครงสร้าง Pre-LN ทำให้ชั้นลึก ๆ ลู่เข้าไปเป็น identity function และชั้นกลางต่างหากที่ทำการคำนวณจริง
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): เสนอแนวทางขยาย ความลึกของการให้เหตุผล ด้วยการใช้ recurrent block เดียวซ้ำ ๆ
    • ขอบคุณสำหรับคำชม!
      แต่โมเดลแบบ SOLAR สุดท้ายก็น่าจะชนข้อจำกัดอยู่ดี ดูจาก heatmap จะเห็นว่า transformer stack เริ่มจากน้ำหนักแบบสุ่ม แล้วระหว่างการฝึกก็ค่อย ๆ เปลี่ยนเป็นโครงสร้างเฉพาะทางเหมือน ‘อวัยวะ’
      อวัยวะแบบ ‘token-to-thought’ กับ ‘thought-to-token’ ควรมีอย่างละชิ้นเดียว สุดท้ายแล้ว โครงสร้างเฉพาะทาง น่าจะชนะเสมอ
  • เห็นด้วยกับประโยคที่ว่า “การที่ Goliath ใช้งานได้จริงนั้นน่าทึ่ง”
    ก่อนหน้านี้ก็มีการทดลองเอาหลายโมเดลมารวมกันอยู่บ้าง แต่ส่วนใหญ่เป็นแค่ การทดลองของคอมมูนิตี้ บน Reddit หรือ Discord มากกว่า นักวิจัยในมหาวิทยาลัยหรือในบริษัทไม่ได้สนใจมากนัก
    ถึงอย่างนั้นก็ยังอยากรู้ว่าถ้าเอาชั้นของโมเดลที่ต่างกันมากอย่าง Llama กับ Qwen มาผสมกัน จะยังทำงานได้ไหม
    อีกเรื่องที่น่าสนใจคือทำไม LLM ถึงมักพลาดแบบแปลก ๆ ในโจทย์เลขคณิต เช่น ลืมเลขหลักสุดท้ายหรือสลับลำดับตัวเลข อยากลองทดสอบดูว่าถ้าบังคับ การ parse ไวยากรณ์ จะช่วยได้ไหม

    • การผสมโมเดลต่างชนิดกันน่าจะยากเพราะ ขนาด embedding หรือ ความต่างของชุดคำศัพท์ ต่อให้สถาปัตยกรรมเหมือนกัน แต่ถ้าข้อมูลฝึกต่างกัน การแทนค่าภายในก็อาจต่างกันได้ ถึงอย่างนั้นลองดูก็น่าสนุก
    • หัวข้อแบบนี้เหมาะกับ นักวิจัยสายงานอดิเรก มาก เพราะบริษัทจะโฟกัสกับการ fine-tune โมเดลที่มีอยู่แล้วมากกว่า
    • ตัวเลขหลายหลักมีชุดโทเคนที่เป็นไปได้จำนวนมาก เลยซับซ้อน โค้ดในบล็อกช่วยดึง ตัวชี้วัดที่มีประโยชน์จากคำตอบที่ถูกเพียงบางส่วน ได้
  • ไอเดียที่ว่าอาจมี ภาษากลางทางการรับรู้ (cognitive lingua franca) ซ่อนอยู่ภายใน LLM เป็นอะไรที่น่าสนใจมาก
    ถ้าใช้สิ่งนี้ได้ เราอาจสร้าง คลังความรู้แบบเสียบเพิ่มได้ ก็ได้
    ถ้าสร้างโมเดลขนาดเล็กที่เสียบเฉพาะความรู้ที่ต้องใช้ เราก็อาจคงความทันสมัยของความรู้ไว้ได้โดยไม่ต้องฝึกใหม่ทั้งโมเดล

    • คำว่า “เสียบคลังความรู้เข้าไป” นี่นึกภาพแล้วขำ — LLM: “...ตอนนี้ฉันรู้กังฟูแล้ว”
    • LLM ในอนาคตอาจกลายเป็นสถาปัตยกรรมที่เสียบเลเยอร์ encoding/decoding แบบ มาตรฐาน เข้ากับเลเยอร์ตรรกะ
    • โครงสร้างแบบนี้อาจช่วยลด ภาพหลอน (hallucination) ได้ด้วย
    • จริง ๆ แล้วก็อดคิดไม่ได้ว่านี่คล้ายกับสิ่งที่ LoRA ทำอยู่แล้วหรือเปล่า
  • สิ่งที่ผู้เขียนพูดเรื่อง latent space reasoning น่าประทับใจจริง ๆ
    แค่คัดลอกชั้นก็ทำให้การฝึกยังย้อนกลับผ่าน backpropagation ได้ น่าทึ่งมาก
    เลยอยากรู้ว่าถ้าเอาชั้นที่คัดลอกแล้วมาวนซ้ำเป็น loop ประสิทธิภาพจะเปลี่ยนอย่างไร ถ้าเทียบกับโมเดล MoE ก็อาจช่วยดูได้ว่าแต่ละชั้นทำงานเหมือนผู้เชี่ยวชาญอิสระหรือไม่

    • ผมลองคัดลอกทีละชั้นแล้ว แต่ไม่เห็นผลมากนัก ตรงกันข้าม feedback จาก output→input ส่วนใหญ่กลับให้ผลเสีย
      แต่การทดลองคัดลอกหลายช่วงชั้นพร้อมกัน แล้วให้ meta-model ที่ใช้ XGBoost ทำนายการรวมผล กลับน่าสนใจมาก และใช้กับ MoE ได้ดีด้วย
      เพียงแต่ภรรยาผมไม่ได้ชอบการเสียเวลาแบบนี้นัก(?)
    • LoopLM ก็ดูเหมือนจะพูดถึงไอเดียคล้ายกัน
  • แนวคิดเรื่อง ‘ผ่าตัดสมอง’ ของ LLM นั้นชวนหลงใหลมาก ตอนที่ llama.cpp เริ่มรองรับโมเดล vision ผมเคยลองทำ embedding บางส่วนที่ projector สร้างขึ้นให้เป็น 0 แล้วให้ LLM อธิบายภาพ
    ปรากฏว่ามันสร้างรายละเอียดที่ไม่มีอยู่จริงขึ้นมาได้อย่างน่าทึ่ง เช่น คนหรือฉากหลัง ที่ไม่เคยมีอยู่
    สักวันหนึ่งอยากทดลองอย่างเป็นระบบว่ามิติของเวกเตอร์แต่ละตัวสัมพันธ์กับความหมายอย่างไร

    • ยุคนี้เป็นช่วงเวลาที่ดีมากสำหรับการใช้ชีวิตแบบแฮ็กเกอร์
  • ผมเองก็มีลางสังหรณ์คล้ายกันเกี่ยวกับ การใช้ชั้นกลาง
    ผมเริ่มจัดระเบียบความคิดหลังดู วิดีโอ YouTube นี้ แล้วได้ข้อสรุปว่ายิ่งวนชั้นซ้ำมากเท่าไร ลำดับของชั้นก็ยิ่งไม่จำเป็นต้องตายตัว
    ถ้าระหว่างการวนซ้ำมีบางชั้นที่ไม่จำเป็นและข้ามได้ หรือมีแค่บางชั้นที่ควรวนซ้ำ สุดท้ายมันอาจลงเอยเป็น โมเดล MOE แบบชั้นเดียว ก็ได้
    อาจมีแนวคิดแบบปุ่มปรับ ความเข้มข้นของการให้เหตุผล เพื่อกำหนดว่า “จะคิดลึกแค่ไหน” ด้วย

    • เป็นไอเดียที่น่าสนใจมาก แต่ถ้าสุ่มลำดับชั้นแบบเต็มที่จริง ๆ อาจเจอปัญหา การระเบิดของจำนวนชุดผสม ได้
      ถึงอย่างนั้น การลองสุ่มลำดับการเรียก transformer block แล้วดูว่าประสิทธิภาพเปลี่ยนอย่างไร ก็น่าจะน่าสนใจ
  • ระหว่างอ่านบทความ ผมรู้สึกคล้อยตามกับแนวคิดเรื่อง โครงสร้างเชิงเรขาคณิตของความรู้
    วิธีคิดแบบ generalist ที่ข้ามสาขาไปมาได้น่าจะสะท้อนโครงสร้างประสาทแบบนี้
    อ่านแล้ววันนี้อารมณ์ดีขึ้นเลย

    • ขอบคุณ
  • น่าสนใจที่ดูเหมือนว่าจะมีบล็อกชั้นอยู่ราว 7 ชั้นที่ทำงานได้ และถ้ามากหรือน้อยกว่านั้นกลับใช้ไม่ได้
    นี่อาจบ่งชี้ว่าภายใน transformer มี หน่วยการทำงาน (‘อวัยวะ’) ที่เรายังไม่เข้าใจอยู่
    เลยอยากรู้ว่าในสถาปัตยกรรมอื่นนอกจาก Qwen เช่น Llama หรือ Mistral จะมี ‘เวทมนตร์ 7 ชั้น’ แบบเดียวกันไหม

  • พอมองจากไอเดียนี้ ก็มีสองคำถามโผล่ขึ้นมา

    1. เราควร ฝึกโมเดลให้เป็นโครงสร้างแบบวนลูปตั้งแต่ต้น เลยหรือไม่?
    2. การใช้ จำนวนชั้นที่ตายตัว ยังเป็นแนวทางที่ถูกต้องหรือเปล่า?
      ถ้าโมเดลทนต่อการดัดแปลงชั้นภายในได้มากขนาดนี้ ก็อาจไม่จำเป็นต้องให้ทุกโทเคนวิ่งผ่านทุกชั้นเสมอไป
      ถ้าสร้างโมเดลที่ปรับจำนวนรอบการวนตามความยากของปัญหาได้ โจทย์ง่ายก็จะตอบได้เร็ว ส่วนโจทย์ยากก็ใช้การให้เหตุผลที่ลึกขึ้นได้
      ระหว่างการฝึก อาจสอนให้มันประเมิน confidence ของตัวเองเพื่อใช้ตัดสินว่าจำเป็นต้องคำนวณเพิ่มหรือไม่