วิธีคว้าอันดับ 1 บน HuggingFace Open LLM Leaderboard — ด้วยการ์ดจอเกมมิง 2 ใบ โดยไม่ต้องเปลี่ยนน้ำหนักโมเดล

(dnhkng.github.io)

1 คะแนน โดย GN⁺ 2026-03-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทำสำเร็จด้วยการ คัดลอก 7 เลเยอร์กลางของ LLM ขนาด 72B พารามิเตอร์ แล้วนำมาจัดเรียงใหม่ จนขึ้นอันดับ 1 บนลีดเดอร์บอร์ดได้โดยไม่ต้องฝึกเพิ่มเติมใด ๆ
การทดลองทำบน RTX 4090 สองใบ และไม่ได้แก้ไขน้ำหนักของโมเดล แต่เปลี่ยนเฉพาะโครงสร้างให้ รันเลเยอร์กลางซ้ำ
ใช้ พร็อกซีทาสก์ขนาดเล็ก สองแบบคือการให้เหตุผลทางคณิตศาสตร์และการให้เหตุผลทางอารมณ์ (EQ) เพื่อค้นหาช่วงเลเยอร์ที่เหมาะสมที่สุด
ผลลัพธ์คือ โมเดล RYS-XLarge ที่อิงบน Qwen2-72B มีคะแนนเฉลี่ยเพิ่มขึ้น +2.61% โดยเฉพาะ MuSR +17.72% และ MATH +8.16%
แนวทางนี้ชี้ให้เห็นถึงความเป็นไปได้ของการมีอยู่ของ “วงจรเชิงหน้าที่ (functional circuit)” ภายใน LLM และต่อยอดไปสู่การศึกษาด้าน “โครงสร้างประสาทกายวิภาค” ของโมเดลขนาดใหญ่

Open LLM Leaderboard และที่มาของการทดลอง

ในช่วงกลางปี 2024 Open LLM Leaderboard ของ HuggingFace เป็นสนามแข่งขันของโมเดลที่เปิดเผยน้ำหนักสู่สาธารณะ
- หัวข้อประเมิน: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
ผู้เขียนทำการทดลองโดย ไม่ฝึกโมเดลใหม่หรือทำ fine-tuning แต่ใช้วิธี คัดลอกบางส่วนของเลเยอร์กลาง จากโมเดลเดิม
เลเยอร์ที่ถูกคัดลอกคาดว่าเป็นส่วนที่รับหน้าที่ในกระบวนการ “คิด (thinking)” ของโมเดล

เบาะแส 1 – การทดลองสนทนาแบบ Base64

สังเกตว่า LLM สามารถ เข้าใจคำถามที่เข้ารหัสเป็น Base64 และตอบกลับที่ถูกต้องเป็น Base64 ได้
จากการที่โมเดลยังคงให้เหตุผลได้แม้รูปแบบอินพุตต่างออกไป จึงตั้งสมมติฐานว่า เลเยอร์ต้นทำหน้าที่ตีความอินพุต (translation) และ เลเยอร์ท้ายทำหน้าที่แปลงเอาต์พุตกลับ (re-translation)
ดังนั้น เลเยอร์กลางจึงอาจเป็นบริเวณที่ทำหน้าที่คิดเชิงนามธรรม

เบาะแส 2 – โครงสร้างผิดปกติของโมเดล Goliath-120B

Goliath-120B ของ HuggingFace มีโครงสร้างที่นำโมเดล Llama-2 70B สองตัวมาสลับเชื่อมกัน โดย ป้อนเอาต์พุตของเลเยอร์ท้ายกลับเข้าไปเป็นอินพุตของเลเยอร์ต้น
พบว่าแม้จะเป็นโครงสร้างที่อยู่นอกการกระจายของการฝึกตามปกติ โมเดลก็ยังทำงานได้
สิ่งนี้บ่งชี้ว่า รีเพรเซนเทชันระหว่างเลเยอร์สามารถใช้งานร่วมกันได้ และ รีเพรเซนเทชันภายใน Transformer มีความเป็นเนื้อเดียวกัน (homogenous)

การสร้าง “brain scanner”

สร้างไปป์ไลน์เพื่อทดสอบ ทุกคู่ช่วงเลเยอร์ (i, j) ของโมเดล Qwen2-72B รวม 3,241 ชุด
ในแต่ละชุด จะปรับโมเดลให้ ผ่านช่วงเลเยอร์ที่กำหนดสองรอบ
เกณฑ์การประเมินต้องผ่าน 3 เงื่อนไข
- ลดความยาวเอาต์พุตให้น้อยที่สุด (เพื่อความเร็ว)
- ให้คะแนนแบบวัตถุวิสัยได้
- มีความเป็นอิสระเชิงการรับรู้ (ถ้าดีขึ้นพร้อมกันทั้งสองทาสก์ จะถือว่าเป็นการปรับปรุงเชิงโครงสร้าง)

การออกแบบพร็อกซีทาสก์

Hard Math Probe: ประเมินคำตอบของโจทย์เลขคณิตที่ซับซ้อนโดยตรง
EQ-Bench Probe: ทำนายความเข้มของอารมณ์ในสถานการณ์ทางสังคมเป็นค่า 0~100
ทั้งสองทาสก์มี เอาต์พุตสั้นและคำตอบชัดเจน จึงเหมาะกับการวัดการเปลี่ยนแปลงเชิงโครงสร้าง

ฟังก์ชันให้คะแนนคณิตศาสตร์และการประเมินคำตอบบางส่วน

พัฒนาฟังก์ชันคำนวณ คะแนนความตรงกันบางส่วน เพื่อรองรับข้อผิดพลาดเชิงตัวเลขของ LLM เช่น หลุดหลักหรือสลับตำแหน่งตัวเลข
โดยแพดคำตอบสั้นและคำนวณความคลาดเคลื่อนสัมพัทธ์ เพื่อ แปลงความถูกต้องเป็นคะแนนต่อเนื่อง
ทำให้สามารถแยกความต่างของประสิทธิภาพเล็กน้อยออกมาเชิงปริมาณได้

โครงสร้างของโมเดล RYS-XLarge

ชุดที่ดีที่สุดคือ (45, 52) ซึ่งหมายถึงการรันเลเยอร์ 45~51 ซ้ำอีกหนึ่งรอบ
สรุปคือมีการ คัดลอก 7 เลเยอร์กลาง ทำให้พารามิเตอร์รวมเพิ่มจาก 72B → 78B
เปลี่ยนเฉพาะโครงสร้างโดยไม่แตะน้ำหนัก, และทำผ่านการคัดลอกพอยน์เตอร์จึงไม่ต้องใช้ VRAM เพิ่ม

ผลลัพธ์บนลีดเดอร์บอร์ด

รายการ	คะแนน	การปรับดีขึ้นเมื่อเทียบฐาน
ค่าเฉลี่ย	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

ดีขึ้นใน 5 รายการ และขึ้นอันดับ 1 บนลีดเดอร์บอร์ดด้วยคะแนนเฉลี่ย
เนื่องจากไม่ได้ใช้หัวข้อบนลีดเดอร์บอร์ดระหว่างการพัฒนา จึงถูกมองว่าเป็น ผลของการทำให้เป็นทั่วไปเชิงโครงสร้างอย่างแท้จริง

การค้นพบ “วงจรเชิงหน้าที่” ของ Transformer

การรันซ้ำเพียงเลเยอร์เดียวไม่ให้ผล แต่ การรันซ้ำเป็นบล็อกของเลเยอร์ที่ต่อเนื่องกัน กลับทำให้ประสิทธิภาพดีขึ้น
หมายความว่าเลเยอร์กลางไม่ได้ทำงานเป็นการคำนวณซ้ำอย่างอิสระ แต่ทำงานเป็น วงจรการคำนวณหลายขั้นตอน (circuit)
ตัวอย่างเช่น เลเยอร์ 46~52 ทำงานเป็นเหมือน “สูตร” ที่ดำเนินการให้เหตุผลทีละขั้น
- เมื่อรันทั้งบล็อกซ้ำ จะเกิดผลเหมือน ทำกระบวนการให้เหตุผลอีกรอบหนึ่ง

การวิเคราะห์ Heatmap และ “LLM Neuroanatomy”

ฮีตแมป ที่แสดงประสิทธิภาพของแต่ละคู่ (i, j) มีรูปแบบคล้าย fMRI
ในทาสก์คณิตศาสตร์ การรันซ้ำเลเยอร์กลางช่วยให้ดีขึ้น ขณะที่ทาสก์ EQ ดีขึ้นในอีกบริเวณหนึ่ง
สิ่งนี้ชี้ว่าภายใน Transformer มีวงจรเชิงหน้าที่เฉพาะตามประเภทงาน

ผลข้างเคียงจากการคัดลอกที่ไม่ถูกต้อง

บางชุดทำให้โมเดลเกิด การวนซ้ำทางภาษาที่ผิดปกติและเอาต์พุตหลงผิด
สิ่งนี้ถูกเปรียบเทียบว่าเป็นผลจากการขยายวงจรบางชุดมากเกินไป หรือเหมือน “ความเสียหายของสมองเทียม”
ตัวอย่างเช่น เมื่อวงจรด้านความเหมาะสมทางสังคมเสียหาย ก็จะเกิดรูปแบบการสนทนาที่ผิดปกติ

งานวิจัยต่อยอดและโมเดลที่สืบทอดมา

บนพื้นฐานของ RYS-XLarge มีนักวิจัยหลายคนทำ fine-tuning และการฝึกแบบ ORPO เพิ่มเติม
ณ ต้นปี 2026 โมเดล 4 อันดับแรกบนลีดเดอร์บอร์ดล้วนเป็น โมเดล 78B ที่อิงโครงสร้าง RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys เป็นต้น

การขยายเชิงโครงสร้างและความหมาย

การคัดลอกเลเยอร์ เป็นอิสระจาก fine-tuning และทำควบคู่กันได้
มันไม่ใช่วิธีเปลี่ยนว่าโมเดล “รู้อะไร” แต่เป็นวิธีเปลี่ยนว่าโมเดล “คิดอย่างไร”
ยิ่งโมเดลมีขนาดใหญ่ พื้นที่การทำงานยิ่งแยกหน้าที่ชัดเจน ทำให้การคัดลอกระดับวงจรมีประสิทธิผล
ส่วนโมเดลขนาดเล็ก ฟังก์ชันการเข้ารหัส การให้เหตุผล และการถอดรหัสยังพันกันอยู่ จึงให้ผลแบบเดียวกันได้จำกัด

แผนต่อไป

กำลังนำเทคนิคเดียวกันนี้ไปใช้กับโมเดลใหม่อย่าง Qwen, MiniMax, GLM และอื่น ๆ
ยืนยันว่าแต่ละโมเดลมี “โครงสร้างประสาทกายวิภาค” เฉพาะตัว
มีแผน เปิดเผยโค้ดและปล่อยซีรีส์ RYS เพิ่มเติมในอนาคต
ผู้เขียนอธิบายว่า “ตอนนี้เราไม่ได้ผ่าสมองหนูแล้ว แต่กำลังผ่าสมองเทียม”

บทสรุป

การทดลองที่ เพิ่มประสิทธิภาพ LLM ได้ด้วยการคัดลอกเลเยอร์เท่านั้น โดยไม่ต้องเปลี่ยนน้ำหนัก
เป็นหลักฐานเชิงประจักษ์ว่าภายใน Transformer มี วงจรเชิงหน้าที่และการแยกโครงสร้างตามหน้าที่
และชี้ทิศทางใหม่ให้กับทั้ง ความสามารถในการตีความโมเดล (mechanistic interpretability) และ การขยายสถาปัตยกรรมอย่างมีประสิทธิภาพ

1 ความคิดเห็น

GN⁺ 2026-03-11

ความเห็นจาก Hacker News

น่าประหลาดใจที่จำนวนคอมเมนต์เมื่อเทียบกับคะแนนนั้น ไม่สมดุล กันขนาดนี้
เนื้อหาในบทความแน่นมาก และน่าประทับใจที่อธิบายเรื่องเทคนิคได้ดีจนคนทั่วไปก็เข้าใจได้
โดยเฉพาะประเด็นที่ว่า “การที่ Goliath ใช้งานได้จริงนั้นน่าทึ่งในตัวมันเอง” ผมคิดว่านี่คือแก่นสำคัญ เลยสงสัยว่าทำไมนักวิจัยถึงไม่ได้ให้ความสนใจกับเรื่องนี้มากกว่านี้
อีกอย่าง เส้นทางที่ผู้เขียนเริ่มจากการวิจัยสมองในสาขาชีววิทยา แล้วมาเล่น AI อยู่ในห้องใต้ดินที่เต็มไปด้วย GPU(?) ก็น่าสนใจเหมือนกัน
- โปรเจ็กต์ optogenetics กับ CRISPR/Cas9 ก่อนหน้านี้ก็มีแผนจะเอามาลงบล็อกด้วย
  1. งานอื่น ๆ (เช่น Solar10.7B) ก็เคยลองแนวทางคล้ายกัน แต่มีการยืนยันเชิงทดลองแล้วว่าการคัดลอก transformer stack ทั้งก้อนไม่ใช่ไอเดียที่ดี เพราะมันเหมือนการคัดลอก ‘อวัยวะ’ ซ้ำทั้งชิ้น ทำให้ประสิทธิภาพลดลง
  2. งานวิจัยทางชีววิทยาสนุกดี แต่ การรีวิวเปเปอร์กับการขอทุนวิจัย ไม่เข้าทางผม เลยเริ่มเขียนบล็อกในฐานะนักวิจัยอิสระ หวังว่าสักวันจะมีคนอ้างอิงงานนี้
- อุปมาเรื่องเอาสมองแมวไปใส่หัวสุนัขนี่ตลกดี จริง ๆ แล้วผมไม่ได้คิดว่ามันน่าแปลกใจมาก
  เหมือนกับที่เคอร์เนลของชั้นแรก ๆ ใน CNN มักจะลู่เข้าเป็น Gabor filter ชั้นภายในของ LLM ก็น่าจะลู่เข้าไปสู่ การเหมาะที่สุดทางคณิตศาสตร์แบบสากล อย่างประสิทธิภาพพลังงาน การบีบอัดข้อมูล และการปรับเอนโทรปีให้เหมาะสม
ชอบมากที่เขาเล่าเส้นทางการค้นพบอย่างละเอียด กระบวนการน่าสนใจกว่าผลลัพธ์เสียอีก
โดยเฉพาะส่วนที่ใช้ การให้เหตุผลเชิงนามธรรมแบบซ้อนทับ เพื่อเพิ่มประสิทธิภาพ และส่วนที่ใช้ heatmap ทำให้เห็นภาพการกระจายความน่าจะเป็นได้ชัดเจนมาก
งานวิจัยที่เกี่ยวข้องก็กำลังค่อย ๆ ไล่ตามมา
- SOLAR / DUS (Kim et al., 2023): คัดลอกชั้น transformer เพื่อสร้างโมเดล 10.7B และได้ผลดีกว่าโมเดล 30B
- The Curse of Depth (2025): อธิบายว่าโครงสร้าง Pre-LN ทำให้ชั้นลึก ๆ ลู่เข้าไปเป็น identity function และชั้นกลางต่างหากที่ทำการคำนวณจริง
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): เสนอแนวทางขยาย ความลึกของการให้เหตุผล ด้วยการใช้ recurrent block เดียวซ้ำ ๆ
- ขอบคุณสำหรับคำชม!
  แต่โมเดลแบบ SOLAR สุดท้ายก็น่าจะชนข้อจำกัดอยู่ดี ดูจาก heatmap จะเห็นว่า transformer stack เริ่มจากน้ำหนักแบบสุ่ม แล้วระหว่างการฝึกก็ค่อย ๆ เปลี่ยนเป็นโครงสร้างเฉพาะทางเหมือน ‘อวัยวะ’
  อวัยวะแบบ ‘token-to-thought’ กับ ‘thought-to-token’ ควรมีอย่างละชิ้นเดียว สุดท้ายแล้ว โครงสร้างเฉพาะทาง น่าจะชนะเสมอ
เห็นด้วยกับประโยคที่ว่า “การที่ Goliath ใช้งานได้จริงนั้นน่าทึ่ง”
ก่อนหน้านี้ก็มีการทดลองเอาหลายโมเดลมารวมกันอยู่บ้าง แต่ส่วนใหญ่เป็นแค่ การทดลองของคอมมูนิตี้ บน Reddit หรือ Discord มากกว่า นักวิจัยในมหาวิทยาลัยหรือในบริษัทไม่ได้สนใจมากนัก
ถึงอย่างนั้นก็ยังอยากรู้ว่าถ้าเอาชั้นของโมเดลที่ต่างกันมากอย่าง Llama กับ Qwen มาผสมกัน จะยังทำงานได้ไหม
อีกเรื่องที่น่าสนใจคือทำไม LLM ถึงมักพลาดแบบแปลก ๆ ในโจทย์เลขคณิต เช่น ลืมเลขหลักสุดท้ายหรือสลับลำดับตัวเลข อยากลองทดสอบดูว่าถ้าบังคับ การ parse ไวยากรณ์ จะช่วยได้ไหม
- การผสมโมเดลต่างชนิดกันน่าจะยากเพราะ ขนาด embedding หรือ ความต่างของชุดคำศัพท์ ต่อให้สถาปัตยกรรมเหมือนกัน แต่ถ้าข้อมูลฝึกต่างกัน การแทนค่าภายในก็อาจต่างกันได้ ถึงอย่างนั้นลองดูก็น่าสนุก
- หัวข้อแบบนี้เหมาะกับ นักวิจัยสายงานอดิเรก มาก เพราะบริษัทจะโฟกัสกับการ fine-tune โมเดลที่มีอยู่แล้วมากกว่า
- ตัวเลขหลายหลักมีชุดโทเคนที่เป็นไปได้จำนวนมาก เลยซับซ้อน โค้ดในบล็อกช่วยดึง ตัวชี้วัดที่มีประโยชน์จากคำตอบที่ถูกเพียงบางส่วน ได้
ไอเดียที่ว่าอาจมี ภาษากลางทางการรับรู้ (cognitive lingua franca) ซ่อนอยู่ภายใน LLM เป็นอะไรที่น่าสนใจมาก
ถ้าใช้สิ่งนี้ได้ เราอาจสร้าง คลังความรู้แบบเสียบเพิ่มได้ ก็ได้
ถ้าสร้างโมเดลขนาดเล็กที่เสียบเฉพาะความรู้ที่ต้องใช้ เราก็อาจคงความทันสมัยของความรู้ไว้ได้โดยไม่ต้องฝึกใหม่ทั้งโมเดล
- คำว่า “เสียบคลังความรู้เข้าไป” นี่นึกภาพแล้วขำ — LLM: “...ตอนนี้ฉันรู้กังฟูแล้ว”
- LLM ในอนาคตอาจกลายเป็นสถาปัตยกรรมที่เสียบเลเยอร์ encoding/decoding แบบ มาตรฐาน เข้ากับเลเยอร์ตรรกะ
- โครงสร้างแบบนี้อาจช่วยลด ภาพหลอน (hallucination) ได้ด้วย
- จริง ๆ แล้วก็อดคิดไม่ได้ว่านี่คล้ายกับสิ่งที่ LoRA ทำอยู่แล้วหรือเปล่า
สิ่งที่ผู้เขียนพูดเรื่อง latent space reasoning น่าประทับใจจริง ๆ
แค่คัดลอกชั้นก็ทำให้การฝึกยังย้อนกลับผ่าน backpropagation ได้ น่าทึ่งมาก
เลยอยากรู้ว่าถ้าเอาชั้นที่คัดลอกแล้วมาวนซ้ำเป็น loop ประสิทธิภาพจะเปลี่ยนอย่างไร ถ้าเทียบกับโมเดล MoE ก็อาจช่วยดูได้ว่าแต่ละชั้นทำงานเหมือนผู้เชี่ยวชาญอิสระหรือไม่
- ผมลองคัดลอกทีละชั้นแล้ว แต่ไม่เห็นผลมากนัก ตรงกันข้าม feedback จาก output→input ส่วนใหญ่กลับให้ผลเสีย
  แต่การทดลองคัดลอกหลายช่วงชั้นพร้อมกัน แล้วให้ meta-model ที่ใช้ XGBoost ทำนายการรวมผล กลับน่าสนใจมาก และใช้กับ MoE ได้ดีด้วย
  เพียงแต่ภรรยาผมไม่ได้ชอบการเสียเวลาแบบนี้นัก(?)
- LoopLM ก็ดูเหมือนจะพูดถึงไอเดียคล้ายกัน
แนวคิดเรื่อง ‘ผ่าตัดสมอง’ ของ LLM นั้นชวนหลงใหลมาก ตอนที่ llama.cpp เริ่มรองรับโมเดล vision ผมเคยลองทำ embedding บางส่วนที่ projector สร้างขึ้นให้เป็น 0 แล้วให้ LLM อธิบายภาพ
ปรากฏว่ามันสร้างรายละเอียดที่ไม่มีอยู่จริงขึ้นมาได้อย่างน่าทึ่ง เช่น คนหรือฉากหลัง ที่ไม่เคยมีอยู่
สักวันหนึ่งอยากทดลองอย่างเป็นระบบว่ามิติของเวกเตอร์แต่ละตัวสัมพันธ์กับความหมายอย่างไร
- ยุคนี้เป็นช่วงเวลาที่ดีมากสำหรับการใช้ชีวิตแบบแฮ็กเกอร์
ผมเองก็มีลางสังหรณ์คล้ายกันเกี่ยวกับ การใช้ชั้นกลาง
ผมเริ่มจัดระเบียบความคิดหลังดู วิดีโอ YouTube นี้ แล้วได้ข้อสรุปว่ายิ่งวนชั้นซ้ำมากเท่าไร ลำดับของชั้นก็ยิ่งไม่จำเป็นต้องตายตัว
ถ้าระหว่างการวนซ้ำมีบางชั้นที่ไม่จำเป็นและข้ามได้ หรือมีแค่บางชั้นที่ควรวนซ้ำ สุดท้ายมันอาจลงเอยเป็น โมเดล MOE แบบชั้นเดียว ก็ได้
อาจมีแนวคิดแบบปุ่มปรับ ความเข้มข้นของการให้เหตุผล เพื่อกำหนดว่า “จะคิดลึกแค่ไหน” ด้วย
- เป็นไอเดียที่น่าสนใจมาก แต่ถ้าสุ่มลำดับชั้นแบบเต็มที่จริง ๆ อาจเจอปัญหา การระเบิดของจำนวนชุดผสม ได้
  ถึงอย่างนั้น การลองสุ่มลำดับการเรียก transformer block แล้วดูว่าประสิทธิภาพเปลี่ยนอย่างไร ก็น่าจะน่าสนใจ
ระหว่างอ่านบทความ ผมรู้สึกคล้อยตามกับแนวคิดเรื่อง โครงสร้างเชิงเรขาคณิตของความรู้
วิธีคิดแบบ generalist ที่ข้ามสาขาไปมาได้น่าจะสะท้อนโครงสร้างประสาทแบบนี้
อ่านแล้ววันนี้อารมณ์ดีขึ้นเลย
- ขอบคุณ
น่าสนใจที่ดูเหมือนว่าจะมีบล็อกชั้นอยู่ราว 7 ชั้นที่ทำงานได้ และถ้ามากหรือน้อยกว่านั้นกลับใช้ไม่ได้
นี่อาจบ่งชี้ว่าภายใน transformer มี หน่วยการทำงาน (‘อวัยวะ’) ที่เรายังไม่เข้าใจอยู่
เลยอยากรู้ว่าในสถาปัตยกรรมอื่นนอกจาก Qwen เช่น Llama หรือ Mistral จะมี ‘เวทมนตร์ 7 ชั้น’ แบบเดียวกันไหม
พอมองจากไอเดียนี้ ก็มีสองคำถามโผล่ขึ้นมา
1. เราควร ฝึกโมเดลให้เป็นโครงสร้างแบบวนลูปตั้งแต่ต้น เลยหรือไม่?
2. การใช้ จำนวนชั้นที่ตายตัว ยังเป็นแนวทางที่ถูกต้องหรือเปล่า?
  ถ้าโมเดลทนต่อการดัดแปลงชั้นภายในได้มากขนาดนี้ ก็อาจไม่จำเป็นต้องให้ทุกโทเคนวิ่งผ่านทุกชั้นเสมอไป
  ถ้าสร้างโมเดลที่ปรับจำนวนรอบการวนตามความยากของปัญหาได้ โจทย์ง่ายก็จะตอบได้เร็ว ส่วนโจทย์ยากก็ใช้การให้เหตุผลที่ลึกขึ้นได้
  ระหว่างการฝึก อาจสอนให้มันประเมิน confidence ของตัวเองเพื่อใช้ตัดสินว่าจำเป็นต้องคำนวณเพิ่มหรือไม่

วิธีคว้าอันดับ 1 บน HuggingFace Open LLM Leaderboard — ด้วยการ์ดจอเกมมิง 2 ใบ โดยไม่ต้องเปลี่ยนน้ำหนักโมเดล

Open LLM Leaderboard และที่มาของการทดลอง

เบาะแส 1 – การทดลองสนทนาแบบ Base64

เบาะแส 2 – โครงสร้างผิดปกติของโมเดล Goliath-120B

การสร้าง “brain scanner”

การออกแบบพร็อกซีทาสก์

ฟังก์ชันให้คะแนนคณิตศาสตร์และการประเมินคำตอบบางส่วน

โครงสร้างของโมเดล RYS-XLarge

ผลลัพธ์บนลีดเดอร์บอร์ด

การค้นพบ “วงจรเชิงหน้าที่” ของ Transformer

การวิเคราะห์ Heatmap และ “LLM Neuroanatomy”

ผลข้างเคียงจากการคัดลอกที่ไม่ถูกต้อง

งานวิจัยต่อยอดและโมเดลที่สืบทอดมา

การขยายเชิงโครงสร้างและความหมาย

แผนต่อไป

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News