4 คะแนน โดย devworld 2026-01-07 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

สวัสดีครับ นี่คือบทความ arXiv ชิ้นแรกของผมที่ทำในฐานะงานวิจัยอิสระของนักเรียนมัธยมปลาย

Paper | Code

แนวคิดหลัก:
เนื่องจากการที่ LLM ใช้การคำนวณเท่ากันกับอินพุตที่ง่ายและอินพุตที่ยากนั้นไม่มีประสิทธิภาพ เราจึงใช้ reconstruction loss ของเลเยอร์ TTT เป็นสัญญาณในการตัดสินใจ UPDATE/SKIP
โดยไม่ต้องมีการฝึกเพิ่มเติม สามารถทำผลงานได้ 82-89% เมื่อเทียบกับ Oracle โดยใช้เพียง threshold + EMA

พัฒนาด้วย JAX/Flax และตอนนี้กำลังตรวจสอบการสเกลอัปด้วย Gemma 3

ยินดีรับฟีดแบ็กครับ!

3 ความคิดเห็น

 
jhk0530 2026-01-07

ยังเป็นนักเรียนมัธยมปลายอยู่แต่เจ๋งมากเลยนะครับ ปัญหาเรื่องผู้ค้ำประกันคุณแก้ไขอย่างไรครับ?

 
devworld 2026-01-07

ผมส่งอีเมลแบบ cold email ไปหาศาสตราจารย์และอาจารย์ปริญญาเอกจากต่างประเทศที่ทำวิจัยมาก่อนอย่างตั้งใจมาก ๆ จนได้รับมา!

 
jhk0530 2026-01-07

อ๋อ เป็นคำตอบที่ตรงประเด็นมากครับ