PonderTTT - การจัดสรรการคำนวณแบบปรับตัวบนพื้นฐาน TTT
(ponderttt.worldsw.dev)สวัสดีครับ นี่คือบทความ arXiv ชิ้นแรกของผมที่ทำในฐานะงานวิจัยอิสระของนักเรียนมัธยมปลาย
แนวคิดหลัก:
เนื่องจากการที่ LLM ใช้การคำนวณเท่ากันกับอินพุตที่ง่ายและอินพุตที่ยากนั้นไม่มีประสิทธิภาพ เราจึงใช้ reconstruction loss ของเลเยอร์ TTT เป็นสัญญาณในการตัดสินใจ UPDATE/SKIP
โดยไม่ต้องมีการฝึกเพิ่มเติม สามารถทำผลงานได้ 82-89% เมื่อเทียบกับ Oracle โดยใช้เพียง threshold + EMA
พัฒนาด้วย JAX/Flax และตอนนี้กำลังตรวจสอบการสเกลอัปด้วย Gemma 3
ยินดีรับฟีดแบ็กครับ!
3 ความคิดเห็น
ยังเป็นนักเรียนมัธยมปลายอยู่แต่เจ๋งมากเลยนะครับ ปัญหาเรื่องผู้ค้ำประกันคุณแก้ไขอย่างไรครับ?
ผมส่งอีเมลแบบ cold email ไปหาศาสตราจารย์และอาจารย์ปริญญาเอกจากต่างประเทศที่ทำวิจัยมาก่อนอย่างตั้งใจมาก ๆ จนได้รับมา!
อ๋อ เป็นคำตอบที่ตรงประเด็นมากครับ