Karpathy ใช้ Autoresearch ปรับจูน nanochat อัตโนมัติ 2 วัน ลดเวลาเทรน GPT-2 ลง 11%

xguru · 2026-03-11T10:41:56+09:00

เอเจนต์ Autoresearch ที่เปิดตัวเมื่อ 3 วันก่อน ได้ลองเปลี่ยนแปลงราว 700 แบบอย่างอัตโนมัตินานประมาณ 2 วันบนโมเดลที่มี depth=12 และค้นพบ การเปลี่ยนแปลงที่ใช้ได้จริงราว 20 รายการ ซึ่งช่วยปรับปรุง validation loss การเปลี่ยนแปลงที่ค้นพบทั้งหมดเป็นแบบ additive และสามารถถ่ายทอดไปยังโมเดลที่ใหญ่ขึ้นซึ่งมี depth=24 ได้โดยตรง ทำให้ค่า "Time to GPT-2" บนลีดเดอร์บอร์ดลดจาก 2.02 ชั่วโมงเหลือ 1.80 ชั่วโมง หรือลดลงราว 11% ก่อนหน้านี้ วงจร การปรับแต่งด้วยมือแบบวนซ้ำ เช่น คิดไอเดีย → ลงมือทำ → ตรวจสอบ validation loss → อ้างอิงงานวิจัย ได้ถูกทำมาอย่างต่อเนื่องตลอด 20 ปี ครั้งนี้ เอเจนต์ได้ทำเวิร์กโฟลว์แบบ end-to-end ทั้งหมด ตั้งแต่การวิเคราะห์ลำดับของผลการทดลอง ไปจนถึงการ วางแผนการทดลองถัดไปอย่างอัตโนมัติ บนพื้นฐานของข้อมูลนั้น ตอนนี้ได้คอมมิตผลลัพธ์ของ "round 1" เรียบร้อยแล้ว และมีแผนจะเริ่ม "round 2" รวมถึงกำลังศึกษาวิธี การทำงานร่วมกันระหว่างเอเจนต์หลายตัว (collaboration) เพื่อรองรับการประมวลผลแบบขนานด้วย (AgentHub) แม้จะยังไม่ถึงระดับ งานวิจัยที่พลิกวงการ (ground-breaking research) แต่การปรับปรุงจริงที่เคยพลาดไปจากการจูนด้วยมือได้สะสมจนกลายเป็นการยกระดับประสิทธิภาพอย่างเป็นรูปธรรม เมื่อนำไปใช้ในสเกลใหญ่ เรื่องนี้ซับซ้อนกว่าการจูน train.py เพียงไฟล์เดียวมาก แต่โดยแก่นแล้วมันคือ ปัญหาทางวิศวกรรม ที่สามารถแก้ได้ แนวทางคือใช้ agent swarm ปรับจูนตั้งแต่โมเดลขนาดเล็ก แล้วค่อยยกระดับไอเดียที่มีแววไปสู่สเกลใหญ่ขึ้น ซึ่งน่าจะเป็นทิศทางที่ทุก LLM frontier lab เลี่ยงไม่ได้ที่จะต้องนำไปใช้ ทุกเมตริก ที่สามารถประเมินได้อย่างมีประสิทธิภาพ (หรือมี proxy metric) สามารถเป็นเป้าหมายของการเพิ่มประสิทธิภาพแบบอัตโนมัตินี้ได้

(x.com/karpathy)

17 คะแนน โดย xguru 2026-03-11 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

เอเจนต์ Autoresearch ที่เปิดตัวเมื่อ 3 วันก่อน ได้ลองเปลี่ยนแปลงราว 700 แบบอย่างอัตโนมัตินานประมาณ 2 วันบนโมเดลที่มี depth=12 และค้นพบ การเปลี่ยนแปลงที่ใช้ได้จริงราว 20 รายการ ซึ่งช่วยปรับปรุง validation loss
การเปลี่ยนแปลงที่ค้นพบทั้งหมดเป็นแบบ additive และสามารถถ่ายทอดไปยังโมเดลที่ใหญ่ขึ้นซึ่งมี depth=24 ได้โดยตรง ทำให้ค่า "Time to GPT-2" บนลีดเดอร์บอร์ดลดจาก 2.02 ชั่วโมงเหลือ 1.80 ชั่วโมง หรือลดลงราว 11%
ก่อนหน้านี้ วงจร การปรับแต่งด้วยมือแบบวนซ้ำ เช่น คิดไอเดีย → ลงมือทำ → ตรวจสอบ validation loss → อ้างอิงงานวิจัย ได้ถูกทำมาอย่างต่อเนื่องตลอด 20 ปี
ครั้งนี้ เอเจนต์ได้ทำเวิร์กโฟลว์แบบ end-to-end ทั้งหมด ตั้งแต่การวิเคราะห์ลำดับของผลการทดลอง ไปจนถึงการ วางแผนการทดลองถัดไปอย่างอัตโนมัติ บนพื้นฐานของข้อมูลนั้น
ตอนนี้ได้คอมมิตผลลัพธ์ของ "round 1" เรียบร้อยแล้ว และมีแผนจะเริ่ม "round 2" รวมถึงกำลังศึกษาวิธี การทำงานร่วมกันระหว่างเอเจนต์หลายตัว (collaboration) เพื่อรองรับการประมวลผลแบบขนานด้วย (AgentHub)
แม้จะยังไม่ถึงระดับ งานวิจัยที่พลิกวงการ (ground-breaking research) แต่การปรับปรุงจริงที่เคยพลาดไปจากการจูนด้วยมือได้สะสมจนกลายเป็นการยกระดับประสิทธิภาพอย่างเป็นรูปธรรม
เมื่อนำไปใช้ในสเกลใหญ่ เรื่องนี้ซับซ้อนกว่าการจูน train.py เพียงไฟล์เดียวมาก แต่โดยแก่นแล้วมันคือ ปัญหาทางวิศวกรรม ที่สามารถแก้ได้
แนวทางคือใช้ agent swarm ปรับจูนตั้งแต่โมเดลขนาดเล็ก แล้วค่อยยกระดับไอเดียที่มีแววไปสู่สเกลใหญ่ขึ้น ซึ่งน่าจะเป็นทิศทางที่ทุก LLM frontier lab เลี่ยงไม่ได้ที่จะต้องนำไปใช้
ทุกเมตริก ที่สามารถประเมินได้อย่างมีประสิทธิภาพ (หรือมี proxy metric) สามารถเป็นเป้าหมายของการเพิ่มประสิทธิภาพแบบอัตโนมัตินี้ได้

3 ความคิดเห็น

hanje3765 2026-03-11

ผมลองดูแนวคิดของ Autoresearch กับ AgentHub แบบคร่าวๆ แล้ว
ก็รู้สึกว่าถ้าเอาสองอย่างนี้มารวมกัน มันอาจจะเป็นสิ่งที่ใกล้เคียงกับวงการวิชาการและสถาบันวิจัยของจริงก็ได้
สถาบันวิจัยส่งผลงานไปลงงานประชุมวิชาการ รับฟีดแบ็กมาปรับใช้ แล้วก็มีสถาบันวิจัยใหม่ๆ ศึกษาต่อ มันดูคล้ายกับ reinforcement learning ในรูปแบบที่ขยายออกไป
แม้ RL จะอธิบายได้ยาก แต่ผมรู้สึกว่านวัตกรรมที่แท้จริงคือพอขยายด้วยวิธีแบบนี้แล้ว มันกลับกลายเป็นว่าสามารถอธิบายอะไรก็ได้
ได้ยินมาว่า Karpathy มีส่วนช่วยออกแบบ Tesla FSD เลยก็เลยแอบคิดว่าแนวคิดนี้อาจจะต่อยอดมาจากตรงนั้นแล้วถูกนำมาสู่ฝั่งงานวิจัยหรือเปล่า
อย่างไรก็ดี คิดว่าเขาเป็นหนึ่งในคนที่ทำให้อยากติดตามต่อไปเรื่อยๆ ครับ

sea715 2026-03-11

ใช่ครับ ดังนั้นถ้ามองอีกแง่หนึ่ง ผมก็คิดว่านี่อาจเป็นอุปสรรคด่านสุดท้ายก่อนที่ AGI จะมาถึงก็ได้

xguru 2026-03-11

ดูเหมือนว่าเขาจะใช้ชีวิตอีกแบบหนึ่งจริง ๆ ฮ่า

Karpathy ใช้ Autoresearch ปรับจูน nanochat อัตโนมัติ 2 วัน ลดเวลาเทรน GPT-2 ลง 11%

บทความที่เกี่ยวข้อง

3 ความคิดเห็น