การฝึกโมเดลภาษาใหญ่ที่ดีกว่าโดยใช้การคาดการณ์หลายโทเค็น
- โมเดลภาษาแบบขนาดใหญ่เช่น GPT และ Llama ถูกฝึกด้วยการสูญเสียจากการคาดการณ์โทเค็นถัดไป
- งานวิจัยนี้เสนอว่า การฝึกโมเดลภาษาให้คาดการณ์โทเค็นในอนาคตหลายตัวพร้อมกันจะทำให้ประสิทธิภาพการใช้ตัวอย่างดีขึ้น
- โดยเฉพาะที่แต่ละตำแหน่งของคอร์ปัสการฝึก ใช้หัวผลลัพธ์ที่เป็นอิสระจำนวน n ตัวที่ทำงานบน shared model trunk ร่วมกันในการคาดการณ์โทเค็นถัดไป n ตัว
- โดยพิจารณาการคาดการณ์หลายโทเค็นเป็นงานเสริม พบว่าความสามารถงานย่อยดีขึ้นทั้งในโมเดลโค้ดและโมเดลภาษาธรรมชาติ โดยไม่มี overhead เพิ่มในเวลาเรียนรู้
โมเดลที่ใหญ่ขึ้นยิ่งมีประสิทธิภาพมากขึ้นและยังน่าสนใจแม้ฝึกหลาย epoch
- วิธีนี้มีประสิทธิผลมากขึ้นเมื่อโมเดลมีขนาดใหญ่ และยังคงข้อได้เปรียบเมื่อฝึกหลาย epoch
- โดยเฉพาะใน benchmark การสร้าง เช่น งานโค้ด ข้อดีที่ได้ชัดเจนขึ้น และโมเดลนี้มักทำได้เหนือ baseline ที่แข็งแกร่งกว่าอยู่เสมอหลายเปอร์เซ็นต์พอยต์
- โมเดลขนาด 13B พารามิเตอร์แก้ปัญหาได้เพิ่มขึ้น 12% ใน HumanEval และ 17% ใน MBPP
มีประโยชน์ต่อการพัฒนา induction head และความสามารถในการอนุมานเชิงอัลกอริทึม
- การทดลองกับงานอัลกอริทึมขนาดเล็กแสดงว่าการคาดการณ์หลายโทเค็นช่วยเพิ่มศักยภาพในการพัฒนา induction head และความสามารถในการอนุมานเชิงอัลกอริทึม
- ข้อดีเพิ่มเติมคือ โมเดลที่ฝึกด้วยการคาดการณ์ 4 โทเค็นมีความเร็วในการอนุมานสูงสุดเร็วขึ้นถึง 3 เท่า แม้ใช้ batch size ใหญ่
ความคิดเห็น GN⁺
- เป็นงานวิจัยที่น่าสนใจที่เสนอวิธีการฝึกใหม่เพื่อยกระดับประสิทธิภาพของโมเดลภาษา โดยเฉพาะอย่างยิ่งที่สังเกตได้ชัดว่าประสิทธิภาพเพิ่มขึ้นชัดเจนขึ้นเมื่อเป็นโมเดลขนาดใหญ่
- ควรมีการทดลองเพิ่มเติมว่าการคาดการณ์หลายโทเค็นส่งผลต่อการเรียนรู้ความสัมพันธ์ระยะยาวอย่างไร ตัวอย่างเช่น การแก้ปัญหาการอ้างอิงข้ามประโยคซึ่งเป็นงาน dependency ระยะไกล และผลเปลี่ยนแปลงอย่างไร
- มีผลการปรับปรุงที่เด่นชัดในการสร้างในโดเมนเฉพาะเช่นการโค้ดหรือการแก้โจทย์คณิตศาสตร์ แต่ยังสงสัยว่ามีผลอย่างไรในงานความเข้าใจภาษาธรรมชาติทั่วไปหรือ QA แบรนด์ต่าง ๆ หากมีการเสริมผลการทดลองใน benchmark ที่หลากหลายคงดี
- การเพิ่มความเร็วในการอนุมานสามารถเป็นจุดแข็งด้านการใช้งานจริงได้มาก โดยดูเหมือนเหมาะกับระบบแชตบอทหรือระบบถามตอบที่ต้องการการตอบสนองแบบเรียลไทม์เป็นพิเศษ
- ในช่วงที่โมเดล RLHF อย่าง Constitutional AI ของ Anthropic หรือ InstructGPT ของ OpenAI ได้รับความสนใจ งานวิจัยนี้มีนัยสำคัญเพราะชี้ให้เห็นแนวทางยกระดับประสิทธิภาพของโมเดลภาษาด้วยการเรียนรู้แบบมีผู้สอนเพียงอย่างเดียว แม้ประเด็นการปรับแนวคุณค่าทางจริยธรรมจะยังคงเป็นโจทย์ที่ต้องแก้ไข แต่ด้านประสิทธิภาพการเรียนรู้ถือว่าเป็นแนวทางที่มีศักยภาพในการแข่งขัน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สรุป: