• บทความนี้นำเสนอวิธีการฝึกใหม่สำหรับโมเดลภาษาเชิงลึกขนาดใหญ่ (LLM) ที่เรียกว่า "การคาดการณ์หลายโทเคน" โดยมีแนวทางให้โมเดลคาดการณ์โทเคนในอนาคตหลายตัวในเวลาเดียวกัน ผู้เขียนแสดงให้เห็นว่ากลวิธีนี้นำไปสู่ประสิทธิภาพการใช้ตัวอย่างที่สูงขึ้น ซึ่งหมายความว่าโมเดลสามารถเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นจากปริมาณข้อมูลฝึกอบรมที่มีอยู่
• พวกเขาได้แสดงประสิทธิผลของวิธีนี้ต่อชุดงาน downstream ต่าง ๆ รวมถึงการสร้างโค้ดและการประมวลผลภาษาธรรมชาติ และแสดงให้เห็นว่าการคาดการณ์หลายโทเคนให้ผลเหนือเส้นฐานที่แข็งแกร่งได้อย่างต่อเนื่องหลายเปอร์เซ็นต์พ้อยต์ โดยเฉพาะอย่างยิ่ง โมเดลขนาด 13B ของพวกเขาแสดงการปรับปรุงที่สำคัญในเกณฑ์การวัดความสามารถด้านโค้ดที่ท้าทายเช่น HumanEval และ MBPP
• นอกเหนือจากประสิทธิภาพที่ดีขึ้นแล้ว การคาดการณ์หลายโทเคนยังให้ข้อได้เปรียบด้านการคำนวณ โมเดลที่ได้รับการฝึกด้วยการคาดการณ์ 4 โทเคนยังคงมีความเร็วในการอนุมานสูงสุดถึง 3 เท่าในการประมวลผลแบตช์ขนาดใหญ่ ทำให้มีประสิทธิภาพมากขึ้นสำหรับการใช้งานจริง
ยังไม่มีความคิดเห็น