การคาดการณ์หลายโทเคนช่วยเพิ่มประสิทธิภาพการใช้ตัวอย่างและผลลัพธ์ของโมเดลภาษาแบบขนาดใหญ่

(arxiv.org)

2 คะแนน โดย brainer 2024-05-01 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

• บทความนี้นำเสนอวิธีการฝึกใหม่สำหรับโมเดลภาษาเชิงลึกขนาดใหญ่ (LLM) ที่เรียกว่า "การคาดการณ์หลายโทเคน" โดยมีแนวทางให้โมเดลคาดการณ์โทเคนในอนาคตหลายตัวในเวลาเดียวกัน ผู้เขียนแสดงให้เห็นว่ากลวิธีนี้นำไปสู่ประสิทธิภาพการใช้ตัวอย่างที่สูงขึ้น ซึ่งหมายความว่าโมเดลสามารถเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นจากปริมาณข้อมูลฝึกอบรมที่มีอยู่

• พวกเขาได้แสดงประสิทธิผลของวิธีนี้ต่อชุดงาน downstream ต่าง ๆ รวมถึงการสร้างโค้ดและการประมวลผลภาษาธรรมชาติ และแสดงให้เห็นว่าการคาดการณ์หลายโทเคนให้ผลเหนือเส้นฐานที่แข็งแกร่งได้อย่างต่อเนื่องหลายเปอร์เซ็นต์พ้อยต์ โดยเฉพาะอย่างยิ่ง โมเดลขนาด 13B ของพวกเขาแสดงการปรับปรุงที่สำคัญในเกณฑ์การวัดความสามารถด้านโค้ดที่ท้าทายเช่น HumanEval และ MBPP

• นอกเหนือจากประสิทธิภาพที่ดีขึ้นแล้ว การคาดการณ์หลายโทเคนยังให้ข้อได้เปรียบด้านการคำนวณ โมเดลที่ได้รับการฝึกด้วยการคาดการณ์ 4 โทเคนยังคงมีความเร็วในการอนุมานสูงสุดถึง 3 เท่าในการประมวลผลแบตช์ขนาดใหญ่ ทำให้มีประสิทธิภาพมากขึ้นสำหรับการใช้งานจริง

การคาดการณ์หลายโทเคนช่วยเพิ่มประสิทธิภาพการใช้ตัวอย่างและผลลัพธ์ของโมเดลภาษาแบบขนาดใหญ่

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น