- บทความเกี่ยวกับความยากลำบากในการนำโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) ไปใช้งานจริง: เนื่องจากขนาดและความต้องการด้านการประมวลผล ทำให้หลายทีมวิจัยเข้าถึงได้ยาก โดยเฉพาะแอปพลิเคชันที่ต้องการประสิทธิภาพแบบหน่วงต่ำ
- เพื่อเอาชนะความท้าทายเหล่านี้ มักมีการนำโมเดลเฉพาะทางขนาดเล็กที่ฝึกด้วยการปรับจูนอย่างละเอียดหรือการกลั่นความรู้มาใช้งาน อย่างไรก็ตาม วิธีเหล่านี้ก็มีข้อจำกัดของตัวเอง เช่น ต้องใช้ป้ายกำกับที่มนุษย์สร้างขึ้น หรือข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก
- ผู้เขียนแนะนำกลไกใหม่ชื่อ "การกลั่นแบบทีละขั้น" ซึ่งช่วยให้สามารถฝึกโมเดลขนาดเล็กเฉพาะงานได้ด้วยข้อมูลฝึกที่น้อยกว่าวิธีการปรับจูนอย่างละเอียดหรือการกลั่นความรู้แบบมาตรฐานอย่างมาก
- กลไกนี้ทำให้โมเดล T5 ขนาด 770M พารามิเตอร์ เอาชนะโมเดล PaLM ขนาด 540B ที่ถูกพรอมป์แบบ few-shot ได้ โดยใช้เพียง 80% ของตัวอย่างในชุดข้อมูลเบนช์มาร์ก และแสดงให้เห็นการลดขนาดโมเดลลงมากกว่า 700 เท่า พร้อมใช้ข้อมูลฝึกน้อยกว่าวิธีมาตรฐานอย่างมาก
- แนวคิดหลักของการกลั่นแบบทีละขั้นคือการดึงเหตุผลในภาษาธรรมชาติที่มีข้อมูลหนาแน่นออกมาจาก LLMs และใช้สิ่งนี้เพื่อฝึกโมเดลขนาดเล็กได้อย่างมีประสิทธิภาพมากขึ้น
- กระบวนการนี้ประกอบด้วย 2 ขั้นตอนหลัก: ขั้นแรก ใช้ CoT prompt แบบ few-shot เพื่อดึงเหตุผลจาก LLMs และขั้นที่สอง จัดกระบวนการฝึกเป็นปัญหาแบบหลายงาน เพื่อรวมเหตุผลเหล่านั้นเข้าไปในการฝึกโมเดลขนาดเล็ก
- ผู้เขียนได้ทำการทดลองบนชุดข้อมูลเบนช์มาร์ก 4 ชุด ครอบคลุมงาน NLP ที่แตกต่างกัน 3 งาน และพบว่าวิธีการกลั่นแบบทีละขั้นให้ประสิทธิภาพที่ดีกว่าเมื่อเทียบกับการปรับจูนอย่างละเอียดแบบมาตรฐาน ทั้งที่ใช้ข้อมูลฝึกน้อยกว่ามาก
- กลไกการกลั่นแบบทีละขั้นสามารถใช้งานได้ใน Vertex AI ซึ่งเป็นแพลตฟอร์ม Google Cloud โดยเปิดให้ใช้งานในรูปแบบพรีวิวแบบปิด
- งานวิจัยนี้ดำเนินการโดย Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee และ Tomas Pfister
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News