3 คะแนน โดย GN⁺ 2023-09-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความเกี่ยวกับความยากลำบากในการนำโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) ไปใช้งานจริง: เนื่องจากขนาดและความต้องการด้านการประมวลผล ทำให้หลายทีมวิจัยเข้าถึงได้ยาก โดยเฉพาะแอปพลิเคชันที่ต้องการประสิทธิภาพแบบหน่วงต่ำ
  • เพื่อเอาชนะความท้าทายเหล่านี้ มักมีการนำโมเดลเฉพาะทางขนาดเล็กที่ฝึกด้วยการปรับจูนอย่างละเอียดหรือการกลั่นความรู้มาใช้งาน อย่างไรก็ตาม วิธีเหล่านี้ก็มีข้อจำกัดของตัวเอง เช่น ต้องใช้ป้ายกำกับที่มนุษย์สร้างขึ้น หรือข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก
  • ผู้เขียนแนะนำกลไกใหม่ชื่อ "การกลั่นแบบทีละขั้น" ซึ่งช่วยให้สามารถฝึกโมเดลขนาดเล็กเฉพาะงานได้ด้วยข้อมูลฝึกที่น้อยกว่าวิธีการปรับจูนอย่างละเอียดหรือการกลั่นความรู้แบบมาตรฐานอย่างมาก
  • กลไกนี้ทำให้โมเดล T5 ขนาด 770M พารามิเตอร์ เอาชนะโมเดล PaLM ขนาด 540B ที่ถูกพรอมป์แบบ few-shot ได้ โดยใช้เพียง 80% ของตัวอย่างในชุดข้อมูลเบนช์มาร์ก และแสดงให้เห็นการลดขนาดโมเดลลงมากกว่า 700 เท่า พร้อมใช้ข้อมูลฝึกน้อยกว่าวิธีมาตรฐานอย่างมาก
  • แนวคิดหลักของการกลั่นแบบทีละขั้นคือการดึงเหตุผลในภาษาธรรมชาติที่มีข้อมูลหนาแน่นออกมาจาก LLMs และใช้สิ่งนี้เพื่อฝึกโมเดลขนาดเล็กได้อย่างมีประสิทธิภาพมากขึ้น
  • กระบวนการนี้ประกอบด้วย 2 ขั้นตอนหลัก: ขั้นแรก ใช้ CoT prompt แบบ few-shot เพื่อดึงเหตุผลจาก LLMs และขั้นที่สอง จัดกระบวนการฝึกเป็นปัญหาแบบหลายงาน เพื่อรวมเหตุผลเหล่านั้นเข้าไปในการฝึกโมเดลขนาดเล็ก
  • ผู้เขียนได้ทำการทดลองบนชุดข้อมูลเบนช์มาร์ก 4 ชุด ครอบคลุมงาน NLP ที่แตกต่างกัน 3 งาน และพบว่าวิธีการกลั่นแบบทีละขั้นให้ประสิทธิภาพที่ดีกว่าเมื่อเทียบกับการปรับจูนอย่างละเอียดแบบมาตรฐาน ทั้งที่ใช้ข้อมูลฝึกน้อยกว่ามาก
  • กลไกการกลั่นแบบทีละขั้นสามารถใช้งานได้ใน Vertex AI ซึ่งเป็นแพลตฟอร์ม Google Cloud โดยเปิดให้ใช้งานในรูปแบบพรีวิวแบบปิด
  • งานวิจัยนี้ดำเนินการโดย Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee และ Tomas Pfister

1 ความคิดเห็น

 
GN⁺ 2023-09-24
ความคิดเห็นจาก Hacker News
  • คาดว่าโมเดลผู้เชี่ยวชาญขนาดเล็กกว่าจะครองการใช้งานส่วนใหญ่ เพราะมีสมดุลที่เหมาะสมที่สุดระหว่างขนาดและความสะดวกในการใช้งาน
  • โมเดลที่ผ่านการกลั่นด้วย T5 ชี้ให้เห็นว่าสถาปัตยกรรม encoder-decoder อาจยังคงมีความเกี่ยวข้อง
  • แนวทางนี้ไม่ได้ซับซ้อนเกินไป ซึ่งบ่งชี้ว่ายังมีสิ่งให้สำรวจอีกมากในวงการ Large Language Models (LLMs)
  • อนาคตของ LLMs อาจรวมถึงการผสมผสานของโมเดลผู้เชี่ยวชาญที่ฝึกด้วยแนวทางสไตล์นี้
  • ระดับของกิจกรรมและความก้าวหน้าในสาขา LLM, Machine Learning (ML) และ Artificial Intelligence (AI) นั้นน่าประทับใจ
  • การปรับให้เหมาะสมลักษณะนี้มีคุณค่าเมื่อฮาร์ดแวร์อย่าง Nvidia มีราคาแพง
  • โมเดลที่มีประสิทธิภาพที่สุดน่าจะเป็นแบบมัลติโหมด และได้รับการฝึกด้วยหลักสูตรแกนกลางที่ปรับแต่งอย่างรอบคอบ
  • มีคำถามว่าทำไมข้อมูลฝึกของ LLM จึงน้อยกว่าโมเดลแบบกลั่นและโมเดลเฉพาะงาน
  • มีการคาดเดาว่า Reinforcement Learning from Human Feedback (RLHF) จะจำเป็นสำหรับโมเดลขนาดเล็กเพื่อให้ทำผลงานได้ดีเทียบเท่า LLM ระดับล้ำสมัยหรือไม่
  • ยังไม่ชัดเจนว่าความจุจำนวนมากใน LLM ขนาดใหญ่ไม่ได้ถูกใช้งาน หรือว่าโมเดลภาษาขนาดเล็กเพียงแค่เลียนแบบงานด้านการให้เหตุผล
  • Mac Studio ที่รองรับหน่วยความจำ GPU ได้สูงสุด 144GB อาจถูกนำไปใช้ในพื้นที่บริการ LLM
  • มีข้อเสนอว่า Facebook อาจสามารถฝึก LLM จากประวัติการแชตทั้งหมดของผู้ใช้ได้